为什么 AI 并不会“取代艺术”

最近看了特德·姜在纽约客上发表的文章：Why-ai-isnt-going-to-make-art

Ted Chiang 的核心观点很直接：生成式 AI 也许能批量产出“像样的东西”，但它很难真正替代艺术创作。原因不神秘，关键在于，艺术不是一个按下按钮就自动完成的结果，而是一个由无数选择构成的过程。真正的艺术价值，往往就藏在这些选择里。

文章一开始提到罗尔德·达尔的一篇小说，里面有人造出一台写小说的机器，只要调几个旋钮、踩几个踏板，就能快速生产故事。Ted Chiang 接着追问：我们为什么会本能地觉得，艺术不该只是“按一下按钮”这么简单？眼下大语言模型写出来的小说大多还很差，但就算它们以后变强了，是否就能像计算器超越人类做加减法那样，超越人类去写小说、画画、拍电影？他的答案是否定的。

他给出的判断标准是：艺术，本质上是大量选择累积出来的东西。写小说时，作者几乎对每一个词、每一句话、每一个节奏变化都在做决定。一个一万字短篇，粗略说，就是上万次选择的结果。相比之下，你给 AI 一个提示词，就算写了一百个词，也不过做了一百次左右的选择。剩下那几千、上万次决定，都是模型替你补上的。

问题就在这里。模型怎么补？一种做法，是把互联网上别人做过的表达取平均值，结果通常就是最不冒险、最不尖锐、最不新鲜的表达，所以 AI 文本常常空泛、平庸、没有真正的个性。另一种做法，是模仿某个具体作者的风格，结果则很容易变成高仿品、拼装货，依赖性极强，却谈不上真正的创造。无论是哪一种，作者都认为，这都不是有意思的艺术。

他把这个逻辑也延伸到视觉艺术。画家在创作一幅画时，做出的决定远远多于一个提示词能容纳的数量。你输入一句“一个穿盔甲的骑士正在和喷火龙搏斗”，真正决定画面构图、质感、笔触、光线、空间关系、情绪密度的，绝大部分都不是你，而是模型借来的。图像也许很精致，但使用者没资格把其中绝大部分成果算在自己头上。

有人喜欢拿摄影来类比生成式 AI，觉得当年摄影出现时也曾被看成“机械复制”，后来却成了艺术，所以 AI 图像未来也可能一样。Ted Chiang 认为，这个类比很浅。摄影后来被承认为艺术，不是因为它“自动生成了图像”，而是因为人们逐渐意识到，摄影师其实能做、也必须做非常多的选择：取景、时机、景深、角度、构图、曝光、运动、距离、主体关系，等等。摄影的艺术性恰恰来自这些选择。而文本生成图片的工具，并没有给创作者提供同样密度的控制力。

他也承认，理论上可以设想一种工具：它允许创作者经过很长时间、输入极多细节、反复修改，把图像控制到极其细腻的程度。如果真有这样的系统，那使用它的人当然仍然可以被叫作艺术家。文章里举了导演 Bennett Miller 的例子：他曾通过 DALL-E 2 反复迭代、生成十几万张图，最后才挑出二十张用于展览。Ted Chiang 的意思不是这不算创作，恰恰相反，这说明只有当人类投入大量判断和反复决策时，作品才开始真正接近“艺术”。但问题是，主流 AI 公司并不想做这种要求用户花几个月打磨一张图的产品。它们要卖的，是“尽量少费力就能出成果”的东西。而这恰好和艺术创作需要的机制相冲突。

写作也是同理。假如有一种写作软件，要求你前前后后输入十万字提示、反复界定结构、语气、节奏、人物关系，最后才生成另外十万字小说，那么这种工具也许仍能算是创作者的延伸。但市场不会欢迎这种产品，因为这等于承认：想得到好作品，你仍然得付出接近亲手创作的代价。可生成式 AI 的卖点恰恰是“你给得很少，它替你产出很多”。而正是这一点，使它不适合作为真正艺术家的核心工具。

作者还特别反对一种常见说法：AI 会“释放创造力”，让人只负责灵感，不必再处理辛苦、琐碎的执行。这个说法的问题在于，它把“灵感”和“落实”硬切开了，好像大方向重要，细节只是苦力。但在艺术里，这种切法本身就是错的。大决定和小决定并不是上下级关系，而是彼此塑造。艺术不是“先想一个好点子，再找东西把它填满”，而是在不断落实的过程中，作品真正长出自己的形状。很多人低估了句子、节奏、措辞这些微观层面的作用，以为故事梗概才是作品本体，这恰恰暴露了他们对媒介的无知。

因此，他说，生成式 AI 最吸引的，往往是那些以为自己可以“不真正进入某种媒介”，却仍然表达自己的那类人。他们把写句子当成麻烦，把画面处理当成杂活，把媒介本身看成一个碍事的管道。可真正的小说家、画家、导演，恰恰是因为看见了媒介独特的表达潜力，才愿意沉进那些细节里。艺术不是绕开媒介，而是进入媒介。

接着，文章把讨论从“艺术”扩展到更宽泛的写作。Ted Chiang 认为，不是所有文字都必须伟大，很多邮件、报告、说明文档，本来就不是为了成为文学作品。但只要某段文字值得你认真读，它就应当承载写作者投入过的心思。这个投入不保证成品一定有价值，但没有投入的东西，通常不值得他人的注意。

他举了一个广为争议的例子：Google 曾在巴黎奥运期间播放 Gemini 的广告，广告里父亲用 AI 帮女儿写给运动员的粉丝信。公众反感得很厉害。原因不在于大家期待小孩写出多么高明的文字，而在于那封信的意义，本来就不来自文采，而来自真心。一个孩子写给偶像的信，重要的是“这是她自己写的”。如果连这种最基本的情感表达都要交给模型，那被掏空的不是文笔，而是诚意本身。

作者进一步指出，很多人为大模型辩护时说，它们是在“像人类一样学习文本”，而不是在“洗白训练材料”。但在他看来，大语言模型根本不是作者，甚至严格说来，它连语言的真正使用者都算不上。语言不是把词按规则排好那么简单，语言首先是一种交流行为，而交流必须包含意图。手机输入法会给你补全句子，但它并没有“想对你说什么”；ChatGPT 生成看似连贯的句子，也不意味着它真的在表达什么。

一句“很高兴见到你”，之所以成立为一句话，不是因为词序正确，而是因为说这句话的人确实有某种感受，并想把这种感受传达给另一个人。狗不会说话，但它能真切地表达高兴；婴儿词汇很少，也能表达情绪。ChatGPT 什么都不感受，也没有想要表达的东西，所以它只是模拟了语言的外形，没有进入语言作为沟通行为的内核。

作者用了一个比喻：这有点像蝴蝶翅膀上长出酷似猛兽眼睛的花纹，足以吓退鸟类。但蝴蝶并不是掠食者，它只是碰巧长得像。大模型也是这样。它生成的句子之所以容易骗人，是因为人类太习惯于从连贯语言中自动推断“背后一定有主体、有意图、有经验”。而这里恰恰没有。

从这里，他又回到“灵感”这件事。有人会说，使用 AI 写作不过是在借鉴训练语料，就像作家从前人的作品中汲取营养一样。Ted Chiang 认为，这个说法偷换了概念。如果一个学生交上去的论文，实质上只是摘录了一大段别人的书，只是稍微改写到老师认不出来来源，那你不能把这叫作“受到启发”。改写得更隐蔽，并不会改变事情本质。

他还引用语言学家 Emily M. Bender 的观点：老师要求学生写论文，不是因为世界缺学生论文，而是因为写作训练本身能塑造思考能力。写文章之于脑力，就像举重之于身体训练。用 ChatGPT 替你完成作业，就像把叉车开进健身房帮你举铁，动作是完成了，但你本人什么也没长出来。

当然，他也承认，现实里确实有很多文字根本不需要创造性、真诚或高质量，它们只是为了完成行政流程、获取点击量、满足官僚体系的格式需求而存在。对于这种文字，人们用工具提速并不难理解。但他紧接着追问：世界真的会因为这种“低投入文档”越来越多而变得更好吗？他的判断并不乐观。相反，越是依赖大模型去满足这些低质量文本需求，制度就越可能反过来制造更多这种需求。最后就会出现一种荒唐景象：有人把要点列表扩写成长文发出去，对方再用另一个模型把长文压回要点列表。整个流程看似高效，实则只是制造了更多信息噪声。

所以，Ted Chiang 的结论不是“AI 一无是处”，也不是“计算机永远不可能做出任何有价值的东西”。他的真正结论更锋利：生成式 AI 当前最擅长的，也许不是提升创造力，而是降低我们对文字、图像和表达本身的期待。它把人当成可以被“自动补全”的东西，好像人类不是意义的创造者和接收者，而只是一些等待被预测的输出位。

而艺术恰恰相反。艺术不是为了追求绝对的新奇，也不是为了证明自己和前人完全不同。你说“对不起”，这句话并不新，但只要它出自真诚，就有意义。你说“我很高兴见到你”，这句话也不新，但只要它真的是你在此刻对某个人说出来，它就成立。艺术也是这样。一本小说、一幅画、一部电影，并不需要和人类历史上所有作品都彻底不同，才配得上“有价值”。它之所以有价值，是因为它来自某个具体的人，来自那个人独特的经验、感受、判断和生命时刻，也进入了另一个具体观众此刻的生命之中。

这件事，自动补全做不到。它没有生活，也没有意图，因此也不可能真正把意义带进世界。

为什么 AI 并不会“取代艺术”

PhiloKids | 哲学少年

亲子对话卡牌游戏，培养独立思考的孩子