最近看了特德·姜在纽约客上发表的文章:Why-ai-isnt-going-to-make-art
Ted Chiang 的核心观点很直接:生成式 AI 也许能批量产出“像样的东西”,但它很难真正替代艺术创作。原因不神秘,关键在于,艺术不是一个按下按钮就自动完成的结果,而是一个由无数选择构成的过程。真正的艺术价值,往往就藏在这些选择里。
文章一开始提到罗尔德·达尔的一篇小说,里面有人造出一台写小说的机器,只要调几个旋钮、踩几个踏板,就能快速生产故事。Ted Chiang 接着追问:我们为什么会本能地觉得,艺术不该只是“按一下按钮”这么简单?眼下大语言模型写出来的小说大多还很差,但就算它们以后变强了,是否就能像计算器超越人类做加减法那样,超越人类去写小说、画画、拍电影?他的答案是否定的。
他给出的判断标准是:艺术,本质上是大量选择累积出来的东西。写小说时,作者几乎对每一个词、每一句话、每一个节奏变化都在做决定。一个一万字短篇,粗略说,就是上万次选择的结果。相比之下,你给 AI 一个提示词,就算写了一百个词,也不过做了一百次左右的选择。剩下那几千、上万次决定,都是模型替你补上的。
问题就在这里。模型怎么补?一种做法,是把互联网上别人做过的表达取平均值,结果通常就是最不冒险、最不尖锐、最不新鲜的表达,所以 AI 文本常常空泛、平庸、没有真正的个性。另一种做法,是模仿某个具体作者的风格,结果则很容易变成高仿品、拼装货,依赖性极强,却谈不上真正的创造。无论是哪一种,作者都认为,这都不是有意思的艺术。
他把这个逻辑也延伸到视觉艺术。画家在创作一幅画时,做出的决定远远多于一个提示词能容纳的数量。你输入一句“一个穿盔甲的骑士正在和喷火龙搏斗”,真正决定画面构图、质感、笔触、光线、空间关系、情绪密度的,绝大部分都不是你,而是模型借来的。图像也许很精致,但使用者没资格把其中绝大部分成果算在自己头上。
有人喜欢拿摄影来类比生成式 AI,觉得当年摄影出现时也曾被看成“机械复制”,后来却成了艺术,所以 AI 图像未来也可能一样。Ted Chiang 认为,这个类比很浅。摄影后来被承认为艺术,不是因为它“自动生成了图像”,而是因为人们逐渐意识到,摄影师其实能做、也必须做非常多的选择:取景、时机、景深、角度、构图、曝光、运动、距离、主体关系,等等。摄影的艺术性恰恰来自这些选择。而文本生成图片的工具,并没有给创作者提供同样密度的控制力。
他也承认,理论上可以设想一种工具:它允许创作者经过很长时间、输入极多细节、反复修改,把图像控制到极其细腻的程度。如果真有这样的系统,那使用它的人当然仍然可以被叫作艺术家。文章里举了导演 Bennett Miller 的例子:他曾通过 DALL-E 2 反复迭代、生成十几万张图,最后才挑出二十张用于展览。Ted Chiang 的意思不是这不算创作,恰恰相反,这说明只有当人类投入大量判断和反复决策时,作品才开始真正接近“艺术”。但问题是,主流 AI 公司并不想做这种要求用户花几个月打磨一张图的产品。它们要卖的,是“尽量少费力就能出成果”的东西。而这恰好和艺术创作需要的机制相冲突。
写作也是同理。假如有一种写作软件,要求你前前后后输入十万字提示、反复界定结构、语气、节奏、人物关系,最后才生成另外十万字小说,那么这种工具也许仍能算是创作者的延伸。但市场不会欢迎这种产品,因为这等于承认:想得到好作品,你仍然得付出接近亲手创作的代价。可生成式 AI 的卖点恰恰是“你给得很少,它替你产出很多”。而正是这一点,使它不适合作为真正艺术家的核心工具。
作者还特别反对一种常见说法:AI 会“释放创造力”,让人只负责灵感,不必再处理辛苦、琐碎的执行。这个说法的问题在于,它把“灵感”和“落实”硬切开了,好像大方向重要,细节只是苦力。但在艺术里,这种切法本身就是错的。大决定和小决定并不是上下级关系,而是彼此塑造。艺术不是“先想一个好点子,再找东西把它填满”,而是在不断落实的过程中,作品真正长出自己的形状。很多人低估了句子、节奏、措辞这些微观层面的作用,以为故事梗概才是作品本体,这恰恰暴露了他们对媒介的无知。
因此,他说,生成式 AI 最吸引的,往往是那些以为自己可以“不真正进入某种媒介”,却仍然表达自己的那类人。他们把写句子当成麻烦,把画面处理当成杂活,把媒介本身看成一个碍事的管道。可真正的小说家、画家、导演,恰恰是因为看见了媒介独特的表达潜力,才愿意沉进那些细节里。艺术不是绕开媒介,而是进入媒介。
接着,文章把讨论从“艺术”扩展到更宽泛的写作。Ted Chiang 认为,不是所有文字都必须伟大,很多邮件、报告、说明文档,本来就不是为了成为文学作品。但只要某段文字值得你认真读,它就应当承载写作者投入过的心思。这个投入不保证成品一定有价值,但没有投入的东西,通常不值得他人的注意。
他举了一个广为争议的例子:Google 曾在巴黎奥运期间播放 Gemini 的广告,广告里父亲用 AI 帮女儿写给运动员的粉丝信。公众反感得很厉害。原因不在于大家期待小孩写出多么高明的文字,而在于那封信的意义,本来就不来自文采,而来自真心。一个孩子写给偶像的信,重要的是“这是她自己写的”。如果连这种最基本的情感表达都要交给模型,那被掏空的不是文笔,而是诚意本身。
作者进一步指出,很多人为大模型辩护时说,它们是在“像人类一样学习文本”,而不是在“洗白训练材料”。但在他看来,大语言模型根本不是作者,甚至严格说来,它连语言的真正使用者都算不上。语言不是把词按规则排好那么简单,语言首先是一种交流行为,而交流必须包含意图。手机输入法会给你补全句子,但它并没有“想对你说什么”;ChatGPT 生成看似连贯的句子,也不意味着它真的在表达什么。
一句“很高兴见到你”,之所以成立为一句话,不是因为词序正确,而是因为说这句话的人确实有某种感受,并想把这种感受传达给另一个人。狗不会说话,但它能真切地表达高兴;婴儿词汇很少,也能表达情绪。ChatGPT 什么都不感受,也没有想要表达的东西,所以它只是模拟了语言的外形,没有进入语言作为沟通行为的内核。
作者用了一个比喻:这有点像蝴蝶翅膀上长出酷似猛兽眼睛的花纹,足以吓退鸟类。但蝴蝶并不是掠食者,它只是碰巧长得像。大模型也是这样。它生成的句子之所以容易骗人,是因为人类太习惯于从连贯语言中自动推断“背后一定有主体、有意图、有经验”。而这里恰恰没有。
从这里,他又回到“灵感”这件事。有人会说,使用 AI 写作不过是在借鉴训练语料,就像作家从前人的作品中汲取营养一样。Ted Chiang 认为,这个说法偷换了概念。如果一个学生交上去的论文,实质上只是摘录了一大段别人的书,只是稍微改写到老师认不出来来源,那你不能把这叫作“受到启发”。改写得更隐蔽,并不会改变事情本质。
他还引用语言学家 Emily M. Bender 的观点:老师要求学生写论文,不是因为世界缺学生论文,而是因为写作训练本身能塑造思考能力。写文章之于脑力,就像举重之于身体训练。用 ChatGPT 替你完成作业,就像把叉车开进健身房帮你举铁,动作是完成了,但你本人什么也没长出来。
当然,他也承认,现实里确实有很多文字根本不需要创造性、真诚或高质量,它们只是为了完成行政流程、获取点击量、满足官僚体系的格式需求而存在。对于这种文字,人们用工具提速并不难理解。但他紧接着追问:世界真的会因为这种“低投入文档”越来越多而变得更好吗?他的判断并不乐观。相反,越是依赖大模型去满足这些低质量文本需求,制度就越可能反过来制造更多这种需求。最后就会出现一种荒唐景象:有人把要点列表扩写成长文发出去,对方再用另一个模型把长文压回要点列表。整个流程看似高效,实则只是制造了更多信息噪声。
所以,Ted Chiang 的结论不是“AI 一无是处”,也不是“计算机永远不可能做出任何有价值的东西”。他的真正结论更锋利:生成式 AI 当前最擅长的,也许不是提升创造力,而是降低我们对文字、图像和表达本身的期待。它把人当成可以被“自动补全”的东西,好像人类不是意义的创造者和接收者,而只是一些等待被预测的输出位。
而艺术恰恰相反。艺术不是为了追求绝对的新奇,也不是为了证明自己和前人完全不同。你说“对不起”,这句话并不新,但只要它出自真诚,就有意义。你说“我很高兴见到你”,这句话也不新,但只要它真的是你在此刻对某个人说出来,它就成立。艺术也是这样。一本小说、一幅画、一部电影,并不需要和人类历史上所有作品都彻底不同,才配得上“有价值”。它之所以有价值,是因为它来自某个具体的人,来自那个人独特的经验、感受、判断和生命时刻,也进入了另一个具体观众此刻的生命之中。
这件事,自动补全做不到。它没有生活,也没有意图,因此也不可能真正把意义带进世界。