13910160652
010-52852558
| |EN
首页 > 理论前沿 > 版权
  • 13910160652
  • ciplawyer@163.com

论人工智能生成内容的可版权性:以用户的独创性表达为视角

日期:2024-02-07 来源:知识产权杂志 作者:蒋舸 浏览量:
字号:

内容提要


AIGC既包含来自机器的选择,也包含来自人类用户的选择。当后者满足独创性表达要求时,AIGC便足以被认定为作品。在判断用户的独创性表达时,裁判者应当关心人贡献了什么,而不是工具贡献了什么;应当关心人贡献了什么,而不是人没有贡献什么;应当关心人贡献的实质,而非纠结于其形式。在以上原则的指导下,既有的作品构成要件规则足以支持相当一部分AIGC获得作品资格。AIGC的所谓“随机性”,只是发生在用户指定范围内的“随机”,并不妨碍用户控制达到著作权法的要求。作为文本的提示词,具有转化为包括视觉表达在内的其他类型表达的可能性。若以摄影为参照系,AI与传统工具的比较不仅不能导致对作品资格的否定,反而能够凸显“工具贡献大并不意味着人的贡献不足”。著作权法的“宽进宽出”结构提示我们,将用户做出独创性表达的AIGC纳入著作权法图式是在认知层面最为经济的利益平衡分析框架。考虑到独立创作例外和版权救济手段的灵活性,承认AIGC获得作品资格的可能性并不会过度妨碍公众自由。


关 键 词


人工智能生成内容 独创性 思想/表达二分法 固定性 认知经济性


在人工智能(以下简称AI)用户做出独创性表达的情况下,人工智能生成内容(以下简称AIGC)是否构成作品?近日,中国法院和美国版权局针对近似事实发表了截然相反的意见:对于用户通过在AI绘画工具中输入大量提示词(prompts)和参数所获得的图片,中国法院认为构成作品,美国版权局则持相反意见。


中国法院针对具体案件中特定的用户行为进行了仔细分析,指出当用户通过提示词、参数或者模型做出的选择满足独创性表达标准时,生成的图画构成作品,用户是作者。在美国,对于《黎明的扎里亚》与《太空歌剧院》两幅AI绘画是否构成作品,美国版权局没有聚焦于用户做出的大量独创性选择,而是笼统地以“用户对内容控制不足”为由,否认AIGC背后存在“人类作者”(human author),进而认为两幅AI绘画不构成作品。


本文认为,中国法院的立场值得肯定,美国版权局的做法需要反思。本文第一部分简要介绍中美的相反实践,接下来将美国版权局的论证拆分到作品的三个构成要件中分别展开批判性讨论:第二部分论证模型选择、提示词输入和参数设定有可能构成独创性选择;第三部分论证所谓AI的“随机性”并不必然妨碍用户选择的固定;第四部分论证用户在渲染模型选择、提示词组合以及参数设定等方面的文本输入构成包括美术表达在内的各种表达。综合三方面关于作品构成要件的分析,可以认为,当用户指令构成独创性表达、提供了充分描述的结构时,AIGC构成作品。最后,第五部分从激励论角度论证,承认用户做出独创性贡献的AIGC构成作品,有助于激励用户做出独创性表达。


另外需要说明的是,本文从以下两个方面对议题进行了限缩:第一,就权利主体而言,本文只关心用户的作者资格,不关心机器的权利主体资格。本文赞同用户做出独创性表达的AIGC构成作品,并不意味着赞同Thaler v. Perlmutter案(“《通向天堂的近路》案”)中用户试图将AI本身登记为作者的做法。第二,就权利客体而言,本文只关心用户做出独创性表达的AIGC,不涉及用户没有做出独创性表达的AIGC。如果AI用户的选择在传统场景下足以被认定为独创性表达——标准不妨比照原著在演绎作品中的体现形态、同人作品创作中被挪用的作品元素集合,或者典型摄影作品中受保护的表达——那么著作权法不能仅仅因为争议客体是AI场景下的用户输入而剥夺其作品资格。至于在用户仅做出极少选择与安排的情形下,AIGC是否以及如何设置排他权,不在本文的讨论范围。笔者主张以“宽进宽出”态度适用作品构成要件。循此态度,当前争议的许多AIGC都能迈过作品门槛,进入著作权法的结构化分析框架。


一、中国法院和美国版权局现阶段的立场


中国在立法和行政层面未就AIGC的作品资格进行专门规定,但法院已在不止一起案件中表明过立场。在2019年的深圳市腾讯计算机系统有限公司诉上海盈讯科技有限公司侵害著作权及不正当竞争纠纷案(“Dreamwriter案”)中,广东省深圳市南山区人民法院已经表达了开放意见,即在用户做出独创性贡献的情况下,法院认可借助AI创作的文字内容构成作品。2023年,北京互联网法院在李某某诉刘某某侵害作品署名权、信息网络传播权纠纷案(以下简称“《春风送来了温柔》案”)中同样判决,做出独创性表达的用户享有AI绘画的版权。该案原告借助AI绘图软件生成题为“春风送来了温柔”的图片,发布在小红书平台。被告未经许可,将原告的图片作为网文配图。法院认定被告侵权,判决被告停止侵权并赔偿损失500元。为了与美国版权局的两幅“AI文生图”决定进行对比,后文提及的中国法院判决均指“《春风送来了温柔》案”判决。本文关于“AI文生图”型AIGC的分析,同样适用于“AI文生文”等其他类型的AIGC。


美国立法上没有针对AIGC的专门规定。针对用户做出独创性贡献的AIGC,主要意见来自美国版权局。因篇幅有限,本文略去1973年和1984年美国版权局的文件,直接从美国版权局和美国国会图书馆2023年3月发布的《版权登记指南:包含AI生成材料的作品》(以下简称《版权登记指南》)开始讨论。《版权登记指南》指出,在面临涉及AI的成果时,美国版权局需要区分:一种是人类主导、机器辅助的产物,这种客体具有可版权性;一种是主要由机器进行构思(conception)与落实(execution)的产物,这种客体不具有可版权性。


除《版权登记指南》外,美国版权局的具体行政行为也引发了广泛关注。由于本文专注于用户做出独创性表达的场合,故重点讨论其中两起:一是2023年2月美国版权局撤销漫画《黎明的扎里亚》的版权登记(以下简称“《黎明的扎里亚》案”)。该画的版权申请人Kashtanova在故事文本的基础上,利用AI绘图工具Midjourney生成包含多幅图片的漫画。美国版权局最初将漫画作为美术作品登记,但在获知图片生成过程后撤销了该版权登记。美国版权局表示,漫画文本可以作为文字作品受保护,漫画文本和图片构成的整体可以作为汇编作品受保护,但单幅漫画不能作为美术作品受保护。


二是2023年9月美国版权局拒绝绘画《太空歌剧院》的版权登记申请(以下简称“《太空歌剧院》案”)。这幅画是Allen借助Midjourney生成。该画曾在2022年举办的科罗拉多州博览会年度美术比赛中获奖。2023年,Allen向美国版权局提出作品登记申请。尽管Allen没有主动披露,但美国版权局对创作过程已有了解。审查员要求Allen将由Midjourney生成的作品特征排除在版权主张之外,Allen不同意。美国版权局遂作出拒绝登记的决定,并在复议后维持拒绝注册的决定。


本文关于美国版权局的讨论以《版权登记指南》和这两起具体行政行为为素材。由于本文是关于权利客体的讨论,故接下来的第二部分到第四部分将美国版权局的意见分拆到作品构成要件——独创性、固定性和思想/表达二分法——中逐一展开讨论。


二、独创性:AIGC包含用户的独创性选择


独创性是最重要的作品构成要件。中国法院承认用户的选择可能具有独创性,没有给独创性设立过高门槛。美国版权局则将重点放在机器上,通过强调“机器贡献大”推出“人的贡献不够”,从而基本否认用户做出独创性选择的可能性。本部分以美国版权局的错误为主线展开分析。


(一)美国版权局错误地将工具作为分析重点


美国版权局的第一项偏差是将分析焦点放在工具上,而没有放在人上;过分强调来自工具的选择多,而忽视了来自人的选择也不少。


美国版权局试图通过引用动物创作和神灵创作两起案件来说明非人类创作不构成作品。动物创作的案例是大家熟知的“猕猴自拍案”。神灵创作的案例是Urantia Foundation v. Maaherra案。该案判决指出:如果书中的部分内容确实如当事人所称由“非人类精神”(non-human spirit)所创作,那么仅当这部分内容体现了人类的选择和安排时才构成作品。


美国版权局对这两个案件的引用逻辑都存在问题。


在“猕猴自拍案”中,法院确实否认了照片是“人类作者”的成果。但这并不意味着任何掺杂动物因素的创作都不是人的创作,而仅仅意味着在这个特定的案件中,由于没有证据表明人进行了足够的干预,所以人不能主张版权。换言之,假如人的干预达到独创性表达的程度,那么即便最终按下快门的是猕猴,这张照片也完全可以作为人类摄影师的作品获得版权保护。假如摄影师指挥猕猴的程度相当具体,做出的选择足够多,拍摄出来的照片高度体现摄影师的意志,那么将照片作为“人类作者”的作品,在理论上并无障碍。假设经过长期训练,摄影师能够指挥猕猴听从精确的指令。在摄影师的指令下,猕猴可以攀爬到参天树顶上的特定位置,从特定角度俯拍森林的特定部分,同时在照片前景中纳入部分树梢作为修饰。在版权法上,这样拍出的照片与摄影师精确操纵无人机拍摄的照片,无须区别对待。既然我们承认借助无人机拍摄的照片包含摄影师的独创性选择,自然也应承认借助猕猴拍摄的照片可以构成作品。美国版权局对“猕猴自拍案”的援引,只能证明某些包含动物参与的照片不是作品,不能证明所有包含动物参与的照片都不是作品,更不能证明所有包含高自主性工具的生成内容都不构成作品。


美国版权局对Urantia Foundation v. Maaherra案的引用漏洞更为明显,甚至有断章取义之嫌。单从《版权登记指南》引用的个别语句来看,美国联邦第九巡回上诉法院确实认为“非人类生成的内容不可版权”。但该案的判决结果是承认所谓神灵与人共同创作的材料构成作品,被告须承担版权侵权责任。该案争议客体是一本宗教书籍,原告宣称系教徒受神灵启示记录编纂而成。被告未经许可进行了复制与传播。地区法院以客体中包含非人类精神创作的内容为由,判决争议图书不构成作品。巡回法院推翻了地区法院的判决,认定被告构成侵权。巡回法院将所谓由“非人类精神”给出的“神意”或者“天启”类比为事实,指出不来源于人类作者的信息不受版权保护。但巡回法院话锋一转,接下来便开始处理人的选择。巡回法院指出:尽管“神意”本身不受保护,但“神意”的具体呈现形式可以受到保护。“第一个对‘神意’进行汇编、挑选、整合以及安排的人可以提出版权主张。”如果被告抄袭的仅仅是“神意”本身,并不构成版权侵权。但鉴于被告抄袭了整本图书,而其中包含足以满足版权法上极低独创性要求的人的选择,所以巡回法院判定被告侵权成立。“《黎明的扎里亚》案”对本案的引用,不仅不能证明掺杂了非人类选择的生成内容必然不构成作品,反而说明即使掺杂了非人类选择,生成内容仍然有可能构成作品。裁判者的关注点不在“非人”,而在人。哪怕“非人”做出了大量选择,只要人做出的贡献能够满足Feist Publications, Inc. v. Rural Tel. Service Co.案中的独创性要求,生成内容就有可能成为作品。


可惜美国版权局未能正确把握非人的贡献与人的贡献的关系,将上述两案的解读重点放在非人的贡献上,草率地推出“当工具的贡献显著时,生成内容不是作品”。加之美国版权局对AI工具工作机制的理解不够准确,夸大了AI工具的重要性,进一步导致对AIGC可版权性的笼统否认。


既然在美国版权局看来,猕猴自拍或者神灵创作必然不是作品,而AI工具又和猕猴或者“神意”在创作中发挥的作用一致,那么AI绘画自然也没有体现人的创作。美国版权局在“《黎明的扎里亚》案”中认为:“涉及Midjourney的生成过程始于‘一片和电视机无信号状态时一样的视觉噪音域,从这片视觉噪音中生成最初的图像网格’,接下来再用算法进行优化。”而在“《太空歌剧院》案”中,美国版权局认为:“Midjourney会对提示词进行‘解释’,并(将‘解释结果’)与训练数据进行‘比较’。”但是因为“Midjourney并不像人类一样理解语法、句法结构或单词”,所以“Midjourney并非将提示词视为创建特定表达结果的具体指令”。通过对AI工作机制的阐释,美国版权局试图表明绘画中的选择与安排来自AI而非用户。然而,正如不能因为创作过程中存在动物因素而一概否认人的选择一样,创作过程中存在AI工具也不能一概推出人没有做出独创性判断。指望从关于AI机制的泛泛而谈中推出掺杂AI工具的特定生成内容是不是作品,犹如指望从关于猕猴的生物学分析中推出一张由猕猴按下快门的特定照片是不是作品一样,属于缺乏关键信息的以偏概全。就此而言,如果是在用户没有做出独创性判断的情况下,引用“猕猴自拍案”或Urantia Foundation v. Maaherra案尚有意义;但在用户明明做出了大量判断的“《黎明的扎里亚》案”和“《太空歌剧院》案”中引用这两个案件不太恰当。


AI工具固然具有强大的信息生产能力,但与用户的独创性判断并不相悖。AI绘图工具Midjourney的贡献直接体现在某次视觉噪音转化为图片过程中根据算法和参数做出的选择,而用户的贡献直接体现为提示词组合、模型选择和参数设定。双方的贡献紧密交融,最终共同体现在AI绘画中。AI绘画的每个重要部分都同时体现了用户的贡献和AI的贡献。美国版权局似乎认为图片纯粹来自Midjourney对视觉噪音的加工,而忽略了图片是“视觉噪音+用户输入”的产物。从视觉噪音到图片的转变,是从无序到有序的过程。完全无序的初始状态等同于完全的不确定性,等同于尚未做出任何选择的巨大空间,也等同于转化为任何图片的可能性。初始视觉噪音对人毫无意义,因为它不承载任何信息。从视觉噪音转化为图片的过程是无序性逐渐降低、有序性逐渐提升的过程;是不确定性逐渐消除、确定性逐渐增强的过程;是越来越多的选择被做出、越来越少的开放性被保留的过程;是图片内容越来越确定、天马行空越来越不可能的过程。在用户做出大量选择的情况下,上述过程由人和机器共同推进。双方都消除了许多不确定性、贡献了许多选择、产出了许多信息。其中最重要的选择——图片的主题,是由用户决定的。而许多其他重要选择(包括但不限于内容、用色、构图等)同样可以由用户决定。无论AI的信息生产能力有多强,当用户需要一张恐龙宝宝图片时,AI就只能提供恐龙宝宝的图片,而不能提供企鹅宝宝的图片。当用户需要一张紫色的恐龙宝宝图片时,AI也只能照办,而不可能提供黄色的恐龙宝宝图片。当用户需要一张“细节丰富的3D现实主义风格恐龙宝宝咖啡品鉴师”图片时,AI就不可能提供一张素描或者水粉风格的宇航员恐龙宝宝图片。对照“《黎明的扎里亚》案”中美国版权局列举的各个AI绘画的范例,应当不难体会用户对于图片视觉内容和非视觉内容的重大影响力。可惜美国版权局被AI的绘画能力干扰,未能体会用户判断的重要性。可见,AI生成图片的过程既不是机器决定的过程,更不是纯粹由机器推动的过程。用户判断或许因为信息量太少或是封锁效应太强而不符合作品构成要件,但用户判断是否满足作品构成要件,取决于用户而不是机器。美国版权局过度关注机器的作用,而没有对人在个案中的作用进行足够仔细的分析。


(二)美国版权局过度拔高了独创性门槛


美国版权局的第二个错误是过度拔高了独创性的判断标准。


独创性门槛本来不高,理应容易满足。但在美国版权局看来,“由于绘画中包含了超过‘微不足道’的AI生成内容”(more than a de minimis amount of content generated by AI),所以绘画不能被视为人类作者的成果。按照美国版权局的逻辑,从相对比例上看,人的贡献必须远远超过机器的贡献;从绝对数量上看,人必须贡献绘画中绝大多数的选择与安排。这两方面的要求将AI绘画场景下的用户独创性门槛抬高到远远超过传统创作场景下的水平。正因如此,即使用户做出了大量选择,美国版权局仍然不承认用户的独创性贡献。


尽管存在不同的独创性标准,但Feist案中“源自作者”的“最低程度创造性”是最广为接受的标准。按照Feist标准,绝大多数信息成果都能轻松地通过独创性检验,不能通过的多为原样复制或者过于简短的信息,比如油画机械复印件、电子三维车模或者“五朵金花”“娃哈哈”等过于简短的标题。至于体育赛事直播连续画面等一度被认为不满足独创性标准的信息成果,如今也被接受为作品。如Feist案判决所言:“(独创性)所要求的创造力水平极其低微,甚至只要一丁点就够了。绝大多数作品很容易达到这个水平,因为它们都具有一些创造性火花,‘无论这种创造力多么粗糙、微小或者显而易见’。独创性不同于(专利法上的)新颖性;哪怕一部作品与其他作品非常相似,只要这种相似性是偶然而非复制的结果,那么它便仍然具有独创性。”在比较法上,还存在比Feist更低的标准,例如加拿大CCH案确立的“非机械、非微不足道的技巧与判断”标准和英国(曾经)采用的“劳动与技巧”标准。甚至在被认为独创性标准偏高的德国,如今也不过采取“比一枚小硬币稍高即可”的标准。可见,纵观各国版权法,独创性基本是容易迈过的门槛。


“独创性”的表述有多种方式。最常见的表述是“做出了足够的选择与安排”,或者“选择空间足够大”。有时,人们也表述为“存在客观可识别的差异”“区别特征足够多”“信息量足够大”或者“产出概率足够小”。各种表述异曲同工。对于版权这样一种不要求通过登记来事前确权的权利而言,独创性是帮助裁判者事后在侵权程序中判断是否存在抄袭的利器。因此,判断独创性的简单方法是看被告如果没有接触过原告的成果,能否独立创作出与原告成果实质相似的成果。


对于AI绘图软件而言,即便被告选取同样的模型、按照同样的顺序输入相同的正向提示词和反向提示词,设置相同的参数、进行相同的调整,只要用户指示的信息量足够大,就很可能获得不同的图片。假如被告是在没有接触原告图片的情况下独立使用AI进行绘图,估计就更难得到与原告图片实质相似的图片。所以无论按照针对独创性的哪种表述,《黎明的扎里亚》中那些包含大量用户选择的图画也好,《太空歌剧院》也好,《春风送来了温柔》也好,这些图片的独创性高低尽管有所不同,但都满足最低限度的独创性。


本文关心的AI绘画背后用户都做出了大量选择。美国版权局在“《黎明的扎里亚》案”中对每幅图片的生成过程进行了描述:第一步,用户根据从故事中拆分出来的适合表现为一幅图画的内容,输入一组提示词,例如“深肤色的手上拿着一张老照片”。AI绘图工具Midjourney会根据提示词生成4张图片。第二步,用户从这4张图片中进行选择,作为进一步加工的基础。第三步,用户通过不停地变换提示词与参数来进一步调整图像,直到获得满意的结果。Kashtanova将之描述为“试错、纠错”的过程。每一幅图片,她都输入了大量提示词,做出了大量选择,有时候甚至需要输入成百上千个提示词才能获得满意的图像。在“《太空歌剧院》案”中,Allen曾在回复美国版权局的询问时描述过自己的贡献:“至少经过624次修订和文本提示(prompts)才得到图像的初始版本。”此外,Allen还使用Photoshop、Gigapixal等软件对Midjourney生成的图像作进一步修改。在“《春风送来了温柔》案”中,原告也在多个方面进行了选择与安排,“比如设计人物的呈现方式、选择提示词、安排提示词的顺序、设置相关的参数、选定哪个图片符合预期等”。当然,由于原告输入的提示词数量虽多,但许多是以打包形式由他人事先选定的,而且部分提示词的含义相互重合,所以该案中的用户选择信息量不如提示词数量表面显示的那么大,但这并不妨碍用户选择满足本就不高的独创性标准。在这三起案件中,除非抄袭,否则他人很难创作出与之构成实质相似的成果,这正是独创性的证明。


独创性是针对人的贡献的绝对量判断。在绝对量意义上,独创性的门槛并不高。在过去,哪怕一项客体没有通过独创性检验,原因也在于人类做出的选择和安排绝对量太小,而不是由于相对比例太低。如今,美国版权局将独创性判断转变为相对比例判断,实际上相当于要求人在AIGC中贡献的信息比例达到相当高的程度,以阻止“绘画中包含超过‘微不足道’的AI生成内容”。在AI具有强大信息生产能力的背景下,人确保自己的贡献远远超过工具贡献的难度将急剧加大,独创性门槛将被迅猛抬高,实际上变得遥不可及,与正常的低独创性标准形成巨大反差。诚然,著作权法上确实存在避免原告以少量贡献挟持做出巨大贡献的被告的规则,如合理使用中的转换性使用。但在著作权法这一事后界权的领域,对原告相对贡献份额的考虑不宜放在权利客体环节进行。将独创性视为绝对量判断而非相对比例判断更为恰当。况且,当用户的独创性贡献份额果真十分有限时,各个贡献方之间的合意很容易改变排他权的归属。避免设立过高的独创性门槛既有助于裁判简便统一,也不会给其他贡献者或者公众造成麻烦。总之,美国版权局在AIGC场景下给用户设置的独创性门槛是例外,而非常态,违背了长久以来的版权传统。实际上,当版权法上一次面临高效创作工具的挑战时,美国联邦最高法院便没有被工具迷惑,而是决定在新工具开拓的创作领域中维持不高于其他领域的独创性标准。在下一小节,本文将简短回顾版权法在摄影技术出现时面临的冲击和成功应对的经验。


(三)摄影作品的版权史表明机器的贡献不会抹杀人的贡献


与既有的创作手段相比,AI的信息生产能力有了质的飞跃。正是这种耀眼的能力让美国版权局认为“工具的贡献淹没了人的贡献”,导致以“AI贡献超出‘微不足道’”为由拒绝承认AI绘画的作品资格。我们回顾版权史,就会发现这并不是人的独创性第一次遭受机器的冲击。在版权法承认的作品中,存在大量来自工具的贡献。版权法长期坚持“工具贡献大”不等于“人的贡献不足”,更不等于可以抹杀人的权利主张。


最直观的例子是摄影作品。在摄影技术产生之初,照相机对现实世界惟妙惟肖的再现能力,确实曾经导致人类的贡献被“矮化”,以致于人们对这种“机器生成内容”的作品资格心怀疑虑。在1884年的Burrow-Giles Lithographic Co. v. Sarony案中,摄影师Sarony为王尔德拍摄了一系列肖像照片。Burrow-Giles未经许可使用了其中一张。摄影师起诉后,复制者辩称:照片的价值在于胶片表现的光影效果,但这种效果并不来自原告,而来自不可版权的机器运作过程。“(复制者)坚持认为:照片作为某些自然景物或者某些人在纸面上的复制品,并非生产者产出的文本(writing),生产者也不是其作者。”


被告并非完全狡辩。考虑到百余年后的今天,我们仍然经常围绕摄影作品展开争议,那么在摄影技术刚刚开始进入公众生活的19世纪,被告提出上面的质疑应该说情有可原。毕竟,在当时的公众看来,机器为照片二维图像所做的贡献,远远超过机器背后按下快门的人。因为与前相机时代生产同样的二维图像所要求的巨大人力投入相比,“按下快门”的贡献实在微不足道。艺术史的读者都知道,为了在二维画布上重现三维世界,画家们经历了多么漫长的探索。这种探索的本质是通过对视觉机制进行“反向工程”,以便把二维视网膜上的有效错觉(比如近大远小)平移到二维画布之上。这项“反向工程”的难度是如此之大,乃至哪怕是天才时代的天才人物,往往也只能推进一步,无人能够一蹴而就。希腊化时期的装饰画美轮美奂,物体之间的距离却是谜一般的存在,因为“物体随距离变远而等比例缩小”这条规律还需要等一千多年才被发现。而画家们世世代代求而不得的“逼真重现”在19世纪却突然被机器实现。过去需要耗费数周乃至数月才能实现的二维重现,变得唾手可得。回想这段带着旧技术背景下思维惯性来看待新技术的历史,或许我们能够共情于侵权人对摄影师的“矮化”。


面对被告的质疑,美国联邦最高法院的做法很聪明。它一方面承认照片的作品资格问题值得认真对待,宣称该“宪法问题确实存在争议”,另一方面却并没有把分析重点放在机器贡献上,而是转向分析人的贡献。摄影师“安排王尔德在镜头前落座,挑选并搭配照片中各式各样的服饰和布帘,对拍摄对象的布局优雅,安排和确定了灯光与色调,暗示并激起作者所追求的表现力”。在仔细研究摄影师的贡献之后,Miller大法官指出:尽管那些缺乏独创性的照片确实不应获得版权保护;但本案中摄影师的贡献足够大,所以本案中的具体照片——王尔德第18号肖像照——应当被承认为作品。


Burrow-Giles案之所以至今仍然具有旺盛的生命力,重要原因便在于它凸显了机器服务于人、机器的贡献不能抹杀人的贡献的道理。Miller大法官聪明地将讨论视角从机器引回到人,在与质疑者共情之后,笔锋一转便不再关心机器的贡献,而将笔墨倾注于摄影师的贡献。只要机器背后人的贡献足够,他便可以主张权利。在照相机之后,自然人作者手中强大的工具日益增多:深海摄像机将高压微光的神秘世界展现在观众面前,Photoshop软件可以轻易地把照片转换为油画,各种视觉特效软件则让人坐在电脑面前就能创作出无论在室外还是摄影棚里都无法获得的动感画面。这些成果都被承认为作品,其中源于机器的贡献并没有妨碍机器的使用者成为作者。Burrow-Giles案的关注焦点不在于人的贡献的相对份额,而在于人的贡献是否在绝对值意义上通过了独创性检验。事实证明,无论技术如何进步,这一思路始终能够经受考验。


北京互联网法院在“《春风送来了温柔》案”中的思路与Burrow-Giles案遥相呼应:“技术的发展过程,就是把人的工作逐渐外包给机器的过程。照相机产生之前,人们需要运用高超的绘画技艺才能再现客观物体影像,而照相机的产生让客观物体影像可以更简单地被记录。现在,智能手机的照相功能越来越强大,使用越来越简单,但是只要运用智能手机拍摄的照片体现了摄影师的独创性智力投入就仍然构成摄影作品,受到著作权法保护。”透过AI技术的“颠覆性”表象,北京互联网法院迅速找到了技术与人这一母题,寥寥数语便把貌似新鲜的现象接续到最为相关的历史脉络上。遗憾的是,美国版权局被AI工具的“颠覆性”所蒙蔽,未能穿透机器贡献的炫光,看到人的贡献之价值。


我们在AI绘画可版权性之争闹得沸沸扬扬之时重读Burrow-Giles案,不由感慨“我们唯一不知道的新鲜事,是尚未读过的历史”。当年照相机给平面再现艺术带来的冲击,如今被AI绘画软件再度激发。而当年照相机帮助画家实现的种种“不可完成之任务”(如记录高速奔跑的马的姿态),如今AI绘画软件同样正在帮助图像生成者实现。平心而论,单就突发性而言,AI工具的冲击未必比得上照相机。因为电脑和软件早已是设计行业的标配,而19世纪的画家对于照相机的出现委实没有太多心理准备。所以,我们本应指望如今的社会公众、产业界以及版权法学界能够更加从容地应对新工具的冲击。如果说19世纪的版权界还没有太多经验来处理机器贡献份额激增导致的问题,如今的版权界照说应该能够更快更好地处理机器的贡献可观、但用户的贡献也不能被忽视的情况。美国版权局以AI的贡献超过“微不足道”为由拒绝承认AI绘画的作品资格,实在难与版权法的既有实践相符。


回到被美国版权局拒绝的AI绘画。Burrow-Giles案中“来自原告的摆放、安排或者陈设”固然不少,但并不比“《黎明的扎里亚》案”和“《太空歌剧院》案”中用户的选择和安排更多。更何况,如今要获得一张享有版权保护的照片,根本无须达到王尔德摄影师的程度。只要手持相机,略微调整焦距,设定光圈或者快门,然后按键,一张摄影作品便诞生了。甚至省略调整焦距、设定光圈快门的步骤,照片的作品资格也不受影响。即便抛开照片或许比其他领域更低的独创性标准,至少按照常规独创性标准,人们也能比较轻松地创作出摄影作品。而在满足常规独创性标准的照片中,人贡献的信息量从绝对值和相对值来看都未必很突出。在这样的版权法传统中,我们没有理由苛责AI用户,在他已经做出超过常规摄影作品独创性贡献的情况下,仍然否认他的作者身份与AIGC的作品资格。


三、固定性:AIGC构成对用户选择的固定


在美国版权局看来:哪怕用户的贡献本身有可能构成独创性表达,但在经过AI加工后,产出的成果形态不一、难以预见,因此与其说成果源自用户,不如说成果源自AI。美国版权局关于“缺乏控制”的意见与作品每项构成要件都有关联——它既与人类的独创性选择相关,也与人类选择是否被固定在最终成果中相关,还与从用户输入到成果输出的转换过程相关。本文将控制力和预见性放在固定性部分进行分析,并不代表独创性和思想/表达二分法部分与此无关,而只是为了以最符合我国通行作品构成要件的框架来展开论述。需要稍加注意的是,美国法关于固定性的要求比较独特,与我国的理解并非完全一致。


以下引文均出自“《黎明的扎里亚》案”,读者可以从中体会美国版权局对“用户缺乏控制力”的重重疑虑。


“Midjourney以一种难以预见的方式生成图片,它并不是作为工具在Kashtanova女士的控制和指挥下提供她想要的图片。所以,在版权法意义上,Midjourney用户不是这些由技术所生成的图片的‘作者’。”


“鉴于用户指示Midjourney创作所获得的成果与Midjourney实际产出的视觉材料之间存在着明显的差距,Midjourney用户缺乏对生成图像的足够控制,因此无法被视为它们背后的‘掌控思想’(master mind)。”


“Midjourney用户通过该工具获取最终满意的图像的过程与人类艺术家、作家或摄影师有所不同。正如上文所述,用户的初始提示会促使Midjourney基于训练数据生成4张不同的图像。对从中选定的一幅予以进一步提示可能会对后续图像产生影响,尽管如此,由于无法事先预测Midjourney会创造什么,所以这个过程不受用户控制。”


这些论述大同小异。美国版权局将“用户缺乏控制力”视为否定用户版权主张的核心理由。本文将美国版权局的上述论断放到固定性要件下予以分析,将“缺乏控制力”理解为“最终成果不构成对用户独创性选择的固定”。本部分将论证:美国版权局援引Kelley v. Chicago Park Dist案来否定用户的控制力和预见力,属于类比不当;在固定性问题上,更加具有可比性的是游戏画面和演绎作品;如果超越版权法的视野,观察专利法上发明构成要件中“能够实施”的要求,更能体会知识产权法对智力成果在受控客体中被固定程度的要求不高这一道理。


(一)Kelley案不是恰当的参照对象


美国版权局将Kelley案中的“活花园”(living garden)作为AI绘画的参照对象,来论证用户对成果缺乏控制。


艺术家Kelley“以浪漫的、椭圆形的花卉和木质景观而著称”。他于20世纪80年代获准在美国芝加哥市中心建造了两个名为“野花作品”(wildflower works)的巨大椭圆形花坛,每个都和足球场的面积不相上下。花坛中种植着当地野生花卉,周边环绕着碎石小道与钢材围栏。2004年,市政府打算拆除花坛,Kelley试图通过主张花坛作为视觉艺术作品享有的保护作品完整权来阻碍拆除行为,但没有得到支持。法院的否定意见来自两方面:一方面,花坛缺乏人类创作(authorship),“花坛是被种植和养护出来,而非被创作出来的。一个花坛的组成要素是鲜活并且多变的,并没有被固定下来。我们对花坛的所见所感——色彩、形状、质地与植物的芬芳——源自自然,而非园丁的头脑”。另一方面,“花坛太容易发生变化,以致无法满足最基本的固定性要求。它的外观过于多变,以至于无论是识别客体还是认定侵权都很困难”。


美国版权局通过援引Kelley案来否认AI绘画作品资格的做法经不起推敲。因为Kelley案的说理并不具有普遍意义。即便Kelley案的结论正确,它关于人的控制力的说理也存在问题,所以美国版权局不应该用Kelley案的这部分说理来论证AI绘画不构成作品。毕竟,假如Kelley的设计更加具体,包含更多独创性表达因素,那么“活花园”未尝不能构成作品。我们不妨设想如下场景:Kelley首先绘制了一幅构图优美、细节丰富的椭圆形油画。接着,Kelley按照油画布置“活花园”,油画上的不同色块由不同颜色的本地花卉和绿植加以表现。在这样的情况下,我们能因为单株花卉和绿植是自然力的体现,就说整个花坛不是Kelley的创作吗?我们能因为花卉和绿植不断变化,就认为花坛不是作品吗?显然不会。正确的理解应该是:无论源自人类之外的信息量有多少,源自人类之外的信息多么多变,都不妨碍源自人类的选择能让成果成为作品。


从Kelley案的判决文书来看,Kelley的贡献可能徘徊在思想与表达的交叉地带。Kelley的设计点主要体现在如下四个方面:一是将花园的形状限定为椭圆,二是将种植的内容限定为数十种本地植被,三是安排接近中心的植物色彩更加鲜艳,四是用碎石和钢材将花园环绕起来。从花园的照片上看,两个椭圆形花坛并未包含任何图案,其周围的碎石和钢材环绕带也并不明显,整个花坛就是为茂盛植被所覆盖的椭圆区域。Kelley的花坛或许确实能给游客带来良好的体验,但这种美好体验并非来自花园在结构、配色、材质或者其他美学方面的人为安排,而是来自其面积巨大、植被茂盛的特点。对于花园设计而言,椭圆形、种植本地花卉、让植被颜色有变化以及由碎石和钢材所环绕可能是一种基础设计,将其交给Kelley私有或许会造成对公众行动自由的不当限制。当然,Kelley的贡献究竟是否满足独创性表达的要求不是本文关心的问题,本段分析意在说明Kelley案的结论与该案原告做出的具体贡献有着密切联系,并不能普遍适用于所有包含非人类因素的成果。


用户在AI绘画中的贡献与Kelley在花坛中的贡献有所不同。在两起争议案件中,用户做出的贡献具体程度非常高、信息量非常大。哪怕AI在用户选择的基础上增添了大量信息,但AI的选择只是在用户指定范围中进行细化,而不是对用户选择的“抹杀”。大量用户选择被保留在最终的图画中,而这些选择既不抽象,也不具有封锁效应,足以体现鲜明的个人特色。这与将“由碎石与钢材环绕起来的彩色椭圆形花坛”交给Kelley垄断的效果不同。因此,即便Kelley案关于花坛不是作品的结论正确,也不能得出AI绘画一概不构成作品的结论。


总之,对于本文关心的问题而言,我们只需要确认AI用户与Kelley的贡献性质在版权法上存在重大差别,就能排除Kelley案的适用。美国版权局通过引用Kelley案来否认AI绘画的作品资格,缺乏说服力。


(二)游戏画面和演绎作品可作为参照对象


既然Kelley案不适合作为判断控制力和预见性的参照,还有更恰当的参照对象吗?答案是肯定的,那就是游戏画面和演绎作品。


美国版权局的核心疑虑在于“难以预见、难以控制”。这种顾虑本应容易被消除才对。无论是在游戏开发者针对游戏画面提出版权主张的场合,还是在原著作者针对演绎作品提出版权主张的场合,主张者都不需要(实际上也不可能)证明自己对争议客体的内容具有完备的预见能力和控制能力。既然如此,当用户就AI绘画提出版权主张时,凭什么要求用户证明自己对绘画内容具有完备的预见能力和控制能力呢?


1.游戏画面是对游戏开发者智力成果的固定


游戏画面曾经是固定性争议的激烈“战场”。以笔者手头的三本美国版权法教材为例:在固定性部分,三本书唯一共享的案例便是Williams Electronics, Inc. v. Artic International, Inc.案,该案的争议焦点恰好是游戏画面的固定性。


Williams Electronics案发生在20世纪80年代,是电子游戏类案件的鼻祖之一。原告开发了一款成功的电子游戏,被告几乎原样照抄。原告起诉后,被告并不否认自己抄袭,但认为抄袭对象不构成作品,因为原告的智力贡献缺乏固定性。被告认为,原告视听游戏中的画面(images)转瞬即逝,无法“固定”,并指出,缺乏“固定性”的原因在于(玩家)每次进入展示模式或者互动模式时,电子游戏都会产生或者制造出“新”画面。


Williams Electronics案后三十余年,我国的上海耀宇文化传媒有限公司诉广州斗鱼网络科技有限公司著作权侵权及不正当竞争纠纷案(以下简称“耀宇诉斗鱼案”)仍将固定性作为否认游戏开发者能就游戏画面主张版权的理由。法院写道:“由于涉案赛事的比赛本身并无剧本之类的事先设计,比赛画面是由参加比赛的双方多位选手按照游戏规则、通过各自操作所形成的动态画面,系进行中的比赛情况的一种客观、直观的表现形式,比赛过程具有随机性和不可复制性,比赛结果具有不确定性,故比赛画面并不属于著作权法规定的作品,被告使用涉案赛事比赛画面的行为不构成侵害著作权。”


Williams Electronics案的被告、“耀宇诉斗鱼案”的法官以及AI绘画问题上的美国版权局,三者可谓思路相通。三者均认为,由于最终的具体呈现形态千变万化,所以游戏开发者或者AI用户的贡献并没有被固定下来。所以,哪怕确实发生了抄袭行为,由于被抄袭的客体不是作品,抄袭者自然无须承担版权侵权责任。当然,法院有时并不会真正给予被告行动自由,而是要求被告承担违背“诚实信用和商业道德”的反不正当竞争法责任。这是后话,此处不表。通过Williams Electronics案和“耀宇诉斗鱼案”可以看出,当智力成果的具体展示形态存在变化时,被告会努力尝试否定作品资格。


回到Williams Electronics案。美国联邦第三巡回上诉法院驳回了被告的抗辩,认定游戏开发者已经将其创作固定在了游戏画面中。法院正确地认识到:“只要作品‘持久或稳定到足以被复制或者以其他方式被交流的程度’,而且这种复制或者交流不是转瞬即逝的,那么固定性要求就已经被满足。在此,DEFENDER(原告开发的游戏)的独创影音效果反复出现。……这一影音作品已经被永久实体化在存储设备这一物质载体之上,能够借助其他部件被感知。”


Williams Electronics案的法官正确地认识到智力成果的固定性不等于每次具体展示形态的固定性。即使具体展示形态不确定,其背后的智力成果却完全可能已经足够定型。法院应当将注意力聚焦在原告贡献的不变部分,而不应聚焦在可变部分。因为法院只需要关心被主张客体是否迈过了作品构成要件的门槛,而无需关心被主张客体之外的因素是否满足作品构成要件。Williams Electronics案的正确思路也体现在我国近年司法实践中。例如在广州网易计算机系统有限公司诉广州华多网络科技有限公司侵害著作权及不正当纠纷案中,法院认定未经许可进行游戏直播的被告负有版权侵权责任,从而表明法院认为千变万化的直播画面已经固定了原告的智力成果。


从前述关于游戏画面固定性的分析可以看出,智力成果的固定性并非一成不变,而仅仅要求足以被感知。在被感知的意义上,AI用户的独创性表达毫无疑问被固定在最终生成的绘画中。在“《春风送来了温柔》案”中,原告输入的提示词包含“梦幻般的黑眼睛”“红褐色的辫子”这两项。如果按照美国版权局的逻辑,由于“梦幻般的黑眼睛”“红褐色的辫子”存在无穷多的具体呈现形式,用户并不能预见AI会选择其中哪一种,所以这两项源自用户的选择并未被固定在《春风送来了温柔》这幅画中。问题在于,无论AI的不受控制、不可预见之处有多少,在生成内容包含“梦幻般的黑眼睛”“红褐色的辫子”的意义上,AI是绝对受控、可以预见的。在用户输入了这两项提示词之后,AI图画中的人物瞳孔只能是黑色,不可能是褐色、蓝色或者绿色;发型也必然是红褐色辫子,而不可能是黑发披肩或者金发寸头。如果否认AI绘画固定了提示词,就无法论证游戏画面固定了游戏开发者的选择。反之,既然承认游戏画面中固定了游戏开发者的选择,就应当承认AI绘画中固定了用户通过提示词和参数做出的选择。


如今想来,电子游戏的出现改变了人机交互的方式,人的贡献在新型人机关系中不像以前那么容易被识别,所以会产生固定性的疑问。至少对于普通大众而言,在电子游戏普及之前,人是具有绝对支配性的主体,机器则是受支配的客体。二者的能动性存在云泥之别,主客关系毫无争议。电子游戏的出现改变了人机交互方式,人主动把对生成内容的部分支配力让渡给机器,以换取出其不意、棋逢对手的乐趣。尽管表面上这部分对内容的支配力被转移到了机器手中,但实际上机器对内容的支配始终只能发生在人划定的范围之内。美国版权局认为用户不能控制、不能预见这部分内容,属于只见表象、不见实质的观点。机器的不受控,是受控的不受控;机器生成内容的不可预见,是可预见的不可预见;机器的所谓“随机性”,是人所指定范围内的随机性。在本文涉及的案件中,游戏画面也好,AI绘画也罢,都表明机器的所谓自主性其实跳不出开发者设定的游戏进程或者用户输入的提示词。美国版权局只看到机器这个“孙悟空”的神通,没能看到用户设定的“五指山”的约束。就此而言,美国版权局“透过现象看本质”的能力比不上Williams Electronics案中的法官。


2.演绎作品是对原著的固定


从原著与演绎作品的关系之中,我们同样能够加深关于固定性的理解。


原著有没有被固定在演绎作品中呢?答案是肯定的。因为假如原著没有被固定在演绎作品中,就谈不上演绎作品对原著的利用,自然也就不需要接受原著作者(此处以“作者”替代“权利人”,下同)的控制。而中外版权法都规定,使用演绎作品时必须取得原著作者的许可,这意味着任何演绎作品都构成对原著的固定。


那么,原著作者对演绎作品的预见能力和控制能力有多高呢?答案是,并不需要太高,远不至于需要达到精确预见的程度。针对同一部小说改编的多部影视作品,可能相去甚远。原著作者对其中任何一部影视作品都不可能达到充分预见、充分控制的程度,而必然会在其中看到意料之外的因素。2022年,《野性的呼唤》第6次被搬上大屏幕。在这一版电影中,小说中冷酷无情的丛林法则变成了温情脉脉的团队协作。如果杰克·伦敦在世,估计会在电影中发现诸多自己意料之外的情节与情绪。然而这丝毫不妨碍电影构成对小说的固定。诸如此类的例子不胜枚举。庄羽能够告倒郭敬明,琼瑶能让于正承担侵权责任,以及“金庸诉江南案”被正确定性为著作权侵权纠纷,无不意味着原著作者并不需要拥有高度的预见力和控制力,就能让自己的独创性表达被固定在演绎作品之中。假设版权法将演绎权建立在原著作者能够充分预见并控制演绎作品的基础之上,那相当于架空了演绎权。演绎权是促成原著作者与后续创新者合作的制度桥梁,倘若要求原著作者对后续演绎全部亲力亲为,一则不现实,二则不必要,三则相当于剥夺原著作者从后续创作中获得收益的机会。因此,中外版权法都不要求原著作者对演绎作品的具体形态有充分的预见力和控制力。


同一部原著在不同演绎作品的具体呈现形态千变万化。演绎作品之间的差异是可变部分,这部分信息量可能很大,但并不妨碍原著的固定性。因为当我们讨论原著是否被固定在演绎作品中时,我们关心的不是变化的部分,而是不变的部分;不是原著作者在演绎作品中没有做出贡献的部分,而是原著作者在演绎作品中做出贡献的部分。裁判者在分析被告是否侵犯原告的演绎权时,只需“以不变应万变”,即聚焦原告做出贡献的信息,而不必关心被告做出贡献的信息。因为被告做出的贡献再大,也只是在权利限制环节通过“转换性使用”来考虑的问题,而不是在权利客体环节否认原告作品固定性的因素。


原著与演绎作品“一对多”的关系再次证明:作品不等于作品的具体呈现形态,作品的固定性不等于作品具体呈现形态的固定性。用演绎作品具体呈现形态千变万化来否认原著的固定性,属于对象认识错误。


在美国版权局看来,AI用户无法预见具体生成内容这一事实阻碍了用户就生成内容提出版权主张。在“《黎明的扎里亚》案”中,美国版权局认为:“用户无法预见Midjourney具体输出这一事实使得Midjourney在版权法意义上不同于艺术家使用的其他工具。(与摄影相比)Midjourney的用户并不对初始或者最终生成的图片享有同样的控制。”但是从原著与演绎作品的关系来看,原著作者无法预见每部演绎作品具体形态这一事实并不能用来否认原著作者就演绎作品享有的版权。美国版权局没有对预见性程度做出任何解释,也没有考虑原著作者对“预见性不高”的演绎作品能够行使控制权这一事实,就径直以用户对AIGC的预见性不高为由否定了用户针对AIGC的版权主张,在逻辑上存在疏漏。


在“《黎明的扎里亚》案”中,美国版权局还认为:“Kashtanova女士这样的用户大概需要花费超过一年的时间来把构思转换为符合她头脑中预设的图像,因为用户们需要生成数以百计的中间图像。”美国版权局的逻辑是:通过强调用户难以获得理想图像这一现象,来凸显AI不受控制这一结论。然而,用户需要通过反复尝试才能获得理想图像这一事实,最多只能证明用户控制AI生成结果需要付出努力,而不能证明AI不受控。以小说改编电影为例:小说作者很可能需要与不止一位潜在的电影改编者洽谈,才能找到相对理想的改编者。甚至很有可能即便小说作者付出大量精力进行筛选,电影改编者仍然不合他意。但这丝毫不妨碍我们承认小说作者对电影的控制。恰恰相反,只要小说作者不满意,电影制片人便不能创作固定了小说内容的电影。小说作者的“挑三拣四”不仅不能用于否认他对电影内容的控制,反而是他享有控制力的证据。同理,AI用户的“挑三拣四”也不能用来否定用户对内容的控制力,反而是彰显用户控制力的证据。无论AI的内容生成能力多么惊人,最终能被呈现给公众的、产生社会价值的内容,都只能是被用户选定、符合用户期待、反映用户预期的内容。


有读者可能会提出疑问:既然原著作者不是演绎作品的作者,做出独创性表达的用户凭什么能成为AI绘画的作者呢?实际上,如果我们将演绎作品视为广义上的合作作品,那么原著作者当然是演绎作品的作者,正如任何一位合作作者都是合作作品的作者一样。只不过,由于著作权法技术性地将演绎作品和狭义合作作品进行了区分,为二者设置了不同的权属规则,所以表面上,原著作者似乎不是演绎作品的作者。


演绎作品与狭义合作作品的区别在于它们有着不同的“合作”规则。对于演绎而言,合作体现为先后两个阶段独创性表达的客观融合,不包含参与各方之间的合作合意。演绎行为的发生、演绎作品的出现,不以原著作者的合作意图为前提。而对于狭义合作创作而言,合作不仅体现为各方智力成果的客观融合,而且包含各方之间达成的创作合意。若是缺乏将己方独创性表达与他人独创性表达融合在一起的处分意愿,则最终成果中无论是否包含多方的独创性表达,都不是合作作品,各方所实施的也不是共同创作行为。


只有理解了合作作者的处分意愿,才能理解他受到的限制。2020年《著作权法》第14条第2款规定:“合作作品的著作权由合作作者通过协商一致行使;不能协商一致,又无正当理由的,任何一方不得阻止他方行使除转让、许可他人专有使用、出质以外的其他权利,但是所得收益应当合理分配给所有合作作者。”“不得阻止”一词清晰地传递出合作作者在支配合作作品时受到的限缩。在法律指定的情况下,合作作者的排他权从主观定价的财产规则型降格为客观定价的责任规则型,“缩水”不可谓不厉害。


对比之下,原著作者和演绎作者的排他权更为完整。当演绎作者未经许可利用演绎作品时,原著作者完全可以要求停止侵权。尽管演绎作品中同时包含原著作者的贡献和演绎作者的贡献,但他们各自享有可以主观定价的财产规则型排他权。他们只需要在博弈中达成合作,而不需要接受法律强加的合作。正是在此意义上,演绎与狭义合作创作之间存在明显的规则分野。


演绎与狭义合作创作之间的规则分野,还体现在作品登记制度上。合作作者可以被登记为合作作品的作者,原著作者却不能被直接登记为演绎作品的作者。这是因为原著容易单独登记,单个合作作者的贡献却不能。加之原著的登记足以为原著作者带来针对演绎作品的排他权,所以在综合考虑可操作性与管理成本之后,著作权法在登记技术上将演绎作品与狭义合作作品略作区别对待是合理的制度安排。


回到疑问的核心:原著作者是不是演绎作品的作者?答案是肯定的。前述分析指出了著作权法区别对待二者的理由,但这些理由只涉及排他权强度与登记层面的技术问题,而不影响原著作者享有演绎作品排他权强度这一核心命题。前述分析表明,原著作者针对演绎作品享有的排他权甚至强于单一合作作者针对合作作品享有的排他权。显然原著作者享有的这种完整排他权系原始取得,而原著作者在演绎作品中的作者身份便是原始取得排他权的正当性基础。


本文以演绎作品为参考,只是因为演绎行为最容易让人理解固定性的要求不高,而不是因为其他多方参与生成内容的行为不能作为参考。读者大可将原著在演绎作品中被固定的分析运用到其他场景下,例如对单一合作作者的贡献在合作作品中的固定性进行分析。各种具体场景下的分析将殊途同归地表明著作权法对固定性的要求并不高。即使对己方贡献在最终成果中的具体呈现形式缺乏尽善尽美的预见和控制,参与方也足以宣称己方贡献被固定在最终成果之中。所以,美国版权局以用户不能完全预见和控制AI绘画的具体呈现形态为由否认用户独创性表达在AI绘画中被固定,进而否认用户是作者的推理,令人难以认同。


(三)以专利法上的“能够实施”为参照


本部分,让我们把目光移至邻近的专利法领域,看看在先创新者就在后创新主张权利的门槛究竟是高还是低。


理论上,在后发明只要落入权利要求保护范围,就受在先发明人(此处以“发明人”指代“权利人”,下同)排他权的约束。换言之,在先专利权利要求范围中的任意发明,都可以被视为在先发明人的发明,达到“能够实施”的地步。


所谓“能够实施”,意味着本领域普通技术人员(POSITA)在阅读说明书后能够制造或者使用专利。这条原理从字面上不难理解,落实起来却相当有难度。难度在于如何判断在先发明如何使得改进发明“能够实施”。在先专利权利要求的范围可能非常宽泛,不仅包含在先发明人实际完成的发明(典型最佳实施例),而且包含改进发明。既然是改进发明,其中必然包含对于在先发明而言“非显而易见”的成分。这样来看,专利法的要求岂非自相矛盾?一方面,在先发明必须披露到让本领域普通技术人员“能够实施”在后发明的地步;另一方面,在后发明又不能“显而易见”到只要掌握在先发明就“能够实施”的地步。来自在先专利“能够实施”的要求与来自改进发明“非显而易见”的要求之间明显存在张力。缓解这一张力是专利法裁判者面临的挑战。


鉴于本文并非讨论专利充分公开的论文,故对这一问题不再进一步展开,仅简要呈现专利法摸索出来的授权门槛。简而言之,“能够实施”的门槛不高。实践中,当技术方案的创造性不存在疑问时,充分公开很少成为阻碍授权的因素。这意味着针对落入权利要求的改进发明而言,尽管在先专利不能让本领域普通技术人员实施改进专利,改进人仍然必须接受在先发明人的支配,唯有获得在先发明人许可之后才能充分开发改进发明的商业价值。当在后发明的价值远远超过在先发明的价值时,低门槛的“能够实施”要求很可能让公众为改进发明人抱不平——在先发明人自己或许没有能力做出改进发明,却凭借在先发明的有限贡献掌控在后发明的商业化潜力。说得好听,这可以称为“四两拨千斤”;说得不好听,大概会被视为“挟持”和“敲竹杠”。但专利法百年以来的实践偏偏允许在先发明“以小博大”。除非在先发明人的排他权会给在后发明带来不成比例的负担,例如通过披露一个实施例来垄断整个mRNA疫苗的后续研发,否则专利法通常允许在先发明人针对那些他既没有预见,也无力做出的改进发明主张专利权。与专利法权利客体环节的其他要件——尤其是创造性——相比,充分公开是一项适用谨慎的要件。当它果真发挥作用、成为拒绝授权的理由时,往往会引发巨大争议。在2023年的Amgen Inc. v. Sanofi案中,美国联邦最高法院以不满足“能够实施”为由否认技术方案构成专利,便是现成的例子。在专利权客体构成要件体系中,“能够实施”的正当性基础与排除效果,远远比不上创造性要件。绝大多数具备创造性的发明都可以轻而易举地迈过“能够实施”的门槛。专利法并没有对在先发明人的预见能力和控制能力提出高不可攀的要求。


反观版权法领域,作品的固定性要件即便存在,也不应该设定过高门槛。尤其当我们将专利法与版权法作为两套完整的分析框架进行对比,更应当得出版权法上固定性门槛不能太高的结论。笔者曾经提出著作权法“宽进宽出”的分析框架,指出版权侵权案件中的被告有广阔的免责空间,尤以权利限制环节的合理使用一般条款为保障。与之相比,专利侵权案件中的被告如果不能在权利客体环节否定技术方案受保护的地位,一旦以生产经营为目的实施了受控行为,便几乎只能“坐以待毙”。因为专利法上并不存在与版权合理使用相对应的弹性免责条款,而只有适用前提相对明确的免责事由和程序门槛极高的强制许可可资利用。此外,专利法甚至没有独立发明例外,体现了残酷的“先到先得”“赢家通吃”特征。尽管专利领域有过关于专利合理使用或者反向等同原则的讨论,但这些扩大专利法后端免责出口的讨论至少在现阶段缺乏实践意义。在现行专利法下,权利客体环节适当收窄,在某些场合确有必要性,能够防止在先发明给范围宽广的在后发明带来不成比例的负担。在专利法免责出口稍窄的意义上,我们可以容忍其授权入口也适当收窄。


然而,版权法并不存在专利法上的顾虑。与专利权相比,版权的宽度至少受到来自两个方面的严重限制:一是独立创作例外,二是灵活的合理使用条款。二者使得版权名为对世财产权,实则对被告行为的具体方式高度敏感,版权法的适用效果常常与行为法并无二致。在免责更为容易的情况下,专利法上原本已经不高的授权门槛自然会相应降到更低。以此观之,连专利法都没有对在先发明人的预见能力和控制能力提出高要求,版权法更不应该对做出独创性表达者的预见能力和控制能力提出过高要求。承认用户做出独创性贡献的AI绘画构成作品不可怕,公众行动自由并不会受到过度限制。喜欢太空歌剧院题材的公众大可自行运用Midjourney生成图片。且不说Midjourney不会生成相同的图片,就算生成了相同的图片,只要被告能够证明自己没有抄袭,而是独立创作,仍然不构成侵权。进而言之,即使被告挪用了原告的图片,在满足合理使用的情况下,被告既无须事先征得许可,也无须事后支付报酬;在满足法定许可的情况下,被告只须支付法定许可费,而无须停止使用。诸多豁免责任或者减轻责任的途径使得原告享有的版权在市场竞争环境下只能带来对应其独创性表达投入的回报。甚至在被告既没有独立创作,也不构成独立许可,还不能适用法定赔偿时,法院还可以通过严格把握“实质性相似”判断以及维持适度的损害赔偿来寻求原被告之间的利益平衡。支持智力贡献者获得合理回报,难道不正是版权法的主要目标?


总之,美国版权局以AI不可控为由拒绝为用户做出独创性贡献的作品进行版权登记的做法欠缺说服力。


四、思想/表达二分法:文本输入可以转换为美术表达


美国版权局否认AI绘画是作品的第三项理由与思想/表达二分法相关。美国版权局及其支持者认为,用户做出的选择——包括提示词、参数和渲染模型——只是思想,不构成绘画中的表达。


美国版权局的反对意见可分为量和质两个方面:从量上看,用户选择过于简单,信息量太少;从质上看,用户选择不构成“传统表达元素”,因而无论选择的量有多大,都只能作为思想。本部分首先进行一般性论述,指出表达的门槛并不高,继而回应美国版权局在量和质两个方面的顾虑。


(一)从思想迈入表达的分界线并非遥不可及


美国版权局并不否认用户做出了一些选择,但认为这些选择不足以构成表达。按照美国版权局的分析思路,表达对于AI用户而言是一个难以企及的目标。然而,在适用思想/表达二分法时,我们首先需要明确下述原则:从思想迈入表达的分界线并非遥不可及。


在庄羽诉郭敬明等侵犯著作权纠纷案中,郭敬明的《梦里花落知多少》没有原样抄袭庄羽的《圈里圈外》,只抄袭了基本故事架构。如果按照美国版权局的逻辑,尽管郭敬明的《梦里花落知多少》背后有着来自庄羽的选择,但由于这些选择在《梦里花落知多少》中的具体呈现形式取决于郭敬明,所以这些选择不能算作庄羽的表达。所谓庄羽的表达只能是庄羽在郭敬明的小说中直接决定的、被读者从表层所感受到的信息。问题在于,如果没有挪用庄羽的表达,郭敬明就不应该承担著作权侵权责任。从郭敬明承担侵权责任倒推,被挪用的信息构成庄羽的表达。毕竟,如果只有原封不动地抄袭才算挪用原告的表达,那么思想/表达二分法中的“表达”就应该很容易确认才对,汉德法官就不应该发出思想/表达的分界线“过去没被找到、未来也很难找到”的感叹。如果只有原封不动才能体现原告的表达,那么版权侵权就应当限于字面侵权,而实际上非字面侵权的例子比比皆是。照片背后的构图与曝光组合参数,海报的构图,小说背后相对抽象的情节组合,甚至计算机软件背后的结构、顺序与组织(structure, sequence and organization, SSO),都是相对抽象的信息,都被法院认定为版权法保护的作品。这说明法院认可具体表达背后相对抽象的选择同样构成表达。版权法承认的表达历来可以从表面的具体信息穿透到背后不那么具体的信息,我们没有理由相信这条原则在AIGC领域突然失灵。在美国版权局能就表达在传统案件和AI绘画案件中的明显差异给出逻辑连贯的解释之前,关于用户没有贡献表达的说法都缺乏说服力。


表达的门槛不高逐渐获得越来越多人的认同。已经有相当多过去被认为只能属于思想的智力成果逐渐被认为有可能构成表达,例如在“金庸诉江南案”中,一审法院认为“脱离了具体故事情节的人物名称、人物关系、性格特征的单纯要素,往往难以构成具体的表达”,从而认为被告没有挪用作品,承担的不是著作权侵权责任而是不正当竞争责任。二审法院予以纠正,确认被告须承担著作权侵权责任。二审判决指出:小说中的表达不止一种形式,故事情节固然是表达,但由人物姓名、人物关系和性格特征构成的组合同样是表达。江南尽管没有在小说情节层面抄袭金庸的表达,但在人物姓名、人物关系和性格特征组合层面抄袭的内容已经构成表达。与一审法院关于“表达”的严苛态度相比,二审法院的认定明显更加弹性,以开放的心态将表面上不那么传统的信息成果解释为“表达”,从而避免“作品”成为一个高不可攀的概念。早在Nichols v. Universal Pictures Corporation案中,汉德法官就指出,争议客体被勾勒得越清楚,就越可能获得保护。从前述被认定为“表达”的案件观之,“充分描述”并非遥不可及。既然金庸被抄袭的元素组合能够构成“充分描述”的表达,提示词自然也应该具备被认可为“充分描述”表达的可能性。


除了以“金庸诉江南案”为代表的作品元素挪用案件之外,还存在许多过去被视为“思想”的信息成果逐渐取得“表达”地位的情形,例如古籍点校和游戏规则。这一趋势符合笔者倡导的著作权法“宽进宽出”特征,值得肯定。笔者曾经指出,著作权法应当采取“宽进宽出”结构,维持作品构成要件的弹性,以便将不断出现的非传统智力成果吸纳到著作权法的结构性分析框架中,充分发挥图式的认知经济性。根据“宽进宽出”理念,思想与表达之间的分界线不应当被设置得过高。对于那些不容易被他人再次创作出来的小概率信息成果,原则上应当视为表达,除非它对后续社会福利开发存在明显封锁作用或者属于纯技术领域。


(二)用户输入可能构成表达


“表达的门槛不高”在AIGC场景下的落实意味着用户输入被认定为表达的门槛也不高。因此,本文自然而然地认为用户输入的提示词和参数等信息有可能构成表达。毕竟,按照“宽进宽出”的理念,既然“《太空歌剧院》案”和“《黎明的扎里亚》案”中的用户输入都包含了用户的大量选择,又不会对后续创作产生封锁作用,而且不属于纯技术领域,就理应将他们纳入著作权法的结构性分析框架之中。否则,法律体系仍然需要为了激励用户而另起炉灶,设计一套图式来解决利益分配问题(或者用宽泛模糊的《反不正当竞争法》第2条来解决问题)。这种做法舍近求远,于实体利益判断上无增益,于认知经济上有损失,没有理由支持。然而,美国版权局并不这样认为。在美国版权局看来,AI用户的输入只能算作思想,不构成表达。本文尝试理解其顾虑,然后加以反驳。


美国版权局采取该立场的理由之一在于,它倾向于将用户输入的绝对信息量想象得比较小。


为了解释如何通过提示词生成内容,《版权登记指南》举例道,“用户可以向文本生成系统发出如下指令:‘写一首莎士比亚风格的版权法诗歌’”。通过这个例子,美国版权局希望表明“提示词是思想而不是表达”。针对这个特定的例子,美国版权局关于思想/表达二分界限的判断是正确的。用户在上述提示词中做出的选择仅仅包括“体裁为小说”“主题是版权”“体现莎士比亚风格”三项,这三项选择作为整体所承载的信息量很少,被不同主体不约而同生产出来的概率比较大,若允许其被独占,容易对后续创作产生封锁效应,因此将其认定为思想符合既有版权法的逻辑。如同引言所述,通过这种属于“思想”范畴的简单提示词产出的AIGC是否以及如何配置独占权,不在本文的关心范畴。本文赞同就这一特定的简单提示词而言,既有版权规则的适用结果是AIGC不构成作品。


然而,上述“不构成作品”的结论仅仅针对提示词非常简单、落入“思想”范畴的情形,不能被推广到所有AIGC。针对不同提示词,理应存在不同结论。然而,美国版权局在就提示词的性质进行分析时,并没有详加区别,而是将不同性质的提示词组合杂糅在一起。例如在“《黎明的扎里亚》案”中,美国版权局举了三个关于提示词组合的假想例来说明提示词生成图画的过程。这三个假想例按顺序分别是“可爱的迷你恐龙幼儿园咖啡品鉴师,3D,逼真,细节丰富”“耳朵低垂的白兔,彩虹背景,可爱、乖巧、开心”“紫色的可爱恐龙宝宝莎士比亚写戏剧”。在这三个假想例中,第二个最有可能落入思想范畴,第一个和第三个则离表达的范畴稍微近一些,因为这两个提示词组合包含数项个性化特征明显的用户选择,能够在相当程度上唤起读者心中模糊的视觉呈现形态。尤其对于熟悉Midjourney风格的用户来说,他们在输入第一个和第三个假想例时,心目中预设的成果与Midjourney最终产生的成果之间很可能有相当大的关联度。这意味着用户正是比照心目中Midjourney最可能产生理想结果的方式“反向工程”出了提示词,这些提示词正是指引特定AI工具产出特定视觉表达的手段。不管怎样,即使第一个和第三个假想例中的提示词组合本身没有越过从思想到表达的边界,至少从举例中可以看到美国版权局对提示词组合的理解具有两个特点:一是它倾向于把提示词组合想象得简短抽象,二是它不针对具体的提示词组合展开分析,而是一概而论。


美国版权局的假想例并不符合《黎明的扎里亚》和《太空歌剧院》的创作过程。《太空歌剧院》背后的提示词输入多达“至少624次”,如此多提示词组成的信息成果包含大量的表达细节,其精细程度与美国版权局的假想例之间明显存在差别,此不赘述。我们重点看看《黎明的扎里亚》的创作过程。


Kashtanova指出,她针对一幅图做出的提示可以包含很大的信息量,包括一个场景描述(一位叫Raya的全息白人老妇人,Raya有卷曲的头发,她在一艘宇宙飞船内),一些与情感和风格相关的指示(星际迷航飞船、Raya是一个全息影像、八角渲染、电影感、高度详细、虚幻引擎)。用户还会限定输出格式(--ar 16 : 9, --iw 4),以及通过技术选项修改服务采取的生成路径(-seed 1234)。不仅如此,用户输入中还包括多张既有图片。在获得以上所有输入后,Midjourney才生成了最终被采纳的“Raya全息影像”。针对这幅图片,用户的各种输入中包含大量的表达要素。单就提示词而言,“白人”“老妇人”“星际迷航飞船”“全息图像”“虚幻引擎”“电影感”“16∶9”等都包含了视觉表达要素。所有这些视觉表达要素的总和,丝毫不亚于一幅摄影作品中来自摄影师的表达,与《版权登记指南》中简单抽象的“写一首莎士比亚风格的版权法诗歌”不可同日而语。


美国版权局将用户输入认定为思想的理由之二,可能在于它认为用户贡献的相对比例较低。美国版权局将用户比作委托人,将用户输入比作委托人指示被委托人创作一首莎士比亚风格的版权法诗歌。通过这一类比,美国版权局或许不仅希望说明用户输入的绝对信息量少,而且希望说明用户贡献的相对份额不高。本文在独创性分析部分已经指出,作品资格和作者身份只与贡献的绝对量相关,而与相对份额无关。只要绝对量跨过了独创性表达门槛,相对份额是高还是低在所不问。


上述原则在委托创作的场景下同样适用。“委托创作”这一描述本身并不等于发出指示的一方必然不能取得作者身份。委托人能否取得共同作者身份,取决于他是否满足成为共同作者的条件,而不取决于他是否有可能被描述成一个委托人。在现实生活中,共同创作、演绎创作、委托创作、职务创作等各种多主体创作场景之间的区别并非泾渭分明。一名有可能被描述成委托人的主体究竟是法律意义上的委托人还是共同作者,需要针对具体情况具体分析。


成为共同作者的门槛并不高,委托人通常能够轻松迈过门槛,成为共同作者。与委托人相较,AI用户在对成果的支配力以及贡献程度上,都处于更容易受到产权优待的地位,因此如果以委托创作为参照系,结论应该是AI用户容易取得作者身份。在美国法上,关于共同作者身份的认定存在两种标准。根据Goldstein的“可版权性标准”,不仅整体成果必须具有可版权性,而且每个主张作者身份的参与者都必须分别做出了满足作品构成要件的贡献;根据Nimmer的“微不足道标准”,只要整体成果具有可版权性,那么每个参与者并不一定需要做出满足作品构成要件的贡献,只需要做出“多于一个词或者一行话的贡献”即可。两种观点中,Goldstein的标准要求相对更高,但并不高于Feist标准。Nimmer的标准则非常低,甚至当主张者的贡献在分离状态下不满足作品构成要件时,也足以为贡献者带来共同作者的身份。尽管有相当多案件采用了Goldstein的标准,但Nimmer的观点也不乏拥趸。在Gaiman v. McFarlane案中,Posner法官便采纳了Nimmer的观点,并且提供了详细的说理。Posner法官指出,Nimmer降低了多主体创作场景下的作者身份门槛,目的在于避免每个参与者的贡献在分离状态下都不满足作品构成要件,但结合起来作为整体却满足作品构成要件的尴尬情况。此时若采Goldstein的标准,将出现“没有作者的作品”。Nimmer教授和Posner法官的顾虑是切实存在的。本文无意就共同作者的门槛问题进行深入评述,但前述争论至少表明:成为共同作者的门槛并非高不可攀。在委托创作的场景下,委托人的指示和建议并不需要满足太高的门槛就有可能奠定共同作者的身份。至于在实践中,立法机关和司法机关有可能基于反公地悲剧的考虑、合作意图的欠缺或者对交易成本的担忧,实际上将权利集中在少数主体手中,从而迫使部分徘徊在版权保护边缘的参与者积极通过合同条款来澄清自己的作者地位或者利润分配方案,这可以理解。但在理论上,合作作者的门槛并非高不可攀这点应该能够成立。既然在人与人合作的场景下,单个主体获得作者身份的门槛都不高,那么在人与机器“合作”的场景下,人取得作者身份的门槛至少不应更高才对。


有人可能会提出,即使某些提示词组合能够成为表达,参数设置也不能构成表达,理由在于参数设置落入操作方法范畴,而操作方法就其本质而言不受著作权法保护,哪怕独创性很高,结论也不会改变。从过去关于游戏规则可版权性的争论上看,这种观点会赢得相当数量的支持。但笔者曾在“游戏规则有可能构成作品”的相关论述中详细讨论过该问题,在此仅作简述。


尽管参数具备一定的功能性,但这并不妨碍参数成为用户表达的一部分。理由有三:第一,从著作权法承认计算机软件构成文字作品开始,著作权法就不再能够将操作方法排除在外。计算机软件尽管具备文本的表象,但本质上是复杂的技术。而且软件作品的受保护范围并不限于表层代码,而是深入到代码背后的“表达”,这更加说明受著作权法保护的软件作品具有强烈的技术属性,与操作方法密不可分。第二,即使抛开计算机软件这一“异类”,传统类型的作品也包含操作方法面向。例如五线谱可以被视为演奏方法,剧本可以被视为表演方法,而摄影作品中受保护的“构图、光圈快门组合”更是操作方法属性的强烈体现。原样复制固然构成对摄影作品表达的抄袭,挪用特定照片的选材、构图、曝光组合后拍摄出与之实质相似的照片,同样构成对摄影作品表达的抄袭。可见,由选材、构图和曝光组合作为整体形成的表达,不仅具有视觉美感的面向,而且具有操作方法的面向。如果一项信息成果只要可以被描述为操作方法就不能被认定为作品,那么人们很难理解摄影作品的保护范围为什么不限于原样照抄,而是能拓展到实质性相似的照片。第三,与著作权法“宽进宽出”理论在其他场景下的适用一致,假如将任何与操作方法沾边的信息成果都从著作权法中排除出去,那么这类信息成果的利益平衡就需要通过其他分析框架来实现。既然没有理由表明其他分析框架表现更佳,那么充分利用著作权法提供的成熟分析框架就是认知经济性最高、最为理智的选择。


总之,如果我们正确适用思想/表达二分法,那么提示词和参数等用户输入构成的组合完全有可能构成表达。


(三)文本表达可以转化为美学表达


美国版权局否认用户作者身份的另一项理由是用户没有提供“传统创作元素”,或者说用户没有“直接”进行创作。我们暂且抛开用户输入包含直接视觉信息不谈,这种立场与著作权法既有的理论和实践并不兼容。以下分析仅围绕“AI文生图”的场景展开,但分析思路也有可能适用于用户利用AI做出独创性表达的其他场合。


美国版权局关于AI用户创作过程的描述颇耐人寻味。一方面,美国版权局承认用户做出了大量选择;另一方面,美国版权局不承认这些选择构成表达。美国版权局认为:“虽然Allen描述他在生成Midjourney图像之前‘至少进行了624次文本修正和提示词输入,但该过程中的各个步骤最终取决于Midjourney如何处理Allen的提示词。”美国版权局似乎认为只有直接而纯粹的视觉要素才是表达,其背后稍微抽象一些、包含非视觉面向的要素都不是表达。美国版权局表示:“在考虑注册申请时,版权局将询问‘作品’是否基本上是人类的创作,计算机(或其他设备)仅仅是一个辅助工具,还是作品中的传统创作元素(文学、艺术或音乐表达或选择、安排等元素)实际上是由机器而不是人类构思和执行的。”在此,美国版权局主张根据“传统创作元素”的产生主体来判断创作者。如果这类元素源自人,成果就能够被认可为是由人类作者创作的、受版权保护的作品;如果这类元素源自工具,那么成果就不能被视为人类的作品,而只能是机器的产物。所谓“传统创作元素”,在绘画中指线条和色彩等能够直接带给人视觉体验的元素。简单地说,在美国版权局看来,用户既然没有直接提供线条和色彩方面的选择,就不能成为美术作品的作者。


这种“只能‘画’画,不能‘说’画,‘说者’无法成为‘画者’”的论证至少存在以下两个问题。


第一,文本具有强大的信息固定能力,能够固定包括“传统创作要素”在内的各种信息。“画”与“说”之间并不存在不可逾越的鸿沟,人们不仅可以“画”画,而且可以“说”画。


美国版权局将能够直接带来视觉感受的线条和色彩等“传统创作元素”与提示词完全对立起来,正如其支持者将“画”与“说”彻底对立起来一样。一项行为如果是“画”,就不能表现为“说”;一条信息如果被定性为“传统创作元素”,就不会是文本。这种二元对立并不符合信息的本质。


信息的本质是选择,是对不确定性的消除。作品作为信息成果,本质是传递作者的选择。只要信息的发出方与接收方共享解码系统,同样的选择很容易通过多种形态呈现出来。而语言——或者说文本——是各种信息承载系统中最为强大的一种。从视觉信息到听觉信息,从触感信息到味觉信息。在从感受到文本的抽象过程中,有时候可能会遗漏部分细节,但这丝毫不妨碍文本天生具有描述一切的本领。正因如此,由“0”“1”组成的二进制世界才具有传递一切、虚拟一切的强大能力。如果音乐不能被转化为“0”“1”,图画不能被转化为“0”“1”,传统的自然语言文本不能被转化为“0”“1”,电子世界哪来那么大的吸引力呢?当人们打开一个JPEG文件时,相当于是在用枯燥的“0”“1”文本指示电脑展现图画。所谓的“传统创作信息”在JPEG中的存在形式正是文本。理论上,作者可以通过精确指挥他人调色、落笔来创作油画。如果被指挥者没有发挥任何主观能动性,那么指挥者将成为油画的唯一作者,这幅油画也就确实是被“说”出来而不是被“画”出来的。可见,所谓“文本”与“传统创作元素”之间不可逾越的鸿沟并不存在。美国版权局将提示词与“传统创作元素”对立起来的做法,不能反映文本在当今社会信息传递中所具备的普遍效力。


换句话说,在线条和色彩等所谓的“传统创作要素”中,不仅存在AI的贡献,而且存在用户的贡献。线条和色彩不仅仅是视觉要素,也是非视觉要素。它们不仅传递视觉信息,而且传递各种各样的非视觉信息。美国版权局并不反对用户能够就非视觉信息做出选择,只是认为用户做出的非视觉选择不波及线条和色彩层面。然而既然线条和色彩中可以包含非视觉信息,用户能够直接决定线条和色彩这点,就不应存疑。


假如我们把“传统创作要素”理解为各个像素的着色方案,那么这一方案绝非单独由AI决定,而是同时由AI和用户决定。如果用户为自己的科幻小说设定了一个奇异世界,那里有绿色的人类、红色的猫咪、紫色的树木和黄色的天空,人由正方体构成,猫由球体构成,树由三角锥构成,而空中的云朵是一个个巨大的肥皂泡。此时,那些用于表现人的像素就只能着绿色,用于表现猫的像素就只能着红色,用于表现树木的线条只能是直线,用于表现云朵的线条只能是曲线。红色像素的位置或许在一定区域内可大可小,树木边缘的线条或许在一定范围内可长可短,但在表现人的区域内只能是绿色,在表现树木的地方只能用直线,这些色彩和线条代表的“传统创作元素”明显不是仅由AI所创作的。从合理性的概率出发,AI或许更倾向于棕色皮肤的人与圆润柔和的树冠,但人的自由意志才是上述线条和色彩的决定因素。用户表达其创作意志的方法是输入提示词、参数或者图片,而这些意志会在绘画的各个层面得到反映,从相对抽象的主体、氛围到相对具体的取景、构图甚至直接波及色彩、线条等最表层的因素。当然,并非所有AI绘画背后都有来自用户的精确描述,但上述分析至少证明通过文本来传递视觉效果并非难事。哪怕文本中有部分信息在转换为视觉表达的过程中有所损耗,也不妨碍转换本身的可能性。实际上,“《黎明的扎里亚》案”中作为例子被分析的一幅画中,就包含用户指定的视觉色彩信息(白人老妇人)。就皮肤颜色这一“传统创作要素”而言,提供者显然是用户而不是AI。


第二,美术作品的表达不等于美国版权局认可的“传统创作要素”。“传统创作要素”只是美术作品表达的一部分,不能覆盖其全部。


即使我们不考虑精确“说”画的场景,“说”画仍然可行,因为一幅画中的表达远不止线条、色彩等“传统创作元素”,而是有可能穿透到背后更为抽象的层面,而这些抽象层面有可能被提示词“说”出来。


美国版权局对美术作品“表达”的理解相当狭隘,仅包括贴近表层呈现形式的视觉元素,也就是所谓的“传统表达要素”,而将色彩、线条等直观视觉元素之外的所有独创性选择都排除在表达范围之外。这并不符合思想/表达二分法的本意。正如小说的表达既包含精细的细节描述,也包含相对抽象的故事情节,还包含散落于小说各处的人物姓名、人物关系和人物性格组合,美术作品的表达也可以包含多个层次、多种类型的独创性选择。色彩的选择、点线面的规划固然可以成为表达,素材选择、主题设计、故事铺陈乃至作者期待营造的氛围,都有可能构成表达或者表达的组成部分。《清明上河图》采用散点透视法,容纳了成百上千的人物和景物,建筑、车船、花木、动物、器具、河川无所不包,戏剧冲突无处不在。有人说这是一幅画表现一座城,还有人认为这是一幅画记录一个时代。对于这幅美术作品,难道只有抄袭线条和色彩才算抄袭它的表达?同理,如果今人也用散点透视法绘制一幅“从985到996”的长卷图画,同样包含了成百上千的人和成千上万件物,讲述当代年轻人的内卷和苦闷,难道抄袭这幅美术作品的方式仅限于抄袭它的线条和色彩?如果被告通过研究长卷,详细记录内容(但没有达到像素级精确对应的地步),然后绘制出与人、物具体呈现形态有别但内容实质相似的图画,自然同样构成对美术作品表达的使用。美术作品的表达并不限于线条、色彩等所谓的“传统表达元素”。美术作品中的表达可以具有多个层次、多重形态。美术作品所塑造的人物、讲述的故事、传递的道理,都不是美国版权局所认可的“传统表达要素”,但都可以构成美术作品的表达。这些相对抽象的信息,完全可以表现为提示词。美术作品中的表达从最表层的纯视觉要素到相对抽象但并非思想的非视觉要素,范围可以十分宽广。美术作品中的许多独创性选择同时传递视觉信息与非视觉信息,兼具“传统表达要素”和文本要素双重属性。所以,在提示词与“传统表达要素”之间划下泾渭分明界限的努力无法成功,以泾渭分明界限作为基础也谈不上可靠。


五、用户做出独创性表达需要激励——代结语


支持美国版权局和反对北京互联网法院的观点常常试图从激励论角度来证明AIGC无需保护。例如:“对美国的人工智能产业而言,美国版权法不保护人工智能生成的内容似乎并没有‘损害投资人的经济利益’‘打击投资者信心’‘挫伤人工智能研发、投资的积极性’,并‘严重阻碍人工智能行业的发展’。”“绝大多数AI生成内容供应量都特别大而需求量又特别少,故不具有稀缺性(不具有独创性),不是财产(不是作品),不值得、不需要、不应当动用产权制度和社会成本予以激励或保护,‘AI图片首案’的审理法院理应驳回原告的诉讼请求。”


就本文所关心的用户贡献角度而言,承认AIGC可版权性的目的不是“激励人工智能产业”,效果也不是让那些“不具有稀缺性”的成果获得保护。当我们认可用户做出独创性表达的AIGC构成作品时,激励的对象是用户,激励的效果是让具有稀缺性的用户创造力得以释放。既然法律没有否认摄影者在普通摄影作品中的投入需要激励,那么用户在运用AI的过程中投入的时间、精力和智力资源也值得激励。如果原告的贡献果真不值一提,那么被告完全可以自行创作或者轻松获得替代品,没有必要挪用原告利用AI生成的内容。如果用提示词创作图画如此简单,提示词工程师就不会成为新兴职业。实际上,独立用AI生成一幅图画可能远比独立用相机拍一张照片难得多。既然我们并不介意承认照片的可版权性,为什么又一定要把AIGC排除在版权保护的可能性之外呢?摄影师是相机时代的“提示词工程师”,他们的独创性表达得到了版权法承认,对照片的保护并没有引发过度限制公众自由的担忧。同理,提示词工程师是AI时代的“摄影师”,他们的独创性表达也理应得到保护。只要对侵权责任认定的门槛把握得当,责任承担的力度设置合理,我们也没有必要过于担心承认AIGC的可版权性会给公众自由带来不合理的负担。


笔者认为:“(AIGC可版权性)反对者的策略是釜底抽薪,直接否认人工智能生成内容的‘智力成果’属性。如果这种反对的理由成立,反对者可谓‘一劳永逸’地将人工智能生成内容排除在著作权保护范围之外。”从体育赛事直播画面、游戏规则、游戏画面、古籍点校、同人创作、音乐喷泉等争议观之,这种“釜底抽薪”“一劳永逸”的标签式否定极其危险,因为不加区分地将整个类型的信息成果排除在著作权法之外会在整个对应领域挫败著作权法的激励目标。所幸上述领域的理论和实务最终都回归理性传统,通过独创性表达这一富有生命力的制度工具将各个类型中值得激励的客体和不值得激励的客体区分开来。由此,大型体育赛事的转播方、复杂游戏规则的开发者、做出大量独创性贡献的点校者、同人作品即将被拍成电影的原著作者和高质量音乐喷泉的设计者才能获得著作权法的激励。至于那些用手机顺手直播赛事的观众等没有做出独创性表达的人,自然不会因为赛事直播画面这一大类成果具有可版权性就自动获得著作权的激励。承认某类成果具有可版权性,并不等于该类成果的每个创作者都能受到激励。作品构成要件激励的是独创性表达的贡献者。“釜底抽薪”“一劳永逸”式拒绝AIGC构成作品的观点所挫伤的正是贡献了独创性表达的用户。


《太空歌剧院》的创作者Allen进行了“至少624次提示”,《黎明的扎里亚》的创作者Kashtanova进行了成百上千次试错纠错,如果抄袭他们的绘画无须承担侵权责任,如何保障他们始终拥有恰当的激励去使用AI来创作出心中理想的图景?本文不关心AI开发者的激励是否足够,只关心用户的激励,并认为著作权法是激励他们贡献独创性表达的恰当工具。只要不能否认用户的独创性表达需要激励,“一揽子”否定AIGC可版权性的观点就有必要回答如下问题:假如抛弃著作权法,我们真的能够设计出一套更加合适的制度工具来激励用户做出独创性表达吗?


不加区别地否认用户的贡献将导致不公平的结果,即愿意尝试新工具、创造新内容的人无法获得激励,而那些依从惯性、停留在旧范式中生产旧式内容的人反而容易获得激励。面对任何“一揽子”否定AIGC作品资格的观点,我们都应该从新技术的炫光中抽身后退,审视著作权法长久以来在各领域设定的“平易近人”的门槛,体会著作权法激励人类创造力的精神。