13910160652
010-52852558
| |EN
首页 > 理论前沿 > 版权
  • 13910160652
  • ciplawyer@163.com

机器利用数据行为构成著作权合理使用的经济分析

日期:2024-04-23 来源:知识产权杂志 作者:刘禹 清华大学 浏览量:
字号:

内容提要


未经权利人许可的数据挖掘或机器学习行为可能侵犯著作权人的多项权能。尽管目前市面上存在一些互联网平台与数据库,可供数据挖掘与机器学习者一站式批量获取作品,但若不免除数据挖掘与机器学习者事先寻求许可的法律义务,则他们仍会囿于高昂的交易成本,无法有效获取所需数据,这制约数字创新产品的开发。允许数据挖掘与机器学习者免费使用作品数据,可能实质损害著作权人的部分市场利益,但由此开发的数字创新产品可以为权利人带来其他市场收益,且社会自我调节机制能够消化很多市场损害,因此,颠覆性改进现有技术的数据挖掘和机器学习行为宜被认定为合理使用。不宜通过法定许可或“选择退出”合理使用机制来规制数据挖掘与机器学习行为。


关 键 词


人工智能 数据挖掘 合理使用 法定许可 “选择退出”机制


一、引言


当今数字经济时代,纸张、胶片、光盘等有形载体上的作品与录音录像制品(本文关于作品合理使用问题的研究,同样适用于录音录像制品,为简洁表述,文中以“作品”概括性地指代二者)越来越多地被转化为电子版,呈现在互联网上。作品的数字化能使互联网用户更为便捷地欣赏这些智力成果。不过,这一数字化浪潮更深层的动因是数据挖掘与机器学习者需要将这些数字副本作为数据使用,大规模地进行读取索引、整理分类、识别提取、试错学习等自动化处理,以便获得有用信息或优化计算机程序。除了通过扫描等方式制作作品的数字副本并加以利用外,数据挖掘与机器学习者还会收集、复制人们在上网过程中无意或有意生成的作品用作数据。一张微博配图,一段抖音视频,一条美食评论,都不仅因为给公众带来审美享受而具有价值,还因可作为计算机自动化处理的原材料而具有价值。


规模化地将作品作为数据使用,能为使用者带来很多收益,著作权人自然希望从中分一杯羹。权利人与使用者之间的利益交锋,最初发生在文本与数据挖掘(text and data mining)技术崭露头角的时期,直到今天仍未决胜负。文本与数据挖掘的典型例子是谷歌数字图书馆这样的搜索引擎。谷歌大量扫描整本的纸质版图书并编制索引,使数字图书馆用户输入关键词后可获得书中包含该关键词的简短片段。2015年,美国联邦第二巡回上诉法院认定谷歌复制图书与通过信息网络向公众传播作品片段的行为构成合理使用,未经许可的免费使用行为不侵犯著作权。不过,在面对TVEyes创建的电视新闻搜索引擎时,该法院却得出了完全相反的结论,认定TVEyes复制海量电视新闻后为搜索关键词的用户提供剪辑片段的行为侵犯了新闻著作权人的权利。英国、德国、法国、欧盟等在著作权法框架下增设了数据挖掘合理使用条款,但或者适用范围仅限于非营利性科研机构,或者规定著作权人能以机器人协议(Robots.txt)等极为便捷的方式“选择退出”合理使用机制,远不能有效缓解权利人与使用者之间的矛盾。如今,随着机器学习技术取得突破性进展,著作权人与使用者之间的较量可谓一波未平,一波又起。利用作品训练能执行自动驾驶、医疗诊断或手术等复杂任务的人工智能,是否构成合理使用呢?如果训练的是能执行吟诗作画、自动编程等任务,输出物与训练数据在同一市场上竞争的生成式人工智能,答案会不一样吗?


前几年,在我国人工智能产业开始起步的背景下,国内已有一些文章主张在修订《著作权法实施条例》时,明确利用作品训练人工智能的行为构成合理使用,豁免机器学习者的侵权责任。不过,这些文章仍存在一定问题。首先,这些文章仅将数据挖掘作为机器学习过程的一个步骤,忽略了很多数据挖掘行为与训练人工智能毫无关联,但相关数据挖掘者在利用作品时与机器学习者面临同种合法性困境的事实。法条新增专门的例外情形时,完全可以一并解决这两类主体的困境。前文提到的数字图书馆、新闻搜索工具,商家提取、分析电商平台上消费者的评价内容以提升品牌竞争力,以及经济分析师挖掘大量财经新闻来预测股市发展趋势等,都是与训练人工智能无关的数据挖掘的例子。我国近期也不乏利用作品进行文本与数据挖掘是否侵犯著作权的争议。其次,在现实中存在一些付费或免费的数据库、互联网平台的情况下,这些文章没有充分论证将作品作为数据使用的许可市场(以下简称作品数据许可市场)为何仍会处于失灵状态,以至于需要以合理使用豁免使用者的行为。这也是为何有反对意见认为我国立法者应先对产业实际进行调研,再决定是否在法律中新增针对数据挖掘与机器学习行为的合理使用情形。最后,这些文章对著作权人能否以及如何排除数据挖掘与机器学习合理使用条款适用于自己的作品这一实践中棘手的具体问题,并未给出答案。


近年来,ChatGPT、Stable Diffusion等生成式人工智能开始推广应用。生成式人工智能可以输出内容表达,与作为训练数据的作品在作品欣赏市场上展开竞争。有鉴于此,有学者建议,区别对待生成式人工智能与其他数据挖掘及机器学习项目,要求生成式人工智能的开发者向集体管理组织缴费来补偿训练数据的著作权人。还有学者在此基础上,进一步区分训练数据来自海量著作权人的生成式人工智能与训练数据来自一位著作权人的生成式人工智能。对于前者,该学者认为开发者利用作品的行为构成合理使用,但允许著作权人“选择退出”,哪怕会妨碍实现降低交易成本的初衷;对于后者,该学者认为开发者利用作品的行为不应适用合理使用豁免侵权。本文认为,以上观点有待商榷。首先,其未考虑以下关键问题:生成式人工智能取代社会上大部分创作者和制作者,是否是新一轮产业革命下社会生产效率大幅提升的必然代价?少部分创意杰出的创作者、制作者是否得益于生成式人工智能的发展?被机器取代的创作者、制作者能否走向新岗位?其次,如果要求训练数据来自海量著作权人的生成式人工智能的开发者付费使用作品,那么集体管理组织的运行成本会不会很高?有权机关确定及定期调整法定许可费率会不会很复杂?在技术不断发展、产品生产成本和价格接连下降的情况下,数年不变的法定许可费会不会不当损害机器学习者投资开发生成式人工智能的激励?


显然,决策者在决定著作权人应否控制将作品用作数据的行为时,需要全面比较产权保护的效益与成本,才能作出正确的选择。本文第二部分探讨未经许可数据挖掘与机器学习作品会侵犯哪些著作权能。第三部分分析在何种条件下宜通过合理使用机制排除权利人对数据挖掘与机器学习者的数据利用行为的控制,指出为实现数据挖掘与机器学习的技术功能而商业性地使用作品是颠覆性改进的使用,即使实质损害著作权人市场利益,也可能构成合理使用。第四部分揭示作品数据许可市场处于交易成本高昂的失灵状态,需要引入合理使用机制。第五部分分析数据挖掘与机器学习者合理使用作品对权利人市场利益的影响,认为一些数据挖掘与机器学习项目虽实质损害著作权人在作品欣赏市场上的利益,但同时对之有积极影响,尤其针对生成式人工智能,其带来的多重挑战能被社会自我调节。第六部分解释为何不宜引入法定许可,不宜允许著作权人通过机器人协议、反爬虫措施与网页公告“选择退出”合理使用机制,以及为何要尊重著作权人采取的有效接触控制措施。由此,为我国决策者设计数据挖掘与机器学习合理使用条款提供参考。


二、机器利用数据可能侵犯的著作权权能


在我国著作权法的视域下,未经许可数据挖掘或机器学习作品的行为,可能侵犯权利人的复制权、改编权和信息网络传播权。具体而言,首先,数据挖掘与机器学习活动往往需要制作并在服务器上存储作品的副本,以便计算机程序反复读取其中的有用信息。其次,为提高计算机程序提取有用信息的效率,数据挖掘与机器学习者还经常需要对复制件进行改编,如对新闻内容、微博言论等进行改写,标注是否为暴力、仇恨等带有攻击性的言论并加以解释。最后,出于验证挖掘与学习结果、开展关联合作研究以及帮助开展非相关研究等目的,数据挖掘与机器学习者还可能通过信息网络向不特定的多数人传播作品复制件。


有观点主张,在挖掘文本获取有用信息以及训练自动驾驶等非生成式人工智能的情况下,计算机程序在复制件中提取的是事实、思想、数据等非表达性元素,此时相关复制行为不侵犯著作权。理由在于,法律允许创作者、制作者对内容表达加以排他控制,正当性基础是产权保护能促进创作者、制作者通过具有表现力和价值的言论与社会公众交流观点、思想、情感,而为文本挖掘与训练非生成式人工智能目的制作的电子版复制件并没有被公众欣赏,只是被计算机程序用作自动化处理的数据,那么让创作者、制作者控制相关数字化复制行为便不能起到促进其与社会公众对话交流的作用。持有这种观点的部分学者还认为,作品复制件被社会公众欣赏时具有独立的经济利用价值,但被计算机程序用于自动化处理时没有这种价值,因此权利人不应对后者寻求经济回报。我国有学者据此建议,《著作权法》再次修订时,宜明确规定复制权只控制出于欣赏作品的目的而进行的复制行为,即“作品性使用”。


本文认为,上述说理难以成立。首先,作品复制件用作数据时不能促进创作者、制作者与社会公众交流对话这一论点,可以很容易地被反驳。以谷歌数字图书馆为例,谷歌采取技术手段使得输入关键词的用户只能阅读图书数字化复制件的片段,谷歌服务器上存储的整本图书复制件没有被用户欣赏,但展示的片段已经足以将图书作者关于特定关键词的观点、思想、情感传达给用户,促进作者与用户之间的交流。甚至可以说,作者与用户之间交流的效率还被大幅提高了,通过关键词搜索,用户分秒间就可以在一本厚厚的著作中定位到自己感兴趣的部分。其次,数据挖掘与机器学习者通过计算机程序提取电子版复制件中的事实、思想、数据能够获利,具有制作电子版复制件的市场需求与支付意愿。这一产业现实表明,作品电子版复制件尽管没被社会公众欣赏,也具有独立的经济利用价值,创作者、制作者对这些复制件寻求经济回报并非无序扩张利益。


其实,著作权保护的逻辑很简单。从功利主义的视角看,法律赋予著作权人对其作品一定期限的排他权,是为了帮助其获取作品被使用后所产生的部分价值,以便收回投资。以产权保障投资回报能激励社会上更多的人投身于创作活动,为社会提供更多作品,增进社会福利。不过,几乎不可能确定著作权人在作品被使用所产生的价值中获取多大份额才能实现“最优水平”的激励,即恰好足够使其有动力投入创造、开发、传播作品所需的固定成本的金额。因此,如果科技发生重大进步,新技术通过复制、传输作品能产生新的价值,那么法律通常就会保障著作权人能够通过控制以新技术方式利用作品的行为来获取一部分新产生的使用价值。这不仅起到激励供给的作用,还促使市场有效配置资源:运用新技术复制、传输作品的使用者在许可交易中的支付意愿,会向社会上潜在的创作者、制作者表明投资生产那些更适合被这种新技术利用的类型的作品是否有利可图。在价格信号的指引下,创作者、制作者会将恰当的资源分配到生产那些类型的作品上去,避免投资过度或投资不足。


如今,在运用数据挖掘与机器学习技术提取电子版复制件中的事实、思想等非表达性元素时,作品会产生新的使用价值。允许著作权人控制相关数字化复制行为,在这些价值中获取一部分,能鼓励权利人产出更多作品,更能引导社会上潜在的创作者、制作者投入恰当的资源生产那些包含的思想、事实更多,提取起来更方便的作品(如拍摄面部特征高度清晰的人脸照片,用于训练人脸识别类人工智能)。初步看来,这样的产权安排是有利于增进社会福利的。声称著作权保护的目的是促进表达者与受众对话交流,或者通过给著作权建构其他哲学层面的正当性基础,来论证为了让计算机程序提取作品中的非表达元素而进行的复制行为不侵权,不仅违背产权保护的基本逻辑,还会破坏复制概念在技术上的一致性,损害制度的确定性,得不偿失。更合理的选择应是:法律先承认著作权人有权控制相关复制行为,然后进一步作成本收益分析,如果发现需要排除权利人对这种复制行为的控制,那么再通过合理使用、法定许可等制度限制权利行使。


三、合理使用豁免机器利用数据行为的分析步骤


为数据挖掘与机器学习目的复制、改编和通过信息网络传播作品的行为可能侵犯著作权。当然,立法者也可能基于一些理由选择限制权利,将这些行为视为合理使用。至于什么是足够充分的限权理由,包括我国在内的世界主要法域的著作权法并未给出答案。


以我国《著作权法》第24条为例,第1款借鉴了《与贸易有关的知识产权协定》第13条中的“三步检测法”,从其表述中我们只能看出立法者认为如果允许他人不经许可免费以特定方式利用作品不会实质性损害权利人的市场利益,则该特定利用行为可以构成合理使用。又如,美国《版权法》第107条列出四项判断合理使用行为的要素,第四项因素(对作品潜在市场价值的影响)自不待言,前三项因素实际上也只是从不同角度强调了合理使用以不使权利人遭受市场损失为前提。第一项要素规定,出于非营利目的的免费使用更可能是合理的,因为立法者知道此种使用即便形成了作品的复制件或演绎件,也不会上市流通从而与原作品形成竞争。第三项要素规定,免费使用整个作品中少量、非实质性的部分更可能具有合理性,因为占比极小且不重要的部分很难对整个作品产生市场替代效果,使用者愿意为不重要的片段支付的许可费也会极为有限。第二项要素(作品的性质)倒是一个限权理由:相比于小说等文学艺术作品,当免费使用的是时事新闻、史书、辞典等事实作品或程序代码等功能性作品时,使用行为更可能被免责,这是因为此类作品中作者贡献的独创性表达比例更小,复制其中的一些表达可能是充分传递事实思想所必需的。不过,实践中产生法律争议的大多是使用文学艺术作品的行为,因此这一限权理由适用频率很低。


司法实践表明,美国《版权法》列举的四项要素对精确判断合理使用行为的作用有限,有时一个使用行为同时违背了前三项要素,法院仍会认定该行为合理,或对此有强烈的倾向性。一个典型例子是戏仿。戏仿通常具有商业性目的,使用对象是文学艺术作品,批评讽刺原作时需要使用其实质性部分,但美国联邦最高法院仍强烈倾向于认定戏仿是合理使用行为,且属于美国《版权法》第106条列举的合理使用情形。又如,谷歌出于搭建数字图书馆的商业目的,制作了海量整本纸质版文学艺术作品的电子版复制件,并公开传播了作品片段。这些片段很多时候足以让用户了解作者有关特定关键词的观点、思想、情感,使用户在浏览片段后无需再购买整部作品。尽管在“量”的层面看,作品片段的占比很小,但在“质”的意义上,将其认定为构成作品实质、核心的部分并无障碍。然而,美国联邦第二巡回上诉法院仍认定谷歌的复制与公开传播行为构成合理使用。可见,只有重新审视合理使用判断规则,阐明一个作品使用行为基于何种理由而有必要被豁免侵权,才能为合理使用的判断提供稳定可靠的指引。


Wendy Gordon教授曾提供了一套可操作性较强的合理使用测试方法:当出现交易成本高昂导致的市场失灵时,有必要将相关作品利用行为视为合理使用。在其看来,当市场上的作品使用者与权利人为谈判或执行许可所付出的交易成本显著高于交易能为他们带来的净收益时,尽管这笔交易可以增进社会福利,也不会被双方签约达成。这时,有益于社会的作品使用行为无法进行,市场因高昂的交易成本而失灵。如果使用者免费使用作品并不会实质性损害著作权人的市场利益,则可以考虑认定相关的使用行为为合理使用,使增进社会收益的作品利用行为不为交易成本所累。


合理使用的市场失灵测试方法得到学界广泛认同。套用这一测试方法,能较好地解释戏仿、谷歌数字图书馆等使用行为的合理性。戏仿会批评原作在内容或艺术风格等方面的缺陷,贬损原作在消费者心目中的形象,因此无论使用者出价多高,权利人往往都不会发放使用许可。这时,市场因原作者阻碍揭露作品缺陷的信息被传播给公众的强烈动机而失灵。与此同时,戏仿为消费者提供了对立性、批判性的新颖视角,使消费者对原作有了更全面的认知,甚至引发启迪民智的公共辩论,由此产生实质性的社会价值。如果戏仿不会实质性损害原作作者的市场利益,那么这种出于商业目的利用文学艺术作品实质部分的行为就会因构成合理使用而被豁免。类似的,谷歌建立数字图书馆文本挖掘项目需要利用海量作品,与大规模分散的著作权人逐一谈判与执行许可的交易成本极为高昂,导致市场失灵。与此同时,文本挖掘信息检索技术大幅提升了用户按需精准获取信息的能力与效率。如果谷歌复制整本图书与公开传播作品片段的行为不会对著作权人造成实质损失,那么其有益社会的利用行为也应该被豁免。


不过,与成文法法条一致,Gordon强调合理使用以不实质损害著作权人市场利益为前提。但细心的读者可能会发现,戏仿与谷歌数字图书馆案的情形其实并不满足这一条件。Campbell案判决的相关分析就体现了这点。美国联邦最高法院承认,戏仿作品往往会与原作属于不同的细分作品类型(如抒情歌曲与说唱歌曲,电影与短视频),因此原作作者许可他人在戏仿作品所属的那一细分领域进行寻常的、不讽刺原作缺陷的演绎的市场利益可能会受到实质损害。因此,法院只能将案件发回重审,要求下级法院审查是否有证据证明存在这一市场损害。在庭外和解中,戏仿者还是向原作作者支付了一笔演绎许可费。类似的,在谷歌数字图书馆案中,美国联邦第二巡回上诉法院承认数字图书馆很可能损害著作权人的市场利益,消费者阅读作品片段了解所需的事实信息后可能就不会再购买整本图书了。为了合理化谷歌的使用行为,法院不得不强行限缩解释著作权人市场利益的范围,称著作权人的潜在市场“只限于消费者对被版权保护的表达形式的兴趣”。但一些散落在判决中的论述语句表明,法院自己都在犹豫这种限缩是否合适。


那么,若戏仿、数字图书馆等文本挖掘项目以及其他以各种新方式出于商业目的利用作品实质部分的行为能增进社会收益,且遭受高昂交易成本的市场失灵,此时究竟应否因可能减损著作权人的市场收益而不被合理使用豁免侵权呢?本文认为,从累积性创新的角度出发进行分层思考,对这一问题的回答才能最大程度地平衡著作权人的创新激励、使用者的行动自由与社会文化及科技进步的公共利益,实现整体福利最大化的目标。


具体而言,当使用者的使用行为通过颠覆性改进现有知识或技术显著增进了社会福利,且权利人的作品在使用者使用行为所产生的社会福利中贡献占比很小时,这种出于商业目的的使用可能更适宜被豁免于侵权,允许使用者免费开发利用作品,充分实现潜在的社会价值。避免出现“权利人的市场利益得以保全,但以剥夺社会收获更明显的价值为代价”的结果。相反,如果使用者只是单纯复制或公开传播作品的实质部分,对现有知识或科技并无改进,或即便在作品上添加表达元素、含义与信息,产生了改进现有知识的新作品,但改进程度有限,且权利人的作品在使用行为所带来的社会价值中贡献占比很高,那么即便使用行为的社会收益大于权利人遭受的市场损失,即社会净收益为正,使用行为也不宜被合理化。这样的制度安排能最大程度地避免破坏潜在创作者、制作者的激励预期与信心,保证作品供给充足。戏仿行为利用原作、与原作互动才能形成的新思想见解,颠覆消费者对原作的既有认知,谷歌数字图书馆形成了能大幅提升社会生产效率的信息挖掘技术,二者都属于颠覆性改进的情形,因此认定为合理使用可能更合适。事实上,Campbell案判决中引入的“转换性使用”指标很大程度上就是在做这种社会收益的评估。但遗憾的是,法院在该案戏仿行为揭露原作缺陷、颠覆消费者对原作认知的情况下,还是没有明确地排除权利人的排他控制。


在此基础上,如果他人颠覆性改进的使用行为对权利人作品的市场销量或演绎许可收入同时具有消极和积极影响,或者社会能通过自我调节消化部分消极影响,那么使用行为被认定为合理自然会更有说服力。当然,可能会有读者提出,何不采用法定许可,让使用者向指定机构支付法定数额的许可费,既免去交易成本困扰,又给著作权人一笔补偿呢?或者可以允许著作权人“选择退出”合理使用机制,在利用合理使用制度降低交易成本的同时,尊重个别著作权人在市场上获利的意愿?对于前一问题,本文认为,法定许可会产生一系列制度成本,甚至可能超过著作权保护的社会收益,因此往往不是划算的选择。对于后一问题,本文认为,应保证大部分著作权人仍会留在合理使用框架内,否则合理使用条款会变成一纸空文。


概言之,本文主张,在市场因高昂交易成本而失灵时,如果出于商业目的的作品使用行为颠覆性地改进了现有的思想见解或技术功能,显著增进社会福利,并且著作权人的作品在这些社会福利中的贡献占比很小,那么即使使用行为实质损害权利人的市场利益,权利人的排他权也宜被限制。如果该使用行为能给著作权人带来其他市场收益,或部分市场损害能被社会自我调节,那么限制著作权会更加适当。法定许可的制度成本大概率会很高昂,因此合理使用往往是首选。至于“选择退出”合理使用的机制,需以大部分著作权人都会选择留在合理使用框架内为前提。运用本文搭建的合理使用分析框架,也能更精准地判断数据挖掘与机器学习之外的其他新兴作品使用方式是否构成合理使用,但这超出了本文的关注范围。本文接下来将利用这一合理使用分析框架,详细分析我国著作权法为何应新增针对作品文本数据挖掘与机器学习行为的合理使用情形,以及如何具体设计这一法律条款。


如前所述,将作品用作数据来挖掘有用信息时,不断发展的信息检索技术大幅提升用户按需精准获取信息的能力与效率,使用行为产生实质性的社会价值。类似的,利用作品训练自动驾驶、医疗诊断、自然语言生成等人工智能算法时,发展的机械自动化技术大幅提升用户的出行、办公效率等,使用行为产生明显的社会收益。如今,自动泊车、机器人辅助手术、自动创建演示文稿等都已是家常便饭。与此同时,这些社会收益明显的新技术中,著作权人的贡献占比很小。因此,为数据挖掘与机器学习而使用作品的行为是颠覆性改进的使用这一点,应该没什么争议。那么剩下的任务是依次考察以下方面:在目前市面上存在一些数据集合的情况下,作品数据许可市场是否处于失灵状态;数据挖掘与机器学习者免费利用作品的行为对著作权人市场利益的影响;法定许可与“选择退出”的替代机制为何不可行。


四、作品数据许可市场失灵


数据挖掘与机器学习经常需要海量作品作为数据。数据挖掘与机器学习者如分别与这些著作权人进行交易,成本会极为高昂,其很可能因交易成本高于预期利润而放弃发展新技术。不过,目前微博配图、抖音视频、美食评论等互联网用户发布的内容都集中在互联网平台上,很多纸质图书、胶片电影等的数字化副本也会被为数不多的数据库服务商收集起来,数据挖掘与机器学习者可以通过与平台、数据库的服务商交易一站式获取海量数据。如此看来,似乎作品数据许可市场可以有效运行,不存在系统性的交易成本高昂困难。


然而,仔细观之,会发现事情并非这么简单。首先,的确,一些互联网平台通过用户服务协议从用户处获得了使用这些内容的免费、非独家、可分许可(sublicense)的权利。数据挖掘与机器学习者直接与平台谈判授权并从平台的应用程序接口(API)批量下载数据后,如果有个别用户主张侵权,数据挖掘与机器学习者似乎可以被免责。不过需要注意的是,用户点击平台的服务格式协议,同意平台免费使用和分许可自己发布的作品,是因为用户的普遍预期是平台无非会出于维持运营与提升服务质量的目的而自行或许可第三方使用相关内容,毕竟平台的商业模式需要用户发布的内容被更多人转发、评论。因此当平台超出上述目的使用与分许可用户发布的内容时,其行为尽管在字面上构成合同内容的一部分,却很可能因为超出用户的期待而被法院认为与合同法、知识产权法、反垄断法等法律上的强制规则冲突,不产生法律上的约束力。例如美国法院近年的判例就表明,如果平台行使发放分许可的权利,授权第三方对用户发布的作品进行嵌入式链接(embedding),很可能须对用户承担帮助、引诱等间接侵权责任。当然,最近国内外互联网社交平台正纷纷更新服务格式条款,明确规定自己能免费使用用户发布的内容进行数据挖掘与机器学习,甚至对第三方数据挖掘与机器学习者发放分许可,但此类修改正受到广泛质疑。


其次,存在一些公开网页,如维基百科、Github等,上面的内容是著作权人根据CC BY-SA、GFDL、MIT、GPL、Apache等开源许可协议提供的,能遵守这些协议(通常包括须注明版权归属信息)的使用者可以免费使用这些内容。但客观而言,数据挖掘与机器学习者几乎不可能在其产品的输出物上附加动辄千百页的版权归属信息。因此,数据挖掘与机器学习者不经与诸多权利人分别协商便利用作品的行为,会导致侵权。


最后,很多数据库服务商是在未经著作权人同意的情况下,收集大量作品并一揽子许可给数据挖掘与机器学习者使用。因此,数据挖掘与机器学习者即便向数据库服务商支付了许可费,如不额外与海量的著作权人逐一谈判许可,使用相关作品仍会导致侵权。例如,Getty Images公司宣称自己有将图库内摄影作品作为数据许可的业务,但该公司并未就此征询过这些作品的作者同意。又如ChatGPT等自然语言生成模型会运用一个名为BookCorpus的免费开源数据集,其创始人声称集内所有电子书都是“尚未发表的免费书籍”(free books written by [as] yet unpublished authors)。但实际上,该数据集囊括了很多已发表的书籍,且BookCorpus创始人收集这些书籍作为数据之前并未获得相关作者授权。从一些书籍扉页上的著作权声明可以看出,相关作者并不愿意自己的作品基于个人欣赏之外的目的被免费使用,尤其是商业目的的使用。那么,未经作者许可为挖掘学习目的使用这些书籍就可能侵权。其他免费开源数据集如Open Subtitles、the Enron Emails Dataset,以及Stable Diffusion类图像生成模型依托训练的图文配对数据集LAION-5B等,也存在同样的问题。


总而言之,数据挖掘与机器学习者从互联网平台公开网页与数据库处获得作品时,都可能需要额外与大规模、分散化的著作权人逐一谈判许可,信息搜索、许可谈判及合约执行成本极为高昂。


当然,有些付费数据库是由诸多著作权人共同委托代理数据许可事宜的,数据挖掘与机器学习者从此处获取数据集合后无须向每个权利人分别寻求许可。但其仍可能经常受到侵权之诉困扰,负担高昂的机会主义诉讼成本。原因在于委托付费数据库代理数据许可的未必是某一作品的全部相关权利人,例如委托人只是某演绎作品的作者,不包括原作品的作者;又如委托人是某音乐作品的词曲作者,不包括录音制作者和表演者。在这些情况下,未授权服务商代理数据许可事宜的著作权人可能会起诉数据挖掘与机器学习者的行为侵权。他们有起诉动力的原因是:第一,行使权利的成本不算高,他们可以通过user agent识别爬虫所有者的身份、利用自动化工具查阅科研成果发表时公开的研究数据集、对生成式人工智能进行诱导式提问等方式,锁定未经许可使用数据的数据挖掘与机器学习者。提起侵权之诉后,律师费用最终也会由侵权人承担。第二,很多时候数据挖掘与机器学习者面临的诉讼成本或禁令威胁远高于版权许可费,因此会愿意支付高出版权许可费数倍的金额来达成和解。即使数据挖掘与机器学习者选择进入诉讼程序,鉴于权利人的实际损失或许可费难以计算,我国著作权司法实践往往适用法定赔偿,而《著作权法》第54条规定的法定赔偿额范围为“五百元以上五百万元以下”,不排除有权利人认为起诉要求损害赔偿可超过许可费收益。


此外,市面上存在一些能够代表作品的所有相关权利人对外作出数据许可的运营商,例如拥有音乐作品词曲版权并经表演者同意的录音制作者环球音乐唱片公司;也存在一些自己拥有职务作品著作权的运营商,如《纽约时报》。它们均表示正在探索数据许可事宜。但本文认为,这对缓解作品数据许可市场的交易成本问题作用有限。一方面,当开发的是生成式人工智能时,即使运营商愿意许可,但可能有实质数量的歌曲表演者、新闻作者等,因担心人工智能让自己失业而竭尽全力阻止许可交易发生,无论机器学习者愿意支付多高的许可费。这很可能使得运营商一揽子许可中的数据条目数量有限,机器学习者不得不因缺乏足量的数据而放弃研发,造成反公地悲剧式的社会福利损失。环球音乐唱片公司旗下已被人工智能模仿的歌手Drake就极为反感自己的职业生涯受到机器威胁,环球音乐唱片公司也公开强调如果自己向机器学习者发放一揽子许可,会让相关表演者自己决定是否选择加入。美国好莱坞员工甚至集体罢工反对自己的作品等被用作数据。


另一方面,数据挖掘与机器学习者在数据获取环节不太可能改变自己优先利用爬虫或大型开源数据集的习惯,转而优先找几家运营商谈判。毕竟,运营商掌握的作品只占互联网上全部作品的部分份额,而数据挖掘与机器学习者通过自己或开源数据集的爬虫抓取能将互联网中所有可用数据收入囊中。此时,鉴于互联网上盗版泛滥,运营商所掌握的正版内容即便在官网链接中被付费墙等接触控制措施保护,也往往可在其他链接中找到盗版副本。例如,《纽约时报》付费墙背后的文章,在互联网上就不乏可免费阅读的复制件,这些免费链接的域名并不显示文章来自《纽约时报》。让数据挖掘与机器学习者在利用爬虫搜集数据后,再一一辨别每条数据可以从哪个运营商处获得许可,会导致极其高昂的辨别成本。当然,可能有质疑者会指出,如果数据挖掘与机器学习者利用的是Common Crawl这样的开源数据集,且开源数据集通常提供的是运营商官网的链接,那么可以根据域名轻松识别出这些作品的来源,并向运营商寻求使用许可。不过,如果数据挖掘与机器学习者在不规避、不破坏接触控制措施的情况下使用了官网付费墙保护的作品,说明数据挖掘与机器学习者其实已经支付过付费墙要求的价格,尽管该价格是为人类阅读欣赏而定。


综上,作品类数据许可市场很可能在总体上处于失灵状态,将为数据挖掘与机器学习目的而复制、演绎或公开传播作品的行为认定为侵害著作权,会使数据挖掘与机器学习者负担高昂的交易成本,导致其无法有效利用数据开发数字创新产品。因此,需要在著作权法中引入针对数据挖掘与机器学习行为的合理使用条款,以清除产权保护形成的障碍。


五、数据挖掘与机器学习类合理使用对著作权人市场利益的影响


不同类型的数据挖掘与机器学习项目对著作权人市场利益的影响有差别。大多数文本数据挖掘项目免费使用作品后,不会向普通消费者提供复制件全文或片段,也就不会损害著作权人在作品欣赏市场上的利益。类似的,自动驾驶等非生成式人工智能的训练者不会将训练数据的复制件提供给普通消费者,也不会输出新的内容表达,因此相关训练者免费使用作品的行为不会损害权利人在作品欣赏市场上的利益。


如前提及,谷歌数字图书馆、新闻搜索引擎这种文本数据挖掘项目,即便采取技术措施保证普通消费者无法通过分次输入不同关键词获得作品复制件的全文,但提供的复制件片段在“质”的意义上会构成原件的市场替代品,导致原件销量减少,从而实质性损害著作权人的收益。然而,此类信息挖掘项目同时具有网络效应。信息搜索引擎不断收集作品并对外提供复制件片段,吸引越来越多的用户使用引擎进行数据挖掘,加入信息挖掘项目的作品因此有机会被更多消费者看到。一些偶然搜索到某一作品的用户可能在接触片段后,反而产生购买全文的兴趣,导致作品原件销量增加。对著作权人市场利益的消极与积极影响相互抵消后,著作权人市场利益被损害的程度会有所降低。


生成式人工智能在某些情况下(如用户发出诱导式提问时)会输出某条作品数据的实质部分,构成该条数据的市场替代品,实质性损害数据著作权人的市场收益。但可以预见的是,随着生成式人工智能的开发者采用过滤技术等方式不断提升防御诱导式提问的能力,机器输出某条数据实质部分的情况越来越少。与此同时,生成式人工智能的开发者还可以参考New Bing的做法,在输出某条训练数据局部片段时附随提供数据原出处的网站链接,使服务用户能通过点击链接直接访问数据全文。这样,生成式人工智能还能同谷歌数字图书馆等文本数据挖掘项目一样,起到通过网络效应吸引流量的作用,增加训练数据在作品欣赏市场上的销量,增进相关著作权人的市场收益。


不过,生成式人工智能还会以其他方式实质性损害著作权人的市场利益。首先,有时,生成式人工智能仅将一位作者的作品作为训练数据,初始阶段输出物不包含任一训练数据的实质部分,但模仿了该作者的表达风格。例如,不包含某一作者美术作品中的具体构图布局、卡通形象等,但在透视方法、线条纹理、色调光影等的运用上一脉相承。又如,不包含某一作者音乐作品中的具体旋律、节奏等,但在调式、和声、配器等的选择偏好上如出一辙。此时,机器初始阶段输出物对被模仿作者的作品具有一定市场替代效果。毕竟,有些消费者购买特定作者的作品,只是因为被其表达风格、特色吸引,并不关心内容表达究竟出自谁手。这时,被机器模仿的特定作者的作品销量不可避免地会下滑。即便这些被模仿表达风格的作者往往知名度很大,主要通过向签约客户、对作者本人颇有好感的忠实粉丝和潜在慕名者销售作品获利,并且如今各国法规大多要求有机器参与创作的内容表达须附加来源标识,消费者不会因误认而购买,我们也不敢断言机器初始阶段输出物抢走的市场份额不是实质性的。


其次,更多时候,生成式人工智能广泛学习不同作者的作品,尽管初始阶段的机器输出物不与训练数据集中的任何一部作品实质相似,但可与部分或全部训练数据归为同一风格流派。例如,用作咖啡馆背景音乐的后波普爵士乐,可作为商品广告的摄影风格人物特写,甚至一部扣人心弦的奇幻小说。随着人工智能技术不断进步,根据用户输入的简单指令,机器在分秒之间输出内容,且品质超过用作数据之作品平均质量水平的情况,会越来越常见。此时,机器初始阶段输出物与训练数据会共同抢夺这一风格流派内容表达的消费者的注意力,训练数据著作权人的市场收益会显著减少。这可能意味着,部分作者无法继续靠创作活动维生,工作被机器取代,甚至引发失业浪潮。


本文承认,允许机器学习者免费利用作品开发生成式人工智能会对训练数据的著作权人造成上述实质性市场损失。但在数据许可市场因许可方主体数量众多或单一许可方拒绝许可动机强烈而普遍失灵的情况下,这些市场损害是社会生产效率大幅提升的必然代价。并且,被机器模仿个人表达风格的作者在市场利益被机器减损的同时,也受益于生成式人工智能的进步。当他们运用新技术辅助自己进行创作等活动时,生产成本大幅下降,效率和产量明显提升,很可能比仅凭人力创作时获得更多的市场收益。智能机器因此间接对他们的市场利益产生积极影响,冲抵市场负面影响。具体而言,从确定主题到完成表达细节,甚至形成全新表达风格,智能机器的辅助可以贯穿创作、制作的所有步骤。以绘制美术作品为例,作者可以更少地使用画笔和数位手绘板,通过不断调试指令指使人工智能算法物态化自己构思的审美意象。这样不仅速度更快,而且能智能补充一些细节。更重要的是,人工智能可以参与到艺术构思活动中来,激发创作灵感,帮助作者形成风格独特的审美意象。画家创作审美意象从来不是无中生有的,需要他人的智力成果启迪灵感。不乏成功的艺术家坦言“艺术即是剽窃”(毕加索)、“不成熟的诗人照葫芦画瓢,成熟的诗人偷天换日”(T. S. 艾略特)。通过学习诸多先贤的佳作,如反向工程般拆解美术作品线条、图形、纹理的使用、透视方法、色彩调配、色度比对、比例、构图、抽象或写实程度等诸多方面,了解个中原理,画家可巧妙地重新排列组合、加工提炼前人的表达风格特征,从模仿蜕化成原创审美意象。生成式人工智能无疑能大大加速作者“从模仿到创新”的过程,帮助作者高效地进行调试碰撞、排列组合。


当然,在生成式人工智能大幅提升创意产业整体的创作效率的同时,部分创作者可能会被机器淘汰,失去目前的工作。但这波失业浪潮可以随着新产业和新岗位的出现而被社会自我调节。事实上,自第一次工业革命以来,技术变革带来工作形态变迁的事例比比皆是。从蒸汽动力到内燃机、电力,新技术的应用和机械化的普及大幅节约劳动力成本,导致大量的手工劳动者被生产效率更高的机器淘汰。但与此同时,新的产业与工作岗位不断涌现:汽车、飞机、家用电器等各类现代制造业需要流水线工人、维修技工、工程师、机械师、经理等辅助机器生产的每个环节。那么类似的,在生成式人工智能技术发展的今天,智能机器应该只是让很多创作者的工作岗位和性质发生变化,而不是直接导致其丧失劳动机会和生活来源。被机器取代的创作者可能转型成为数据标注者、人工智能训练师、软件和平台开发者,以及不断涌现的其他新岗位的从业者,参与创作自动化进程。


可能还会有质疑者担忧通过合理使用制度允许生成式人工智能自由学习尽可能多的作品后,智能机器不断优化少部分能力杰出的创作者的使用体验,这些人会越来越依赖机器,手工创作的基本功逐渐退化。尽管这不直接关乎个体著作权人的市场利益,但影响人类创意行业能否可持续发展。本文认为这一假想不大可能成为现实。因为当市面上充斥机器初始阶段输出物和机器辅助完成的作品时,手工完成的作品反而可能因为相对稀缺而被消费者赋予更高的价值,创作者也就仍有动力仅靠人力以更慢的速度、更高的成本创作作品。这就好比当工业流水线生产出来的物美价廉的糕点、啤酒充斥大街小巷的便利店时,一些精品店仍会手工制作同类食品,甚至被尊称为甜品、精酿,售以高价,即便其口感未必优于流水线面包、啤酒中品质最好的那批。服饰、包具等产品领域也存在类似现象。


六、法定许可与“选择退出”不可行


作品数据许可市场总体处于失灵状态时,需要权利限制机制实现对作品使用的让渡。除了采用彻底的合理使用机制外,决策者还可以引入法定许可机制,或者实施折衷的合理使用机制,即允许著作权人通过机器可读的机器人协议、反爬虫措施或人类可读的网页公告排除合理使用条款的适用。对此,本文持反对态度。当然,著作权人采取有效接触控制措施保护作品的行为还是应予以尊重,此时为平衡权利人与社会公众的利益,法律可以单独设立以非营利性学术研究和教学目的规避接触控制措施的例外。


(一)不宜引入法定许可制度


理论上,决策者的确可以选择实施法定许可制度,让数据挖掘与机器学习者在向指定机构(如著作权集体管理组织)缴纳一笔著作权主管部门确定的许可费后,不经权利人许可而使用作品。这样,数据挖掘与机器学习者无须与著作权人就许可费数额讨价还价,也不用担心实质数量的著作权人拒绝许可导致可利用的数据不够充足,交易成本大幅降低。与此同时,著作权人可以获得一笔数据许可收益。美国国会图书馆近期在征求产业界意见,考虑是否引入数据挖掘与机器学习法定许可。我国学界也有建议采纳法定许可机制促进作品作为数据利用的声音,尤其是在面对生成式人工智能的情况下。本文反对引入此类法定许可机制。下文虽仅在生成式人工智能的场景下展开讨论,但论证适用于所有类型的挖掘学习项目。


首先,集体管理组织的运行成本很高。为节省新成立一个法定许可费管理机构的成本,著作权主管部门可以直接指定现有的几家著作权集体管理组织收取、分发数据许可费。但存在以下问题。第一,集体管理组织与每个生成式人工智能开发项目的负责人建立联系,确认项目利用的作品类型、数量等,需要花费成本。第二,集体管理组织精确辨别这些作品分别属于哪些著作权人,这些著作权人是不是自己的会员,并将官定许可费逐一分发,需要花费更加高昂的成本——毕竟生成式人工智能动辄需要几万条甚至数百万条训练数据。第三,集体管理组织替权利人起诉维权,需要支付诉讼费、律师费、公证费、车马费、餐费、文印费、电话费等不可缺少的费用。凡此种种,不一而足。集体管理组织需要先用收取的法定许可费弥补上述运行成本,剩下的部分才能分给相关著作权人,转化成著作权人的创新激励。在这之外,政府监管集体管理组织的运行也要耗费实质成本。与此同时,机器学习者将法定许可费通过更高的产品售价转嫁给生成式人工智能的消费者,造成消费者的福利损失。总体来看,社会整体福利很可能是净损失的。


其次,确定及定期调整法定许可费很复杂。法定许可费率不能是“拍脑袋”决策的结果,需要根据可信赖的基准确定。既然采用法定许可的目的是节省交易成本,法定许可费率就应该尽量反映一个不受限制的市场上善意谈判的被许可方愿意对善意许可方支付的价格。为此,著作权主管部门可以仿效美国《版权法案》针对自动点唱机对非戏剧型音乐作品进行公开表演的法定许可和非商业性、教育型公共广播机构公开表演特定作品的法定许可,优先鼓励产业内部分著作权人代表与机器学习者代表在一定期限内通过谈判来达成许可费率,双方代表达成的和解协议中的费率经著作权主管部门批准后,适用于所有开发生成式人工智能的机器学习者和相关著作权人,无论他们是否参与了和解谈判。不过,双方代表很可能为尽力争取有利费率价格而无法达成和解,需要著作权主管部门自行计算费率。在这一过程中,著作权主管部门需要花费大量时间精力来收集市场信息。尤其是在生成式人工智能产业还在起步阶段的情况下,很难找到有效的可比协议,著作权主管部门甚至可能需要基于机器学习者的盈利、成本等财会数据,以及许可双方的谈判地位等,建立经济模型来进行复杂的价格计算。更何况,考虑到市场上的成本与需求处于动态变化之中,确定的法定许可费率价格不应该是一成不变的,否则无法反映产业的供需现实。这就要求著作权主管部门每隔一段时间就得重新计算一次费率。事实上,很可能著作权主管部门还没来得及算清楚现阶段的费率,技术条件和市场环境就已经进入新阶段了。


最后,法定许可大概率会过度剥夺机器学习者投资开发生成式人工智能的激励。即便著作权主管部门定期调整法定许可费率,但各次调整的时间间隔通常不会太短。本文假设,两次调整相隔五年。在这五年中,生成式人工智能技术发展速度飞快,产品的生产成本不断下降,产品价格也相应处于接连下降的状态。这意味着第一年年初确定的费率在第四五年时对机器学习者而言很可能是偏高的。机器学习者在第四五年就只能支付偏高价格的法定许可费,剩下更少的资金投入于升级人工智能产品的活动中。生成式人工智能提升社会各行各业的生产、生活效率,能带来的社会价值远高于被利用的作品,延缓人工智能产品升级的社会成本实质性大于社会上产生更多作品的收益。因此,第四五年收取的法定许可费很可能贬损社会整体福利。


(二)不宜允许“选择退出”合理使用机制


欧盟2019年颁布的《数字单一市场版权指令》第3条和第4条规定了数据挖掘与机器学习合理使用条款。第3条适用于非营利性科研机构,第4条适用于商业性主体。但在挖掘学习者具有商业目的的情况下,即使互联网中的作品处于社会公众可获得的状态,也允许著作权人以适当方式明确地排除挖掘学习合理使用条款适用于自己的作品、录音录像制品。第4条指出,权利人“选择退出”合理使用机制的适当方式包括机器可读的技术手段。通常来讲,能通知网络爬虫不访问网页中的作品但不限制人类正常浏览的技术手段有机器人协议和反爬虫措施。同时,著作权人在自建的独立网站、博客等处张贴的网页公告也可以被理解为第4条所称的适当方式。


本文认为,我国著作权法应不允许著作权人以机器人协议、网页公告和反爬虫措施“选择退出”挖掘学习合理使用条款。首先,权利人实施“选择退出”手段的成本极低,但可产生显著的社会负外部性损害。本文猜测,欧盟设计“选择退出”机制时的预期是只有个别著作权人会退出合理使用条款。但现实更可能是实质数量的著作权人都会决定排除合理使用条款适用于自己的作品,以试图获得数据许可收益或纯粹因不愿意许可。毕竟,机器人协议只是在服务器根目录下存储的robots.txt文件中写几行代码,网页公告只是创建内容页面,著作权人以这两种方式执行退出合理使用机制的成本基本为零。类似的,大多数反爬虫措施,如验证码验证、设置IP访问频率、动态页面加载等,成本均较低。著作权人可以很方便地以上述方式“选择退出”。实质数量的著作权人退出合理使用机制导致数据挖掘与机器学习者重新面对高昂的交易成本,很难获得充足数量的数据来研发优质的数字创新产品。这将广泛损害第三方社会公众的福利,造成的社会负外部性损害远大于权利人所获收益。


其次,著作权法采取上述制度安排不太可能导致著作权人的服务器访问负担超载。本文理解会有质疑者担心,如果著作权法不禁止数据挖掘与机器学习者忽视机器人协议与网页公告、规避反爬虫措施的行为,那么爬虫频繁爬取会给著作权人的服务器和带宽造成负担。但这是其他部门法可以有效解决的问题。例如,如果爬虫短期内的高频反复访问导致著作权人的网络带宽和服务器负荷超载,影响被访问网站的正常运行,可适用《反不正当竞争法》第12条第2款第4项的兜底规定,来追究数据挖掘与机器学习者妨碍、破坏被访问网站经营者合法提供的网络产品或者服务正常运行的法律责任。对于构成犯罪的,可适用《刑法》第285条第2款的“非法获取计算机信息系统数据、非法控制计算机信息系统罪”和第217条的“侵犯著作权罪”,追究其刑事责任。与本文观点不谋而合,新加坡虽曾在2019年准备规定数据挖掘与机器学习者不得规避维护服务器稳定的反爬虫措施、机器人协议等来获取作品,但在2021年正式颁布的合理使用条款中删除了这一规定。


不过,需要注意的是,著作权人有时会把作品藏在付费墙、需要口令验证的软件锁等接触控制措施背后,社会公众未经许可无法获取和使用措施保护的作品。对此,著作权法不应为挖掘学习者规避这些有效接触控制措施的行为提供一般性的合理使用豁免,但可以单独设立以非营利性学术研究和教学目的规避措施的例外。理由如下:第一,权利人采用有效的付费墙、软件锁等通常需要花费实质性成本,且措施保护程度越高,成本一般也会越高,例如《纽约时报》甚至曾为付费墙技术花费四千万美元。这意味着能负担起实施有效接触控制措施的成本的著作权人为数不至众多,社会上一部分权利人通过接触控制措施来保护自己的作品不被他人免费利用不会导致交易成本严重回弹,权利人实施接触控制措施也就不会明显对社会公众造成负外部性损害。第二,权利人为保护对自己而言很重要的利益花费了实质性的资源,显示了自己的诚意。在其实施技术措施的行为没有产生显著负外部性的情况下,法律应尊重这种诚意。第三,接触控制措施对未经许可的爬虫访问设置了较为有效的物理障碍,亦即他人需要较高的技术能力和资金成本才能规避有效的接触控制措施,能规避措施的使用者是少数。这意味着当规避接触控制措施的行为被法律禁止时,权利人对每个规避者都能有效执法。第四,著作权法如果为数据挖掘与机器学习者规避权利人的接触控制措施提供一般性的合理使用豁免,可能会刺激双方进行技术措施与规避措施的“军备竞赛”,造成社会资源的浪费,与此同时却没有明显的社会收益。当然,出于公共利益的考量,可以允许非营利性图书馆、档案馆、博物馆、高等教育机构的研究人员出于非市场化的学术研究和教学目的规避保护某些类型作品的接触控制措施。


结 语


我国现行《著作权法》第24条构建的合理使用制度没有一般条款,已有的合理使用法定情形即使被扩张解释,也难以覆盖数据挖掘与机器学习活动。即使未来修法时引入一般条款,也无法有效应对数据挖掘与机器学习实践中的诸多细节问题。若不专设数据挖掘与机器学习合理使用条款,会使数字产业发展的制度环境有失稳定。因此,鉴于《著作权法》第24条第13项允许法律、行政法规增设合理使用情形,应在《著作权法实施条例》和《信息网络传播权保护条例》修订时引入数据挖掘与机器学习合理使用规则,以支持我国数字创新产业快速成长。