中文

法官应是正义和真理的终极捍卫者

点击展开全部

法律宝库

更多 >>

人工智能训练数据的法律风险与制度供给

发布时间:2025-07-10 来源:人民司法杂志社 作者:亓蕾 最高人民法院
字号: +-
563

内容提要

大模型驱动的人工智能高质量发展需要高质量的训练数据供给。由于海量训练数据来源多重,人工智能开发者训练数据与现行法律框架下个人信息权益、作品著作权、企业数据权益等保护之间产生冲突,引发法律风险。技术发展离不开制度保障,技术创新与制度创新呈双螺旋结构在动态适配中互为支撑。从立法论视角看,人工智能训练数据可以采取“宽进严出”的制度设计思路,在人工智能训练数据“输入端”构建数据合理使用制度,在人工智能应用“输出端”采取较为严格的制度设计,兼顾人工智能技术发展和权利人利益保护。

目次

一、技术机理:大模型的训练与训练的数据
二、法律风险:人工智能训练数据的法律困境
三、制度供给:人工智能训练数据的规则之治

近年来,全球人工智能技术成为推动科技和产业加速发展的重要力量,对经济社会发展和人类文明进步产生深远影响。2022年底,以ChatGPT为代表的大模型技术促进人工智能的飞跃,拉开迈向通用人工智能(AGI)的序幕。2024年以来,全球大模型井喷式迸发,通用人工智能研发进入快车道,大模型驱动的生成式人工智能(GenAI)从实验室走向市场,以前所未有的态势被广泛应用于各类生产生活场景。数据、算法、算力是驱动人工智能发展的三大核心引擎,数据是人工智能的燃料,算法是人工智能的大脑、算力是人工智能的动力。DeepSeek的出现改变了固有“高端算力优先”的人工智能创新技术路线,“算法模型性能优先”成为新的产业技术发展路线。这种转变意味着要更加重视人工智能训练数据的高质量供给,因为“算法模型性能优先”技术路线更依赖高质量的训练数据对模型进行优化,而且已公开、可抓取的训练数据资源即将用尽,亟需能够反映行业特征的高质量训练数据资源。“无数据,不智能”,数据量级和数据质量,特别是数据质量,将成为影响人工智能应用发展的关键因素。伴随生成式人工智能的日益强大,潜在的法律风险已受到各国关注,尤其是在训练数据环节,大模型训练需要海量数据与现行法律框架下个人信息权益、作品著作权、企业数据权益等保护之间的冲突如何协调的问题。2023年7月,我国发布《生成式人工智能服务管理暂行办法》,规定生成式人工智能服务提供者依法开展预训练、优化训练等训练数据处理活动,应当使用具有合法来源的数据,不得侵害他人依法享有的知识产权。如何界定数据来源的合法性,数据流转链条中的部分环节不合法是否影响后续的合法性等问题仍存在模糊地带;此外,“不得侵害他人依法享有的知识产权”的解释空间较大。 

技术发展离不开制度保障,社会生产力的跃升需要制度框架和技术体系的协同演进,技术创新与制度创新呈双螺旋结构在动态适配中互为支撑,一方面技术的突破催生制度创新需求,另一方面制度创新释放技术发展势能,两者最终形成复合推进社会进步的动力体系。本文以生成式人工智能训练数据为切入点,从技术原理出发,分析目前法律框架下人工智能数据训练面临的法律风险,并从立法论的角度探讨人工智能训练数据的法律制度构建。

一 技术机理:大模型的训练与训练的数据

何谓生成式人工智能?根据《生成式人工智能服务管理暂行办法》第二十二条规定,生成式人工智能是指具有文本、图片、音频、视频等内容生成能力的模型及相关技术。不同于传统人工智能仅对输入数据进行处理和分析,生成式人工智能可以学习并模拟事物的内在规律,根据用户的输入资料生成具有逻辑性和连贯性的新内容,其依托大型自然语言处理模型,能够实现非结构化多模态信息的深度解析与结构化输出。整体来看,生成式人工智能可划分为“输入端”和“输出端”,数据训练主要在“输入端”。

(一)大模型的训练

人工智能大模型经训练形成,训练过程包括数据准备、模型架构、预训练、微调等主要环节。数据准备环节,主要是数据收集、数据清洗和数据预处理。由于原始收集的海量无标注数据通常存在异常、杂乱、不完整、冗余、格式不一致等问题,需先进行删除、填充、转换等处理,经过预处理的数据集才能满足大模型的训练需求。模型架构环节,主要是设计人工智能的“大脑结构”,选择神经网络类型,比如Transformer架构(文本)、ViT(图像)或混合架构(多模态),同时还要确定模型规模。预训练环节,主要是模型在没有人工标注标签的情况下,通过无监督学习,直接从海量未标注数据中捕获广泛而有用的通用特征和先验知识,比如语言的语法规则、视觉的底层特征,预训练的目的是提升模型在目标任务上的表现和泛化能力。以ChatGPT为例,是一种基于概率生成的语言模型,该模型采用了Transformer架构和预训练技术,通过学习大量的自然语言文本数据,利用统计学方法和概率分布根据先前的输入预测下一个可能出现的单词或句子,生成流畅连贯、语法正确、逻辑通顺的文本。预训练后的模型仍是未经打磨的基础模型,尽管已在大规模数据集上学习丰富的通用特征和先验知识,但这些特征和知识可能并不完全适用于特定目标任务,因此还需要后训练。微调即是在预训练模型的基础上针对特定任务或数据领域,在相对小规模标注数据集上进一步训练,调整模型的部分或全部参数,有效提升模型在垂直领域的专业能力。大模型完成上述训练后进入部署运行的应用中。生成式人工智能与之前的搜索链接网络技术服务不同,其核心能力是生成内容而非检索信息。经过训练的大模型具备文本、图像、语言的理解能力,可将碎片化、非标准化的多模态输入转化为可计算、可检索、可分析的结构化输出。

从人工智能产业视角分析,生成式人工智能业态可分为3个层次,分别为“基础模型—专业模型—服务应用”。基础模型层可以被理解为操作系统,世界范围内可能存在少量具有竞争关系的通用性基础模型,以及若干在特定行业高价值专业化的基础模型,需要超千亿参数的大模型研发,训练开发成本惊人;专业模型层在基础模型的技术支持下,企业可通过深度学习平台等进行适应专业垂直细分领域和场景的个性化定制;服务应用层兼具技术与内容生产者角色,当基础模型直接提供客户端的智慧问答时,就成为了服务应用层,如ChatGPT 即基础模型直接为用户提供智慧问答服务。不难发现,无论是大模型训练过程还是各个产业分层,训练数据质量自始贯穿,训练数据数量在预训练环节或者说基础模型层是十分重要的维度。

(二)训练的数据

大型自然语言模型训练需要海量高质量数据的“喂养”。海量数据从何而来,这一直是人工智能模型开发者较为敏感的话题。2020年OpenAI发布ChatGPT-3时,在技术论文中曾披露其训练数据集,主要包括:一是Common Crawl数据库,是基于大规模网页抓取形成一个数据集,由同名的非营利机构所有,以每个月存档近30亿网页的速度索引和存储网页超过10年;二是OpenAI专用的个人数据人工智能语料库的Webtex2,为了构建这个语料库抓取了社交媒体网站Reddit链接的每一个网页,投喂训练大语言模型;三是图书数据库Books1;四是图书数据库Books2;五是英文版维基百科Wikipedia。之后,OpenAI发布ChatGPT-4时,仅模糊表述该模型的训练数据系“公开可用数据(如互联网数据)与第三方授权数据的混合体”,并以“竞争格局与大规模模型安全风险考量”为由拒绝对ChatGPT-4的数据细节作进一步披露。

有观点分析,人工智能大模型的数据来源主要包括5种渠道:企业自身所有、控制的数据;公开渠道爬取的数据,即由政府组织、科研学术机构或企业公开发布,涵盖各种类型的数据;数据资源共享,即部分机构、学者等所拥有较为独特的数据资源,并愿意以各种形式合作共享这些数据资源,支持不同领域的研究和应用;互联网上的公开资源,如UGC平台、社交媒体、论坛、新闻网站等,以及用户发表的内容、回复、评论等内容;有的情形下,用户使用生成式人工智能服务之时,用户输入的内容和服务提供者输出的内容也是训练数据的来源。笔者认为,人工智能数据来源可以区分为直接获取数据和间接获取数据。其中,直接获取数据包括:1.企业自身经营积累的数据集合及在该数据集合基础上加工生产的新数据;2.通过人工采集或爬虫软件等获取的互联网上的公开数据;3.在“模型即服务”的生成式人工智能下,直接从个人信息主体获取的个人信息以及人机交互生成的数据。技术跃迁突破了现有法律制度的底层设定。“技术支持者—服务提供者—内容生产者”的法律主体界分已经随着技术的发展被逐渐消解,生成式人工智能的大模型进一步将三者功能实质上融为一体。

间接获取数据包括:1.数据交易。人工智能开发者可以从数据交易平台或第三方数据提供商手中购买数据。2.数据共享。部分学术期刊网站平台通过知识共享许可协议(Creative Commons License,以下简称CC协议),在为权利人保留部分权利的同时在一定程度上实现作品的灵活自由传播。国家数据局等部门于2023年12月联合印发《“数据要素×”三年行动计划(2024—2026年)》指出,推动科学数据有序开放共享,促进重大科技基础设施、科技重大项目等产生的各类科学数据互联互通,支持和培育具有国际影响力的科学数据库建设,依托国家科学数据中心等平台强化高质量科学数据资源建设和场景应用。以科学数据支持大模型开发,深入挖掘各类科学数据和科技文献,通过细粒度知识抽取和多来源知识融合,构建科学知识资源底座,建设高质量语料库和基础科学数据集,支持开展人工智能大模型开发和训练。3.公共数据授权运营。2025年1月,国家发改委发布《公共数据资源授权运营实施规范(试行)》,规定县级以上地方各级人民政府、国家行业主管部门可将其持有的公共数据资源,按照法律法规和相关要求,授权符合条件的运营机构进行治理、开发,并面向市场公平提供数据产品和技术服务的活动。2025年3月1日,国家公共数据资源登记平台正式上线。人工智能开发者可以通过授权运营获得公共数据。 

二 法律风险:人工智能训练数据的法律困境

据不完全统计,自2022年11月至2023年10月,仅美国加州北区法院就已经受理了10起版权人起诉OpenAI、StabilityAI、Meta、Alphabet等生成式人工智能研发企业未经授权利用其作品进行模型训练的案件。上述诉讼目前虽还未有定论,但人工智能开发者出于侵权诉讼或者违反数据保护法的担忧而更加倾向选择不再公开具体训练数据,甚至可能不保留内部训练数据的记录。欧盟在《人工智能法》中将透明度(transparency)作为开发和使用人工智能系统应当遵守的7项原则之一。但透明度原则也受到一定质疑,若完全公开训练数据,无疑会增加人工智能企业的开发成本,使得训练数据需要支付更加高昂的成本。部分人工智能企业将训练数据托管至公共平台,即使训练数据获得授权,但是在公开训练数据后仍会面临权利人的个人信息被再次公开的问题。由于透明度原则具有多重价值,在现有法律制度,比如著作权法、个人信息保护法等还未妥善解决人工智能训练数据带来的挑战时,透明度原则作为人工智能的治理方案还难以真正解决人工智能训练数据的合法合规问题。

我国发生的与人工智能相关的司法诉讼主要集中在“输出端”,北京互联网法院审理了人工智能文生图著作权案,该案主要讨论的问题是人工智能生成图片是否构成作品及权利归属。杭州互联网法院审理了人工智能生成“奥特曼”图片案,该案主要讨论的问题是生成式人工智能平台在用户生成侵权图片时是否承担责任。我国《生成式人工智能服务管理暂行办法》第七条规定:生成式人工智能服务提供者应当依法开展预训练、优化训练等训练数据处理活动,遵守以下规定:“(一)使用具有合法来源的数据和基础模型;(二)涉及知识产权的,不得侵害他人依法享有的知识产权;(三)涉及个人信息的,应当取得个人同意或者符合法律、行政法规规定的其他情形;(四)采取有效措施提高训练数据质量,增强训练数据的真实性、准确性、客观性、多样性;(五)网络安全法、数据安全法、个人信息保护法等法律、行政法规的其他有关规定和有关主管部门的相关监管要求。”基于该条规定,训练数据在来源上应具有合法性,主要涉及的在先权利是知识产权和个人信息权益。通过国内外司法诉讼和人工智能立法的简单比较可以看出,对于人工智能训练数据的法律困境是全球共同面临的问题。

人工智能训练数据来源多重,带来多种法律风险。有观点认为,人工智能数据层面主要有数据质量风险和数据安全风险,数据质量风险包括标注数据质量参差不齐引发生成毒害内容、预训练语料库代表性不足导致价值观偏差、数据集时效性偏差引发可信度危机;数据安全风险包括交互数据自动传输迭代存在数据泄露风险、定制化训练存在数据泄露风险、大模型数据安全防御能力不足。笔者认为,上述风险类型引发的社会风险确应给予足够重视,人工智能开发者为此应承担相应的数据治理义务,该种义务很大程度上是公法义务。本文聚焦人工智能训练数据在现行法律框架下可能承担的民事法律责任,分析人工智能训练数据的合法性困境。

(一)数据采集手段的法律困境

1.数据采集与技术措施

对于海量数据需求,数据收集往往通过自动化工具,如网络爬虫进行高效抓取和下载。开放的网络平台通常允许普通公众或注册用户以人工方式浏览其网页或客户端,获取实现服务目的所需的有限数据,但是反对他们使用自动化工具(网络爬虫)下载超出服务范围的额外数据。平台常见的反爬虫措施大致可以分成如下几类:(1)机器人协议(robots protocol),即平台在自己的服务器根目录下存储的“robots.txt”文件中,以网络爬虫能够读懂的程序代码作出声明,明确自己是否接受爬虫的访问,以及爬虫可以访问的内容范围;(2)识别与封禁爬虫的技术措施,即平台通过浏览器或客户端验证、智能验证码、访问行为模式分析等动态识别并阻止爬虫访问的技术措施;(3)反爬虫约定条款,即平台要求用户注册并接受的用户协议中限制用户利用爬虫的合同条款;(4)数据包加密措施,即平台对服务器端向用户端传输的数据包进行加密,防止用户解析爬虫抓取的数据的技术措施;(5)动态加载措施,即平台在用户浏览器或客户端动态加载数据(渲染),增加爬虫识别目标数据内容难度的措施。

作品和个人信息通过互联网公开传播后,通过技术手段阻止未经许可的访问、浏览、下载,是权利人通过事前预防措施保护权利的正当方式。因此,技术措施是一个法律和科技高度结合的问题,各国的现行立法均未规定一种基于技术措施的独立权利。我国著作权法对技术措施予以保护,关于技术措施与著作权的关系,比较妥当的解释是,技术措施除非属于计算机软件,其本身并不是著作权法保护的对象,仅作为保护著作权的方式之一。法律将技术措施纳入保护范围,所保护的并不是技术措施本身,而是权利人所拥有的著作权和与著作权有关的权利。我国著作权法第四十九条是在《信息网络传播权保护条例》的基础上规定了权利人可以采取技术措施,同时规定未经权利人许可,任何组织或者个人不得故意避开或者破坏技术措施。第五十条规定了可以避开技术措施的5种例外情形:(1)为学校课堂教学或者科学研究,提供少量已经发表的作品,供教学或者科研人员使用,而该作品无法通过正常途径获取;(2)不以营利为目的,以阅读障碍者能够感知的无障碍方式向其提供已经发表的作品,而该作品无法通过正常途径获取;(3)国家机关依照行政、监察、司法程序执行公务;(4)对计算机及其系统或者网络的安全性能进行测试;(5)进行加密研究或者计算机软件反向工程研究。

当人工智能利用网络爬虫获取海量互联网公开数据,被抓取平台设置技术措施,假设暂不考虑技术措施所保护的是何种权益,若平台设置了机器人协议、反爬虫技术措施,数据抓取行为违反机器人协议、不当破坏接触控制措施的,可能会违反著作权法第四十九条规定,且人工智能数据抓取行为难以构成第五十条规定的例外情形,进而根据著作权法第五十三条第(六)项的规定需承担相应民事法律责任。

2.数据采集与CC协议

维基百科等平台通过CC协议的开放授权,宣示仅保留大量作品著作权的使用权,其他权利暂时放弃,可允许他人免费复制、发行、网络传播等。CC协议4.0版本于2013年11月25日发布,提出4种特定使用条件为论文原始作者保留权利:(1)署名,允许他人对作者享有著作权的作品及演绎作品进行复制、发行、展览、表演、放映、广播或通过信息网络向公众传播,但在这些过程中使用者必须保留作者对原作品的署名;(2)非商业使用,允许他人对作者享有著作权的作品及演绎作品进行使用,但仅限于非商业性目的;(3)禁止演绎,允许他人对作者的作品原封不动地使用,但不得进行演绎创作;(4)相同方式共享,只有在他人对演绎作品使用与作者原作品相同的许可协议的情况下,作者才允许他人发行其演绎作品。人工智能采集使用CC协议平台的数据,应遵守协议,对协议中原作者保留的权利予以尊重。假设CC协议声明将演绎作品以相同方式共享,人工智能开发者似应以相同共享方式公开共享新创作的作品,而这通常是商业人工智能开发者尽力规避的法律负担。

3.数据采集与API协议

人工智能开发者间接获取数据的方式之一是通过数据平台的Open API接口获取数据。由于Open API是数据提供方开发,双方往往通过《开发者协议》进行约定,人工智能开发者使用此类接口获取数据时在访问权限、数据种类、数据采集频率等方面进行限制。若数据获取超出协议约定的权限获取高权限数据或者抓取未公开的后台数据,则属于以不正当手段获取平台数据,可能会承担侵犯商业秘密或其他反不正当竞争法下的民事法律责任。

(二)数据训练的法律困境

1.训练数据与著作权

权利人主张生成式人工智能未经授权使用作品训练数据,构成当前多数训练数据诉讼的核心诉由。作为逻辑起点需明确,当前绝大多数生成式人工智能模型的训练内容均受著作权法保护。这一现象源于两个不可回避的事实——任何满足最低独创性要求的作品均自动产生著作权保护,且该保护期限极长(至少作者终身加50年)。虽然存在替代性作品使用方案,但无法切实替代受著作权保护作品的实际应用,比如人工智能使用已经进入公有领域的作品,将导致严重脱离时代语境;“合成数据”(即旨在高度模拟现实数据的人工智能生成数据)能否实质代替真实训练数据仍存在重大分歧。如果人工智能训练数据的内容是处在著作权保护期内的作品或由其转码而来的数据,就有可能侵犯他人的著作权。虽然人工智能通过深度学习将作品的数据模式转换为数值参数,而非存储完整的数据集,但是人工智能训练数据至少需要复制作品一次,在未经授权的情况下,该行为至少可以被认定为侵害复制权。针对人工智能训练数据使用作品的问题,有观点提出,数据训练中的使用行为因具有明显的“非特定性”,应当界定为“非作品性使用”,从而不应纳入著作权保护范围。但该观点尚存较大争议。

人工智能特别是生成式人工智能对训练数据的需求量堪称天文数字,这也意味着海量作品作为语料被投入训练,若事先获得授权许可,即使不考虑支付作品许可使用费的经济成本,仅对海量作品的权利人进行识别以及协商谈判的交易成本,将成为人工智能开发者难以逾越的障碍。倘若按照集体管理组织统一授权模式,集体管理组织管理的作品在海量训练数据面前也是微乎其微。人工智能开发者针对大规模侵权指控的抗辩,核心在于训练数据应适用著作权保护的例外与限制条款,但这些例外与限制的适用范围及解释在不同国家和地区的法律框架内存在显著差异。

2.训练数据与个人信息权益

承前所述,大模型训练的各个环节均可涉及个人信息的处理。我国个人信息保护法第六条规定,处理个人信息应当具有明确、合理的目的,并应当与处理目的直接相关,采取对个人权益影响最小的方式。收集个人信息,应当限于实现处理目的的最小范围,不得过度收集个人信息。第七条规定,处理个人信息应当遵循公开、透明原则,公开个人信息处理规则,明示处理的目的、方式和范围。第十三条规定,个人信息处理者取得个人的同意方可处理个人信息。因此,个人信息的收集遵循“告知—同意”和最小必要原则,个人信息的处理遵循公开、透明原则,已公开的个人信息限于合理的范围内处理。生成式人工智能涉及的数据来源非常广,既包括从第三方供应商处购买的数据,也包括通过网络爬虫自行收集的数据,还包括用户直接提供的数据,所涉主体的多样性及关系的复杂性,导致“告知—同意”与“选择—决定”缺乏适用的现实条件。同时,生成式人工智能所涉及的数据规模巨大,要想从每个信息主体获得同意非常困难。就公开透明而言,人工智能在数据收集阶段,由于受到市场竞争、商业模式迭代、技术复杂性等主客观因素的影响,完全明示个人信息的处理目的、方式和范围的可能性较小;在模型部署及推理阶段,生成式人工智能模型是前代神经网络模型的自然延伸,这不同于传统的数据存储系统,个人信息被嵌入到复杂的机器学习模型中,增加了完全明示信息的处理方式及范围或者允许信息主体准确访问其个人信息的难度。此外,个人用户即使同意平台收集处理其个人信息,人工智能开发者与平台签订数据使用协议使用平台已经公开的个人信息进行数据训练,是否属于在合理的范围内使用仍存争议。

3.训练数据与反不正当竞争法

2022年《中共中央国务院关于构建数据基础制度更好发挥数据要素作用的意见》中将数据种类分为个人数据、企业数据、公共数据。在数据要素市场背景下,经营主体投入人力、物力、财力收集处理的数据集合具有商业价值,可以成为经营资源,带来竞争优势。企业数据若符合商业秘密“不为公众所知悉”“商业价值”“保密措施”构成要件,人工智能开发者未经许可获取使用企业数据,可能承担侵害商业秘密的民事法律责任。企业数据若已经公开,企业经营者多是通过反不正当竞争法的一般条款或者“互联网专条”寻求企业数据财产性权益的保护。司法实践中,出现了经营者以商业模式、企业定位、用户群体存在高度重合性的“撞库”方式,收集互联网已泄露的账号和密码信息,获取经销商数据信息,给具有直接竞争关系的其他经营者造成损害,被认定为构成不正当竞争,承担相应民事责任的案例。人工智能开发者使用企业数据训练模型,虽然企业数据的权利性质尚未清晰定性,但鉴于反不正当竞争法通过规制行为实质起到保护权益的效果,人工智能训练数据也面临反不正当竞争法上的考验。此外,人工智能企业训练数据门槛较高,在后进入人工智能大模型开发的企业将比在先企业更难收集数据,在先企业对海量训练数据的控制可能成为在后企业在人工智能领域的进入壁垒或者扩张壁垒,导致无法充分公平竞争发展。

(三)数据交易的法律困境

人工智能开发者通过数据交易获得训练数据,虽然可避免自采数据的相关风险,但采购数据集仍可能存在权利瑕疵。具体来看,从上游数据供应商的角度,获取数据的渠道和方式较为多元,可能存在经授权从权利人处取得、自行采集等情形。在数据体量较大的情况下,数据供应商在实操层面难以一一取得授权,也难以就整个数据集向下游的模型开发者作出权利担保。从人工智能开发者的角度, 很难严格核查数据供应商的上游文件,无法确认上游是否已经获得针对人工智能训练的充分授权。这意味着上游面临的授权困难传导到下游,成为人工智能开发者难以消除的侵权风险。

三 制度供给:人工智能训练数据的规则之治

中国参与签署的《布莱切利宣言》指出:“人工智能为全球带来巨大的机会,具备改变和提高人类的福祉、和平和繁荣的潜力。”人工智能是国际竞争的新焦点、经济发展的新引擎,《生成式人工智能服务管理暂行办法》明确以包容审慎的态度鼓励支持人工智能的创新和应用。质量数据供给是影响人工智能大模型产业发展的关键瓶颈。在数据安全法、个人信息保护法等法律法规框架内,随着公共领域数据资源的边际效益递减以及社会可用高质量数据总量减少,构建稳定且可持续的数据供应链,是推动人工智能大模型不断迭代升级的核心所在。在数据要素市场化配置下,人工智能训练数据的合法性争议背后承载了人格利益、财产利益以及社会公共利益之间的冲突和博弈,在博弈参与者利益冲突的过程中,往往需要进行协调和妥协,以实现资源配置效益的最大化。下文主要从立法论的角度,探索具体行为规范,为人工智能训练数据在现行法框架下的法律困境寻找可能且可行的解决路径。

(一)“宽进严出”的整体制度设计思路

技术往往伴随着试错的过程而逐步发展,若不试错,可能也未必能出现极其偶然性的“智能涌现”。因而如何进行价值衡量并制定更为完善的制度,始终是一个重要议题。 就人工智能训练数据而言,虽然属于“输入端”的问题,但该问题的解决不能割裂人工智能的“输出端”。正如有观点指出,人工智能对著作权制度产生的最大挑战就是模型训练过程中对作品的使用往往会在输出阶段产生侵犯以复制权、演绎权以及向公众传播权等为核心的作者专有权利的风险。笔者认为,人工智能“输入端”采取相对宽松的制度设计和“输出端”采取相对严格的制度设计,可以满足人工智能开发者研发技术对数据的需求,减轻技术研发负担,鼓励产业发展,同时尽最大努力消除人工智能生成内容的风险,兼顾人工智能技术发展和权利人利益的保护。

“宽进严出”的制度设计思路,首先是建立在对人工智能大模型的认知基础上,即应当区分认识“大模型的能力”和“大模型的应用”,前者对应“输入端”,后者对应“输出端”。人工智能训练数据的在某种意义上属于技术研发,单纯的模型训练不会直接影响权利人,真正的风险来自于模型训练后投入应用。目前,人工智能大模型应用造成风险的概率和严重程度尚不清楚,还未产生规模风险,对“输入端”进行源头风险预防的正当性并不充分。其次,若在“输入端”严格规制,人工智能开发者训练数据要么面临极高的授权成本,要么面临极高的法律风险,均将阻碍人工智能的技术创新。最后,从全球人工智能治理来看,各国制度竞争亦在展开。欧盟采取分类分级分主体理念,重点关注训练数据透明度;美国对公开可得个人信息持积极利用态度,探索公共数据收集豁免;英国提出合法利益评估标准三步测试;新加坡创设数据处理的业务改进和科研例外制度等。对人工智能训练数据方面,多数国家和地区均采取宽容态度。因此,采取“宽进严出”的整体制度设计思路是较为适宜的选择。

(二)“输入端”建立数据合理使用制度

当前,对人工智能训练数据阶段的数据获取问题,刚性适用现有的个人信息保护、知识产权保护等方面的规则,可能会对人工智能的研发应用质量的提升构成法律障碍,且此等障碍亦并非在利益衡量的基础上保护私人权益的最佳方式,故仍应通过构建例外规则或特别规定等方式,协调平衡不同利益主体之间的关系。也有观点提出,在数字时代,应打破著作权、隐私权等权利领域的限制,基于各项权利内容数据化后的共性,聚焦于数据要素作用发挥,一体化构建人工智能训练数据的使用制度体系。笔者认为,从立法论的视角看,可在未来的数据立法或人工智能立法中,借鉴著作权法中的合理使用制度构建数据合理使用制度,具体包括著作权合理使用、个人信息合理使用和企业数据合理使用。同时,合理使用作为对权利或权益的限制和例外,权利人可通过设置技术措施限制抓取作品、个人信息和企业数据进行反限制,并且对人工智能应用的“输出端”侵权风险予以规制,人工智能服务提供者基于过错对侵权行为、不正当竞争行为等承担相关民事法律责任。

1.著作权合理使用

人工智能训练数据离不开海量作品的使用。著作权法上的授权许可、法定许可和合理使用制度均为解决训练数据合法性的方案,前两种方案均面临交易成本过高的问题。比较域外立法,2019年正式通过的欧盟《数字单一市场版权指令》细化“文本与数据挖掘著作权例外”的内容,其中第3条将适用范围限定为不具有营利性的大学、研究机构及文化遗产机构;第4条规定的“选择—退出”机制,允许基于文本与数据挖掘目的复制和提取可合法访问的作品或其他主题,适用主体扩大到基于商业目的的文本与数据挖掘,同时允许权利人通过协议、单方声明等方式对此予以保留。2018年《日本著作权法》修订时将计算机使用数据的范围从“计算机信息分析”拓展为所有“提供新的知识和信息”领域,修订后的规定将可以享受侵权豁免的行为从原来的复制、改编进一步扩大到了向公众提供,同时不限定适用的主体和目的,为商业机构的营利性使用留下了适用空间。美国以其较为灵活和极具解释空间的开放式合理使用规则为人工智能技术应用提供了更好的发展环境,《美国版权法》所创立的合理使用认定“四要素标准”以及转换性使用规则具有较大的灵活性和较强的解释空间。因此,合理使用是配置作品数据资源、协调著作权人和人工智能开发者利益冲突的较优选择。

我国著作权法对合理使用采用“三步检验法”,即对作品的使用行为符合在特定且特殊情形下、不与作品的正常使用相冲突、不得不合理地损害著作权人的合法权益3个条件,才能被认定为符合合理使用。通过立法,将人工智能训练数据作为著作权合理使用的特定情形。首先,技术的进步本身就具有重要的社会价值,保障技术实现是著作权法独立的规范目的,可以被认定为属于著作权法的“特定且特殊情形”。当然,并非任何技术对作品的使用都可以视为合理使用,其关键之处还要考虑技术实现的公共利益性。人工智能模型是架构高品质人工智能产业网络的基础技术资源,尤其是通用模型的建设更将成为多产业、多模态人工智能经济的底层支撑技术。人工智能模型训练数据之于人工智能产业属于底层技术支撑,具有较强的公共利益性与价值优位性。其次,人工智能将作品作为训练预料并非为了复制存储作品,而是机器学习作品中蕴含的人类自然语言规律,以在输出端生成新的知识信息,数字化的作品在人工智能模型训练中已经被碾细碎化,作为参数内嵌于人工智能模型。传统意义上的使用,犹如厨师对原材料的烹饪过程,而大模型对训练数据的使用则近似于“分子料理”般的打散重塑。该种使用与作品的正常使用或者说传统意义上的使用并不冲突。最后,“不得不合理地损害著作权人的合法权益”并非要求排除一切对著作权人的损害,而是承认了在某些情况下著作权人应当对合理损害承担容忍义务。人工智能开发者在域外被权利人提起诉讼,很大程度上是担心生成式人工智能将损害作者利益,导致失去创作动力。应该说,人工智能本质仍是工具,是人类创作的工具,可以提高创作效率,促进社会知识的整体增长。人工智能在“输出端”可能生成与在先作品相同或实质性相同的作品,在“输出端”赋予较高的注意义务最终能够传递或转介至“输入端”,使得人工智能开发者训练数据时提高技术手段,将对著作权人的损害控制在合理范围。

此外,人工智能将作品作为训练数据构成合理使用的同时,赋予著作权人在前端数据合法取得以及后端侵权风险规制上的救济手段,也就是说,法律通过赋予著作权人对作品设置有效技术措施的权利,以及要求人工智能服务提供者对生成内容的合法性负有注意义务等规定,对合理使用进行动态平衡。

2.个人信息合理使用

个人信息与作品作为人工智能训练数据存在如下差异:第一,个人信息的产生和收集往往存在一个“中心点”——网络平台等个人信息处理者,个人信息较为集中地处在个人信息处理者的控制之下,尤其是大型的个人信息处理者掌握了海量主体的个人信息;而作品语料极其分散,虽然我国成立了文字作品等集体管理组织,但是大量作品仍在集体管理组织的管理之外。第二,使用作品语料主要涉及的是权利人的著作财产权,而使用个人信息语料关系到权利人的人格权益,因此考虑个人信息的语料获取问题,应更加重视权利人的保护。第三,作品是生成式人工智能学习的关键内容,对于提高学习效果有重要作用;而个人信息数据在许多情况下不具有必要性。因此,在人工智能训练数据使用个人信息的制度构建上,有学者提出了“两头强化,三方平衡”的基本立场,强化一般个人信息在生成式人工智能研发中的利用和敏感个人信息的保护。

对于已合法公开的个人信息,人工智能训练中进行使用是否构成合理使用,主要涉及个人信息保护法第十三条第(六)项“依照本法规定在合理的范围内处理个人自行公开或者其他已经合法公开的个人信息”和第二十七条“个人信息处理者可以在合理的范围内处理个人自行公开或者其他已经合法公开的个人信息;个人明确拒绝的除外。个人信息处理者处理已公开的个人信息,对个人权益有重大影响的,应当依照本法规定取得个人同意”的适用。人工智能训练数据使用已公开的个人信息,对于“合理的范围”可从宽解释,或者说从反面划定人工智能处理已公开个人信息的底线。具体而言,对于一般个人信息,个人自愿公开即可以被推定为默示的同意,只要信息主体不明确表示拒绝,人工智能开发者就可以合法地处理这些个人信息。这意味着人工智能开发者使用已公开个人信息进行大语言模型预训练时,只要处理行为不对信息主体的人格权造成侵害,其处理行为都应属于法律允许的范围;对于个人敏感信息,由于高度关系到人格尊严及人身和财产安全,非必要应当尽量避免作为训练数据,若作为训练数据需要个人信息者的明示同意。对于未公开的个人信息,一般不应将该类个人信息作为训练数据认定为合理使用行为。

3.企业数据合理使用

企业数据权益应当予以保护,但与著作权、个人信息权益相比,企业数据权益目前还未确定“产权”保护模式,多是以“竞争性财产权益”路径寻求保护,有限排他性决定了企业数据权益在一定条件下也应受到限制。企业数据的合理使用,可以借鉴著作权法的合理使用,即在法律规定的条件下,其他主体在使用数据权利主体控制的数据、数据集合或数据产品时,不需要经过其许可,也不必支付费用。企业数据的合理使用,适用原则主要有3个方面:一是公开原则,即合理使用的数据一般应为已公开的数据,不应包括数据权利主体采取措施禁止他人随意获取的数据;二是适当原则,即合理使用的程度必须适当,获取的数据量、数据范围,获取数据的手段以及数据使用的合理目的等,均应控制在适当的范围之内;三是比例原则,即合理使用要在一定比例内进行,应以其结果不会对权利人的利益造成巨大损害为原则。人工智能开发者为训练数据抓取企业公开数据,未采取故意避开或破坏技术措施的手段不合理地抓取企业数据,且“输出端”未损害企业数据持有者的竞争优势,可以认定为对企业数据的合理使用。

结语

人工智能大模型带来技术的进步,也带来法律制度的挑战。人工智能模型训练需要海量数据,但其处于技术链条中的底层,属于新型数字基础设施。秉持包容审慎的态度,在数据要素市场化配置的背景下,对人工智能训练数据合法性争议的制度性解决,采取“宽进严出”的制度设计思路,在“输入端”构建数据合理使用制度,可以保障人工智能大模型训练的技术实现具有更为优位的价值位阶

评论

在线咨询