促进AI合成数据共享的商业秘密制度应对

日期：2024-03-28 来源：知产前沿作者：马秋芬郑友德浏览量：

字号：

一、合成数据生成机理

二、合成数据对现有商业秘密制度的挑战

三、促进 AI 合成数据共享的商业秘密制度变革

四、结语与展望

数据是AI 时代的石油！数据是数字经济发展的命脉[1]，AI产业发展离不开数据作为支撑。但是，从真实世界收集海量数据作为AI训练数据，极大可能引起隐私和知识产权侵权风险。近年来频繁发生的、标的额巨大的生成式AI侵权案件，侵权纠纷主要集中在用于训练AI的海量数据侵犯权利人的知识产权。在获取真实数据既困难又昂贵，且面临巨大知识产权侵权风险的情况下，合成数据（synthetic data)）应运而生。据Gartner预测，到2030年，合成数据将彻底取代AI使用的真实数据（见图1）[2]。另据推测，全球合成数据生成市场在2021年达到1.233亿美元，预计到2030年将达到34.8%的复合年增长率（CAGR）(见图2)[3]。

合成数据作为人工生成的数据，本质上是“捏造”的数据[4][5]，可以避开棘手的隐私问题。但伴随合成数据与真实数据越来越接近，AI对合成数据高质量和准确标记的要求，合成数据也面临知识产权侵权风险。反过来，我们需要从技术和法律角度重塑合成数据的未来。从开源共享的角度看，商业秘密制度显然会降低合成数据的披露和透明度。如何正确解读商业秘密对合成数据的保护机制，促进合成数据的有限共享，成为当下亟待解决的问题。有鉴于此，我们首先对合成数据进行界定，探寻合成数据生成机理；其次，立足合成数据有限共享的现实，分析商业秘密对合成数据保护路径的设计；最后，从鼓励数字创新、促进AI发展的角度，提出合成数据共享的商业秘密制度应对建议。

促进AI合成数据共享的商业秘密制度应对.png

图 1

图 2

一、合成数据生成机理

合成数据，是指人工生成的、以真实世界的“种子”数据为基础，使用AI算法形成的数据。它具有与生成它的真实数据相同的统计特性和预测能力。[6]其特征在于，合成数据不包含AI和分析用例的真实个人信息。根据原始“种子” 数据在合成数据中的占比，合成数据可以分为两种：一种是部分合成数据，即原始数据加上部分合成变量的组合；另一种是完全合成数据，即所有变量都是合成的。合成数据常见应用领域分布在数据稀缺或者数据收集昂贵且不安全的部门。例如JP Morgan等金融巨头拥有专门的合成数据研究团队，生成的海量数据存储在企业内部，以满足本公司的业务需求；福特和宝马等汽车行业巨头则使用合成数据来训练它们的自动驾驶系统；在医疗保健领域，Cure Al医疗成像等企业使用合成数据来训练AI模型，很好的保护了患者的隐私。

合成数据无论是否包含真实数据，在某种程度上都是以真实数据为基础，“数据增强”技术就是通过修改真实数据生成合成数据[7]。最常见的合成数据生成技术主要有两种：基于生成对抗网络（GANs)和变分自动编码器（VAEs)。GANs是一种深度神经网络，它可以基于对抗性训练过程生成新的数据样本，该过程包括训练一个神经网络（即生成器）生成新的数据点，以及另一个神经网络(即鉴别器)预测生成器生成的点之真伪。[8]VAEs是一种概率模型，它可以学习将数据压缩（编码）成有意义且易于处理的表达，可以使用重建函数(解码器) 对原始概率分布进行采样。[9]但是，合成数据要保证隐私不被侵犯，还必须具有可量化的隐私风险。例如差异化隐私，即数据控制者应该执行计算性隐私保证评估，以确保生成的合成数据不是个人数据，差异化私有合成数据更像是原始数据，但它为原始数据提供了隐私保证，有效的体现了保护隐私和实用性的特征。[10]卡塔尔迪拜市授权的一项研究表明，在保护个人隐私和提高数据效用方面，差异私有合成数据优于传统的数据匿名化技术（例如删除、替换、屏蔽和聚合) 。[11]对于包含交通事故的数据集，与原始数据集相比，合成数据几乎完全保护了个人隐私，同时保留了90%以上的效用。这意味着为科学研究目的处理个人数据的共享和再利用，不会损害参与研究项目的个人。

相较于现实世界的真实数据，合成数据的优势很明显：第一，合成数据可以有效防止直接识别个人信息，尤其是在完全合成数据的情况下；第二，合成数据是一种符合数据保护概念的技术措施，为隐私提供了额外的保护；第三，合成数据满足高维数据集的统计特征，使单个数据无法在数据集中被精确描述，有效保护了个人身份；第四，合成数据可以有效改善偏见或者不完整的数据集，进而提高数据集的代表性。合成数据的弊端也同样不容忽视。如前所述，合成数据都是以真实数据为基础，因此会出现两种情况：一种是与真实数据过于相似的低质量合成数据，该类合成数据与受知识产权保护的真实数据仅有微小差异，可能无法规避侵权风险。另一种是与真实数据相差很大的低质量合成数据，实际使用可能会造成重大的社会危害。例如，IBM的Watson Health由于接受了错误的合成患者记录培训数据，因此给出了错误的癌症治疗建议。[12]

鉴于上述合成数据的实用性与特点，AI如何从合成数据中受益，合成数据如何为 AI研发者和用户共享，已经成为AI创新发展面临的重大问题。

二、合成数据对现有商业秘密制度的挑战

ChatGPT快速发展会使企业的保密数据外泄与，加大深度伪造危机，大型企业因使用生成式AI，上传大量保密数据而引起对商业秘密外泄的疑虑，三星电子因员工使用ChatGPT，造成半导体设备测量数据、产品良率等内容，都被存入ChatGPT 的数据库中，因担心商业秘密遭外泄，三星电子禁止员工在公司拥有的信息设备上使用生成式AI服务。

商业秘密几乎涵盖具有经济价值的各类信息。[13]在AI领域，软件、算法及源代码、LLM等，几乎都符合商业秘密的保护要件。因此，商业秘密是保护合成数据及其生成过程的潜在重要制度。那么，如果对合成数据实施商业秘密保护，是否会限制合成数据的披露与共享呢？

实证研究表明，商业秘密作为创新投资制度，通常比专利制度更重要。[14]与以公开或披露换取保护的专利制度相比，商业秘密可以作为专利法的重要补充[15]，具有成本低、不公开以及能够得到长期保护等特点，在合成数据的信息披露与共享层面反而更具吸引力。首先，商业秘密作为开源共享与专利保护的重要补充路径，允许合成数据持有人对合成过程（方法）和合成数据保密，从中获得回报。其次，持有合成过程（方法）和合成数据的商业秘密持有人，更愿意与外部供应商、承包商和客户等存在信赖保密关系的主体分享机密信息。正如Lemley主张，商业秘密制度有效促进了信息的披露和共享[16]。最后，商业秘密允许反向工程，如果企业将合成数据和合成过程作为商业秘密进行保护，竞争公司可以对此进行反向工程，通常不承担侵害责任。

然而，商业秘密法的保护主题往往处于“黑匣子”内，其保密信息只有在一定条件下才可能披露。尽管合成数据打破AI训练数据瓶颈，但合成数据的合成与应用依然面临侵害商业秘密的潜在风险。所以，为促进合成数据的披露与共享，必须重塑现行商秘密制度，以在合成数据保护与其促进AI创新发展之间寻求平衡。

三、促进AI合成数据共享的商业秘密制度变革

为了促进合成数据及其生成过程披露与共享，我们仅就如何改进现行商业秘密制度提出以下粗浅看法：

一是限缩合成数据的商业秘密保护范围。如前所述，合成数据的应用领域极广，其中不乏医疗、保健、环保等与公共健康、社会利益相关的行业，此等主题范围内的合成数据大多具有公共产品属性，体现公共利益，不宜作为商业秘密保护。

二是建立商业秘密有限共享机制。当保密数据或信息危害公共利益时，根据《欧盟商业秘密指令》的相关规定，数据持有人应披露该秘密，或者企业员工可向有关公共机构举报该违法违规信息。

三是借鉴有关国家为应对气候变化和流行疫情的做法，依照TRIPs协议的有关规定，基于公共利益，对保密的合成数据或信息实施强制许可。[17]

四是政府部门应积极依法披露有关保密的市政、基建、环境、社会、科研和管理等数据，使其成为合成数据的重要资源。

五是制定相关政策，鼓励支持企业或持有人自愿向社会或市场公开放弃或释放丧失去市场价值的保密的合成数据，以补充和完善合成数据的元数据，推进AI产业的整体创新。

四、结语与展望

数据共享是开放创新（Open Innovation）的重要推手。然而，信息保密与信息披露或公开两者实难兼容。商业秘密作为一种制止侵害创新成果的机制，与数据共享中存在冲突：企业与合作者以外的第三人共享数据，可能在受益的同时外泄保密信息；如果不共享数据，企业的保密信息虽然得以保护，但却放弃了企业的潜在利益。基于这种“开放悖论”，企业必须在使用商业秘密来限制知识外溢与不使用商业秘密进行开放合作研发之间做出抉择。

在过去的几年里，在开放科研数据和开放政府数据的背景下，开放数据已经成为一个特定的发展领域。所谓“（数据）开放”，“……意味着任何人都可以出于任何目的自由获取、使用、修改和共享信息（前提是遵守保留来源和开放性的要求）”[18]。在经合组织（OECD）的一篇论文中，（开放）数据共享的长处包括：“ 1) 提高透明度、问责制和用户授权；2) 提供新商机，包括创建初创企业，特别是对数据中介和移动应用程序开发商；3) 协调政府部门和政府间的竞争与合作，包括价值链的整合；4) 激励众包和用户驱动的创新；5) 通过多个信息源的数据链接和集成而提质增效。”[19]

实际上，出于商业秘密的立法设计初衷，在实施最佳保护实践上，并不要求企业依赖超出最低合理努力限度的措施保护商业秘密，即不必过度投入人财物于实际保护措施（企业极有市场竞争价值的商业秘密除外）。在开放协同包容创新环境中，这使得企业能够以更低的成本共享数据，达到双赢的效果。

总之，我们期待商业秘密法在打造合成数据共享乃至数字共享（digital commons）[20]公地中发挥重要作用。但要使合成数据与生成过程自愿披露，供AI合法训练之用，则必须在商业秘密立法、司法和政策上做出相应的调整。

注释

【1】参见 https: //eur-lex. europa. eu/legal-content/EN/TXT/?uri=CELEX\X3A52020DC0066.2024 年 3 月 22日最后访问。

【2】Definition of Synthetic Data - Gartner Information Technology Glossary https://www.gartner.com/en/information-technology/glossary/synthetic-data 2024 年 3 月 20 日最后访问

共1条记录