AI表演的知识产权问题研究

日期：2023-08-07 来源：知识产权杂志作者：陈杰浏览量：

字号：

内容提要

AI孙燕姿等AI歌手本质上是对孙燕姿等特定表演者的模仿。对模仿行为的规制，理应属于知识产权法调整的范围。AI技术的发展严重影响了表演者、录制者和公众等民事主体之间的利益分配，法律理应对此做出应对。应对的直接表现是在维护基本的创作自由的前提下，赋予目标歌手控制AI模仿的权利，即在AI表演上设立“表演者权”。该权利的学理基础是防止AI表演对目标表演者表演的淡化，以维系录制者所需的产业秩序和新的商业模式。短期来看，可以扩大解释声音权等人格权来实现制度效果；长远来看，应当借鉴驰名商标的反淡化保护制度，以防止AI表演的模仿行为产生的淡化。

关键词

人工智能 AI歌手 AI表演淡化声音权

一、AI表演的定性问题

近期，人工智能（以下简称AI）孙燕姿等AI歌手的翻唱行为引起学界和社会公众的普遍关注。一方面，新闻报道与法律工作者强调AI歌手的表演蕴含法律风险，涉嫌侵犯的权利包括孙燕姿等目标歌手的姓名权、声音权等人格权，目标歌手的表演者权，被翻唱音乐的词曲著作权、录音制作者权，等等。另一方面，相关歌手、录制者又保持了足够的克制，似乎AI歌手的表演与其无关，甚至有的歌手公开表示欢迎AI对自己的模仿。

AI歌手的法律问题，主要涉及AI歌手表演的定性问题。如果把AI歌手的表演简称为AI表演，那么该问题就是AI表演的法律定性问题。在社会生活的第一性上，涉及AI表演的技术原理；在法律调整的第二性上，才是AI表演的法律定性问题。前者是后者的研究基础，所以本文需要先说明AI表演的技术问题，再说明AI表演定性中的价值分析问题。

（一）AI表演的技术原理

目前，可以实现AI歌手表演的计算机程序较多，如VITS、soft-vc、VISinger2、SO-VITS-SVC等。其中，SO-VITS-SVC使用最为便捷，是目前AI歌手训练的最常用的程序。SO-VITS-SVC是一种音色转换算法的软件，仅需要数段音频就可以训练出接近目标音色的声学模型（AI歌手）；仅需数分钟就可以用该声学模型替代原歌曲歌手的音色，生成AI歌手的翻唱。AI歌手的表演效果与训练使用的音频数量和质量呈正相关。在目标歌手配合的情况下，仅从音频上将无法区分AI歌手的表演与目标歌手的表演。以AI孙燕姿演唱的《好汉歌》为例，其制作的流程如图1所示。

AI孙燕姿.png

依据相关技术用语，孙燕姿本人被称为目标歌手。AI孙燕姿是经过孙燕姿多段音频训练的、具有目标歌手独特音色的声学数据模型，即AI歌手。用该声学数据模型替代刘欢的音色，保留刘欢的音调和音准，就可以生成AI孙燕姿演唱的《好汉歌》。形成AI孙燕姿版本《好汉歌》的过程就是AI表演。对AI表演的固定就是著作权法意义上的录制行为。在这里，词曲作者赵季平等人是音乐作品《好汉歌》的作者；刘欢是《好汉歌》原录音的表演者，即被覆盖的表演者；AI孙燕姿演唱的《好汉歌》录音是AI技术生成的新录音；SO-VITS-SVC软件则是图1中的音色提取软件和音色覆盖软件；使用SO-VITS-SVC软件制作AI孙燕姿版《好汉歌》的人，是侵权责任法意义上的行为人。除了通过在原录音上替换音色制作新录音的方式外，现有的AI技术也可以直接在文字形式的音乐作品上制作新录音。只不过这种制作方式成本更高、耗时更多、录音效果也差一些。

通过以上流程可以看出，AI表演可以理解为AI孙燕姿对他人音乐作品的翻唱。AI表演的实质是行为人利用AI技术模仿孙燕姿等目标歌手，对已有的录音制品进行演绎，形成具有目标歌手音色的新录音制品的事实行为。如果考虑到AI技术已有的和可预见的发展，兼顾陈珊妮等歌手直接从文本生成录音的行为，AI表演还可以扩大解释为：利用AI技术模仿目标歌手，对音乐作品进行表演和录制，生成录音制品的事实行为。在技术和新闻报道上，AI孙燕姿等AI歌手是一种拟人化的表述。AI歌手只是计算机程序，而非民事主体。从法律关系的角度而言，与其说是AI歌手表演音乐作品、演绎他人录音制品，不如说是行为人通过AI表演等技术制作新的录音制品。因此，在分析法律问题时，作为技术手段的AI表演，比AI歌手等拟人化的用语更加准确。正是基于此，本文使用AI表演的用语，而非AI歌手。

AI表演具有AI属性，是一种模仿行为。AI是Artificial Intelligence的缩写，常译为人工智能。但在语义上，AI本义是对人智力的模仿。Artificial一词的直接含义，与其说是人工的，不如说是模仿的。从技术角度而言，AI并非独立创造某个作品，而是在模仿人的表达和行为。“从现阶段的人工智能发展水平看，人工智能只是对人类智能的技术性模仿。”在AI技术上，AI表演也不宜理解为一个拟制的人在表演，而应当理解为模仿他人表演的一种技术手段。

（二）AI表演定性的民法分析

AI表演是模仿特定人的表演。AlphaGo、Chat-GPT等AI模仿的是抽象的人、群体的人；以往常见的“虚拟偶像”“虚拟主播”模仿的也仍然是抽象的人、群体的人；在SO-VITS-SVC等技术上的AI表演模仿的则是具体的人、特定的人。二者之间存在质的不同。对抽象的、群体的人的模仿，并不会指向具体的、特定的人；对具体的、特定的人的模仿则必然会对该特定人产生直接影响。以往对AI的关注，不论是其主体问题、还是其生成内容的权利问题，都是在被模仿者非特定的前提下讨论的。相关结论并不能当然地适用于AI表演这种对特定人表演的模仿。例如为了促进人工智能产业发展，将使用他人作品“训练”AI的行为列入合理使用。如欧盟《单一数字市场著作权与邻接权指令》第4条第1款规定的文本与数据挖掘的例外，就为实现“训练”行为合法化提供了依据。也有学者建议借鉴日本《著作权法》第47条之七的规定，将“计算机信息分析”作为著作权的例外，以此形成“机器学习的乐园”。但是，AI表演等AI技术对特定人的模仿，从根本上挑战了文本与数据挖掘、计算机信息分析等形式的例外规定。这使得AI表演中训练行为的合法性也同样应当受到学理上的质疑。由于我国著作权法中尚未规定文本与数据分析、计算机信息分析等形式的合理使用，所以在未来完善相关立法时应考虑不断发展的AI技术。

因为AI表演是模仿特定人的行为，所以其理应属于知识产权法调整的对象。在民法诸多部门法中，没有哪个部门法像知识产权法一样高度关注行为人的模仿行为。知识产权法甚至可以被界定为区分合法模仿与非法模仿的法律规范。人类文明因模仿而进步，模仿原则上应予以鼓励，知识产权只是例外。“著作权制度现实总是会游移于‘保护创造’和‘禁止模仿’之间。”相较于债法、人格权法等其他民法部门法的规定，对AI表演的研究应当首先从知识产权法规制模仿行为的视角展开。

虽然AI表演在制作上，也会利用到孙燕姿等目标歌手的声音及其音色、刘欢等被覆盖歌手声音的音调、音准、音长，但使用孙燕姿、刘欢等歌手声音行为的定性应当从属于AI表演在知识产权法上的定性。依据《民法典》第1023条的规定，自然人享有声音权。目标歌手和被覆盖歌手的声音都可能在AI表演的制作过程中被行为人擅自使用。但行为人使用他人特定声音的行为并非一个独立的行为，也不是一个可以被单独评价的行为。AI表演的核心在于AI表演及录制AI表演的新录音。AI表演及其录音的定性问题才是评价AI表演的核心问题。过程中的声音权问题不是独立的问题，而是附随于AI表演定性的问题。声音权问题的讨论理应被AI表演的知识产权问题吸收。这是由法律评价的一致性决定的。易言之，当知识产权法认为AI表演非法时，我们可以一并认为AI表演侵犯自然人的声音权；当知识产权法认为AI表演合法时，我们应当一并认为AI表演不侵犯自然人的声音权。

声音权问题的附随性，同样表现为仅研究声音权问题缺乏理论意义。对他人声音的使用为AI表演中的“训练”和“合成”环节。正是因为单独评价“训练”或单独评价“合成”缺乏理论意义，所以单独评价对他人声音的使用也就缺乏理论依据。在法律解释上，我们可以认为“训练”和“合成”中直接使用他人声音违法。我们也同样可以认为，“训练”得到的是音色模型，声音权的保护不及于音色；“合成”是对他人表演的演绎，而演绎同样并非表演者权的内容。在合法与违法的价值判断上，仅仅从人格权法的价值取向上，我们无法做出适宜的判断。至少在目前来看，并没有一个自然人歌手声称自己的人格利益受到侵犯。当人格权法无法独立做出该价值判断时，我们又不得不依赖知识产权法对AI表演的定性。

AI表演的定性问题，直接表现为AI表演这种模仿特定人行为的合法性问题。该问题亦可更加准确地表述为AI表演及其录音的制作者（行为人）、词曲作者、目标歌手、被覆盖歌手、社会公众的法律关系问题。在众多的关系中，AI孙燕姿与孙燕姿的法律关系无疑最为核心、最为密切。在多数学者和新闻工作者认为AI表演有侵犯著作权之嫌时，张伟君教授认为AI表演合法，指出既然真人模仿孙燕姿的声音唱歌，不会侵害其原表演者权利，那么，AI模仿孙燕姿声音唱歌，同样也不会侵害其表演者权利。的确，国内外模仿卓别林、迈克尔·杰克逊、玛丽莲·梦露的表演行为司空见惯。在德国著作权法上，模仿艺术表演并不侵犯表演者的权利。美国版权法则通过 “改造性使用”（transformative use）等制度实现了相同的制度效果。在我国已公开的裁判文书中，也没有因为模仿他人表演而侵犯表演者权利的判决。所以，套用著作权法的原理，在逻辑上的直观表现就是：任何人都可以自由地模仿他人表演，并不侵犯表演者的权利，那么，行为人利用AI孙燕姿来模仿孙燕姿的表演，也不侵犯孙燕姿的权利。但是，这个结论恰恰是有问题的。这个问题的根源在于AI技术。

二百多年前的康德也遇到过类似的著作权问题：既然牧师不能阻止听众抄写他的布道，那么他有什么理由阻止第三人印刷他的颂歌呢？这个问题的当代版本就是：既然任何自然人可以自由地模仿表演者的表演，那么为什么第三人不能通过AI孙燕姿来模仿孙燕姿的表演呢？当这个问题找不到答案时，那么AI表演就应当是合法的，如同第三人翻印颂歌的合法性。康德给出的答案如下：书是作者向公众说话；正版的出版商是经过作者授权，以作者的名义向公众说话的人；盗版的行为是未经作者同意，而以作者名义向公众说话，因此违法。显然，康德的回答已经与现代著作权法的规定相去甚远。当我们在二百多年后再回答18世纪的问题会发现，之所以抄录合法而翻印非法，并非作者说话的问题，而是技术差异。正是印刷术与抄录之间质的不同，导致了盗版翻印的非法性。当我们将这个答案套用在AI表演问题上，会发现：自然人模仿的表演与AI模仿的表演在技术上也存在质的不同。当AI可以数分钟翻唱一首歌、数天翻唱上千首歌时，将AI表演等同于自然人表演的观点未必是适宜的。

AI表演的定性虽然是与AI技术直接相关的问题，但本质上仍然是一个价值判断的问题。有一种研究倾向是直接套用著作权法的具体规定，得出是否侵权的结论。这种倾向与其说是学理上的研究，不如说是实务上的探讨。当技术发展到需要法制回应时，这种倾向下的研究将难以找到适宜的答案。AI表演的知识产权问题即如此。我们当然可以认为AI孙燕姿对孙燕姿的模仿侵犯了孙燕姿的某种权利，但现实中却没有任何一个歌手反对AI孙燕姿。其他歌手对孙燕姿的态度与其说是同情的，不如说是羡慕的。那么认为AI孙燕姿侵犯了孙燕姿某个权利的观点，又有多大意义呢？对该问题学理上的探讨，应当先在价值判断上对相关利益主体进行分析，选择合适的利益分配方案，以解决产业需求问题。然后，考量现行法律制度，分析不同制度工具在实现该利益分配上的优劣，以解决制度供给问题。

二、产业需求：AI表演的利益分析

以主体为标准，对AI表演涉及的相关利益进行考察，是最直接可行的方案。AI表演涉及的权利主体包括词曲作者、被翻唱的表演者、录制者、目标表演者，涉及的行为主体包括SO-VITS-SVC软件的开发者、实施AI表演的行为人和社会公众。其中，最核心的主体为表演者、录制者、行为人和社会公众。本文据此以产业需求为视角分别探讨AI表演对这些民事主体的影响及制度应对。当AI表演涉及相应的产业需求时，法律应当考虑如何应对；当AI表演与产业需求无关时，这就是知识产权法不应关注的小事。

（一）词曲作者

著作权法上，AI表演涉及的音乐作品指的是词曲。词曲作者是真正意义上被称为作者的群体，享有的权利是狭义的著作权。在学理解释和制度安排上，表演者和录制者的邻接权都应当弱于词曲作者的著作权。但是，现实恰恰相反。多数词曲作者并不能以创作谋生。作曲家王宁曾言：“词曲作者的版权收入少得可怜，完全可以忽略不计。”如果说“知识产权制度是创造者获取经济独立的权利宪章”，那么这里的创造者目前肯定不能包括词曲作者。因此，词曲作者对AI表演等AI技术是最宽容的。不论是AI表演，还是AI作词作曲，都不会让词曲作者失业，因为他们无业可失。词曲作者既不操心AI技术，也不操心被侵犯著作权。在一些有影响力的音乐著作权纠纷中，词曲作者都是“不在场”的。行情如此，词曲作者即使提起维权诉讼，多数情形下获得的赔偿也是可有可无的。更何况，在音乐行业中，词曲著作权被录制者“买断”的情形也很常见。所以，对词曲作者而言，AI表演是别人的事情，与他们无关。

然而，AI表演最可能侵犯的权利恰恰是音乐作品的著作权。如果说目标歌手的音色、原表演与原录音的演绎尚且存在自由利用的可能，那么AI表演永远无法规避对音乐作品的使用。《著作权法》第42条第2款规定了翻唱的法定许可。一般认为，翻唱的法定许可是为了鼓励更多版本的音乐表演，避免音乐的垄断。但是，该款的但书却规定了著作权人声明的例外，导致防止垄断的目的无法实现。如王迁教授所言，该规定“几乎丧失了存在的价值”。所以在制度上，著作权人对翻唱法定许可的规避，会直接导致AI表演违法。

从词曲作者角度来看，AI表演的影响仿佛是荒谬的。在名义上，词曲作者是名正言顺的权利人，有权直接否认AI表演的合法性，但这种否认并不符合法理；在实益上，AI表演是与词曲作者无关的事情，他们不操心也不应当操心AI表演的影响。因此，本文认为，在AI表演问题的研究中，词曲作者应当是“不在场”的。在制度安排的价值判断中，知识产权法无需考量词曲作者的得失。

（二）表演者

作为表演者的歌手对其演唱的歌曲享有表演者权。在社会认知中，歌曲与歌手之间具有直接的对应关系，优秀的歌手与优秀的歌曲往往相互成就。AI表演是对目标歌手的模仿，AI声学模型的功能在于用机器实现对表演者的替代。可以说，AI表演与表演者的关系，是AI表演定性中最重要的关系。表演者可以以表演为业，比词曲作者具备更多的粉丝群体和变现途径。表演者的职业化固然会促进表演行业的发展，但也会使其更加直接地面对新技术的挑战。一百年前，在留声机等录音技术的挑战下，表演者成为失业最多的群体。西班牙学者利普希克将这种失业评价为“灾难性的”。从技术的挑战来看，录音技术的发展使机器可以再现表演者的声音，造成表演者的失业；AI技术的发展，使机器可以再现表演者的音色，同样也有可能会造成表演者的失业。从这个角度来看，AI表演与表演者之间的关系十分密切。

与AI有关的表演者包括两类：一类为目标表演者，即被AI模仿音色的表演者；一类为被覆盖的表演者，即提供音准、音调、音长等其他音乐要素的表演者。在AI孙燕姿表演的《好汉歌》中，孙燕姿是目标表演者，刘欢是被覆盖的表演者。当然，在直接从文本生成录音的AI制作流程中，并不需要一个被覆盖的表演者，仅需目标表演者就可以实现AI表演的录制。类似于词曲作者，被覆盖的表演者也没有操心AI表演的必要。在技术层面，被覆盖的表演者完全可以被绕过，技术层面绕过的可能性会导致被覆盖的表演者缺失诉求产生的依据。在社会认知层面，AI版本的新录音并不影响原唱录音的社会评价，也不会损害被覆盖的表演者的权益。在法制层面，改编、摄制等演绎权能仅限于著作权人享有的著作权，表演者权中并没有演绎权能。被覆盖的表演者无权禁止他人演绎自己的表演。权利人无权禁止他人演绎，也就必然导致无权禁止他人传播演绎后的表演。否则，这种无权禁止他人演绎的制度规范将无意义。所以，不论在学理上，还是在制度上，被覆盖的表演者都与AI表演无关。

提供音色的目标表演者才是与AI表演直接关联的民事主体。首先，AI表演与目标表演者之间具有直接竞争关系。不同的表演者之间会存在争取交易机会的直接竞争关系，因为二者同样是对音乐作品的表演。AI表演比其他表演者的竞争更加直接，因为二者对音乐作品的表演具备相同的音色。当AI表演足以替代目标表演者时，二者之间的竞争关系不言而喻。“蛋糕理论”可以形象地描述这种竞争关系，即AI表演抢占的市场就是目标表演者失去的市场。当然，仅从效率和价格而言，目标表演者永远竞争不过AI表演，如同表演者竞争不过留声机、抄录者竞争不过印刷机。从机器对人的替代程度来看，AI表演也足以被称为“灾难性”的技术进步。其次，AI表演与目标表演者之间是相互成就的关系。歌手与歌曲的对应关系可以延长至歌曲的受众或粉丝群体，形成“表演者－表演－粉丝”的关联性。这种关联性会随着表演者知名度的提升而加强。在现代社会，表演者并不仅可以通过录音营利，还可以通过演唱会、商业演出、广告代言、直播带货、综艺节目等方式营利。不论通过何种方式营利，表演者的收益都与其知名度正相关。表演者的粉丝越多，其AI表演的制作就越可行；AI表演越知名，其目标表演者就越受关注。如同盗版会增加正版的销量，AI表演与目标表演者也可以是相互促进、相互成就的关系。也正是基于这种关系，目前很少有歌手反对AI表演。最后，AI表演严重依赖目标表演者。如同“后现代必须吃现代的饭”，AI表演也必须吃目标表演者的“饭”。在制作流程上，先有优秀的目标表演者，才有模仿目标表演者的AI表演。目标表演者的配合程度也会直接影响AI表演模仿的近似程度。在受众方面，表演是面向受众的表演，粉丝群体是表演者的“衣食父母”。AI表演与目标表演者的粉丝群体恰恰是重合的。受众对目标表演者的情感也会映射在AI表演之上。AI表演的传播程度直接受限于目标表演者的业务水平和知名程度。在成本与效率上，AI表演可以远超目标表演者，但AI表演永远不能脱离目标表演者而存在。

综合以上三点来看，AI表演仿佛是目标表演者的作品。“作者－作品”之间的关系亦如此，作品的传播可以替代作者说话、作者与作品之间相互成就、作品依赖作者而存在。如果我们信奉著作权的人格理论，认为作品反映人格、作品在作者人格的延长线上，那么也就完全有理由认为AI表演反映目标表演者、在目标表演者人格的延长线上。尽管AI表演并非由目标表演者制作完成，但二者之间的紧密关系如同目标表演者“创造”了AI表演。受众不关心谁制作了AI表演，只关心AI模仿了谁。尤其在对AI的宣传和社会认知中，AI表演的声学模型仿佛成为了一个像目标表演者的虚拟人。目标表演者与AI表演也就有了类似于“作者－作品”之间的关系。

就目前AI表演及其商业模式的发展来看，AI表演提升了目标表演者的知名度，却未实际减少目标表演者的收益。但AI表演减少目标表演者收益的情形并非不可能出现。而且，模仿冷门歌手与模仿热门歌手也会有所不同。热门歌手未必会有冷门歌手提升知名度的需求，反而会有因此被淡化的风险。在其他形式的作品上，AI与作者之间的竞争和替代关系已经十分明显。例如AI画家会让画家遭到降薪解雇，AI程序员会让程序员失业，AI模仿贝多芬、肖邦等人的古典音乐足以以假乱真。当然，目前来看，AI表演减少目标表演者收益的情形仍然有待观察。所以，从表演者的角度来看，目标表演者与AI表演有着复杂而又密切的关系，AI表演既依赖目标表演者，又会与目标表演者竞争。在学理上，目标表演者有控制AI表演的理由。但目前来看，AI表演的发展仍然是AI表演与目标表演者相互成就的阶段，孙燕姿等目标表演者并没有动力去控制和阻碍AI表演。

（三）录制者

不论是目标表演者、被覆盖的表演者，还是AI表演，其成果都需要以录音的形式固定和传播。录制者就是对录音录像享有权利的邻接权人。虽然AI表演也会涉及录像，甚至视听作品，但就AI表演与邻接权的核心问题而言，涉及的权利对象主要是录音，而非录像或视听作品。所以这里的录制者，主要是指录音制作者。与词曲作者、表演者不同，录制者才是AI表演影响最大的人，但他们恰恰是容易被学界忽略的群体。

录制者是基于录音而享有权利的人。录制者享有录制者权，并非基于录制者的身份，而是基于其录制行为，即制作完成录音的行为。当录音制作完成后，录制者就对其制作的录音享有录制者权。录制者权利范围的大小，取决于录音范围的大小。本文认为，不论利用留声机，还是利用AI声学模型，其制作的成果都应当被认定为录音。尤其是不同技术手段下的成果无实质性差异时，以是否利用AI技术来区分成果是否构成录音的方案，既不可行，也无必要。如果说作品的认定尚有自由意志和人格因素的顾虑，那么依据邻接权的法理，录音的认定无需顾及录音公司的人格。利用AI技术制作新录音的人同样可以被视为录制者，这并不存在学理上的障碍。

据此，AI表演涉及的录制者包括两类：一类为被覆盖的原录音的录制者；一类为利用AI表演制作新录音的录制者。前者一般是传统的录制者，包括环球音乐、索尼音乐、华纳音乐等大型唱片公司和从事录音业务的小型文化传播公司。这些传统录制者是现有录音产业链上最核心的一环。后者一般是使用AI软件的行为人，平台个人用户居多。这些新的录制者是松散的、个体的，也未形成相应的产业链和产业需求。如果说有制度需求的话，这些新录制者们最大的诉求就是保障其创作自由和言论自由。

传统录制者是AI表演的反对者。例如环球音乐公司认为，AI合成歌曲违反了版权法，要求苹果、YouTube、亚马逊等平台采取断开链接等技术措施。美国唱片协会等组织甚至建立了艺术家联盟，以抵制AI表演。环球音乐公司的发言人甚至形象地说，“音乐行业中所有的利益相关者希望站在历史的哪一边：是站在艺术家、粉丝和人类创造性表达的一边，还是站在深度伪造、欺诈和拒绝给予艺术家补偿的一边？”对此，我国的传统录制者并没有直接表态，似乎还在观望抑或等待官方表态。

传统录制者对AI表演的反对与其商业模式密切相关。就目前的商业模式而言，传统的录制者主要出现在被覆盖的录音上，而非利用AI表演制作新录音的行为人。缺投资、缺技术、缺团队、缺管理的平台用户都可以完成AI表演的录制和传播，我们没有理由认为传统录制者在AI表演的使用上存在投资、技术、团队、管理等方面的不足，以至于无法完成AI表演的录制。传统录制者对待AI表演的态度，与不同主体的行为预期有关。大公司倾向于守正，个人和小公司则倾向于冒险。面对AI表演，大公司倾向于回避，回避的制度诉求是反对。目前来看，在AI表演方面，最积极的是平台个人用户，其次是“期音科技”等小型录音公司，最消极的是环球音乐公司、华纳音乐公司等具有较大影响力的传统录制者。

人的行为会受到制度的指引。“法学确立的正义标准也在策划一种生活，什么是合法、什么是非法，以及由此导致的行为后果，必然会影响人的行为选择。”在AI表演问题上，什么合法、什么非法，学界尚且争议颇大，立法者更不便定论。因此短期来看，AI表演必然会引起录音行业的混乱和纠纷。当混乱和纠纷需要解决时，司法者也就不得不去判定什么合法、什么非法。判定合法与非法的依据，固然会涉及过去的商业习惯和行业惯例，但更应当着眼于录音产业的未来。正是因为法律的判断会直接影响录音产业未来的发展规模和模式，所以法律预期的未来录音产业决定法律当前如何判断。

AI表演的录制有产业化的可能。首先，相较于目标表演者的表演，AI表演成本更低，效率更高。在产业发展上，低成本和高效率意味着AI表演在产业应用上的生命力。其次，AI表演与目标表演者的表演之间存在细微不同。目前，AI表演常被评价为没有灵魂、没有情绪。有无灵魂和情绪，是通过换气、音颤等细微差异呈现的。但这种细微差异也同样可以理解为：目标表演者与AI表演存在不同的细分市场。最后，AI表演延展了目标表演者的表演，带来了新的市场。当目标表演者已经死亡或无法表演时，AI表演可以实现替代表演的效果。市场对邓丽君、张国荣、猫王等已故歌手的新歌，也并非没有期待。

仅仅倡导创作自由无力引导AI表演的产业化。目前利用AI表演制作新录音的行为人主要是平台个人用户。与录制者的法律属性相较，该群体更接近社会公众。不论是否对新录音赋权，都不会影响该群体的生存状态。也许在文学艺术价值上，该群体会影响到当代文化的审美和发展，但AI表演的产业化注定与该群体无关。如果必须顾及该群体的权益，那么在制度安排上主要是考量创作伦理和创作自由。但是否顾及创作伦理和创作自由，都与AI表演的产业化无关。

AI表演产业化的制度需求之一是明确AI表演新录音的录制者权。依据邻接权的通说，设立录制者权是为了保护录音制作中的劳动和投资。录制者享有控制录音传播的权利，是录音产业需求的必然。如果缺失录制者权，任何人都可以随意复制其录音，那么录音产业将荡然无存。AI表演带来的新录音亦如此。在AI表演的新录音上缺失录制者权时，录制者就没有控制新录音传播的可能，录制者的劳动和投资也就缺乏保障。因此，AI表演新录音的录制者权是AI表演产业化最核心的制度需求。

AI表演产业化的另一个核心制度需求是创设AI表演的“表演者权”。有学者认为，AI表演不是人的表演，所以不应当受到表演者权的保护。这种观点忽视了AI表演产业化的制度需求。之所以AI表演产业化需要“表演者权”，是因为单一的录制者权无法维系AI表演的产业秩序。对音乐录音的受众而言，直观上贡献最大的是表演者，而非录制者。表演者可以通过录音被受众识别，录制者却不可以。因此，在制度配套上，录制者权的实现需要表演者权的配合。当行为人非法复制发行录制者的录音时，录制者在外观上无法判断该录音是否源于自己，但可以在外观上识别该录音是否源自表演者。所以，如果在AI表演的新录音上设立录制者权，那么作为配套，就应当同时在AI表演设立“表演者权”。

AI表演是目标表演者声学模型的利用，是没有表演者的“表演”，无从设立表演者权，所以只能通过其他制度实现“表演者权”的制度功能。从我国现有制度来看，目标表演者的声音权、禁止对目标表演者的淡化都可以实现“表演者权”的制度效果。因此，本文在制度供给部分探讨AI表演上“表演者权”的保护路径。

（四）其他主体

除了词曲作者、表演者和录制者外，AI表演涉及的主体还包括AI软件的开发者和社会公众。总体而言，由于AI软件开发者和社会公众离AI表演的行为略远，法律也无需专门为其设立一项权利。

AI软件的开发者处于整个AI表演相关产业的最上游，对AI技术的发展和应用发挥着最根本的影响。SO-VITS-SVC等AI软件都是开源软件。在著作权法上，这些开源软件是开发者的作品。对AI软件的开发者而言，相较于以此营利，更担忧因此侵权。为了避免道德和法律上的责难，开发者表示：“这个项目是为了让开发者最喜欢的动画角色唱歌而开发的，任何涉及真人的东西都与开发者的意图背道而驰。”基于技术中立原则，AI软件的开发行为可以豁免侵权法律责任。SO-VITS-SVC等实现AI表演和录制的软件的确可能会诱发欺诈、混淆、淡化等侵权行为，但同样也会给受众带来新版本的录音，甚至会有益于文学艺术及相关产业的发展。该技术同时具有合法和非法用途，因此并不能直接认定该技术违法。依据技术中立原则，SO-VITS-SVC及类似于软件的开发者可以免于承担侵权责任。在软件开发者的著作权保护方面，SO-VITS-SVC等软件的开发者未加技术措施地发布该软件的行为应当视为对社会公众的赠与。该行为的性质相当于专利法上的“捐献原则”。社会公众对该开源软件的使用行为，不宜被认定为侵犯著作权的违法行为。不过，此问题也并非AI表演的核心问题。从AI表演的产业化出发，AI软件的开发行为应当依附录音制作行为。AI表演和录制的产业化需要将AI表演和录制融入传统的录音产业之中。作为技术基础的各类AI表演和录制软件，只有融入录音产业之中，成为产业链上的一环，才能实现盈利和可持续性发展。这种融入只能通过录制者与AI软件开发者之间的合同行为实现。

与处于AI表演产业链最上游的软件开发者对应，社会公众处于AI表演产业链的最下游。在“音乐作品－表演－录音－受众”和“AI软件－目标表演者－AI表演和录音－受众”的产业链上，以表演者的粉丝为主要群体的社会公众处于最终端的受众位置。社会公众既是一个个分散的、具体的消费者，也是有一定共同认知、有着社会影响力的社会群体。总体而言，法律对社会公众并不苛责。在实然上，一方面，权利人难以向一个个分散的个人维权；另一方面，社会公众在一定程度上是产业链的“衣食父母”，其倾向性评价会影响产业链各方的收益。在法律制度上，知识产权法等法律也为社会公众的行为自由保留了合理使用、防止滥诉等制度。受制度的引导，在道德评价上，社会公众的行为自由也具有一定的正当性。

在AI表演的知识产权问题上，行为人具有鲜明的社会公众色彩。在AI表演的知识产权问题中，利用AI表演录制新录音的行为人具有三重身份：一是制作新录音的录制者。但是，录制者权并不会给一个个分散的行为人带来实益。二是利用AI表演录制录音的行为人。行为人的身份会给其带来侵权的法律风险。三是个体化、分散化的个人，兼具目标表演者粉丝和受众的特点。这使得行为人具备社会公众的色彩。在现代社会的创作形态上，“二次创作”的行为人兼具创作者、潜在侵权者、社会公众的三重身份。知识产权法对这三重身份的评价不同。如果说行为人社会公众的身份增加了行为的合法性，那么其潜在侵权者的身份就减弱了其行为的合法性。知识产权法对这三重身份的不同评价，导致知识产权法对行为人行为的评价需要引入其他价值判断因素。本文认为可以引入创作伦理的判断因素，基于创作伦理，增加行为人的行为自由。

社会公众的利益诉求具有文化本位和维护创作伦理的价值基础。德国学者拉德布鲁赫将法律的价值取向分为个人价值、集体价值和文化价值三种。行为人和社会公众对行为自由和创作自由的诉求具有文化价值。文化价值视角下，文化处于核心地位，作者、作品、传播成果等都是实现文化价值的工具。不论行为人的新作品、新录音是否违法，只要增加了文化价值，其保护就具有正当性。但著作权法主要关注行为的合法性，较少关注侵权作品是否有益于实现文化价值。互联网加持下的后现代主义文学艺术创作仿佛是加缪笔下的“局外人”，与著作权法格格不入。近年来常见的戏仿、二次创作、弹幕评论等问题，都彰显了著作权保护与创作伦理之间的紧张关系。如果依据《著作权法》第1条规定，著作权法有“促进社会主义文化和科学事业的发展与繁荣”的立法目的，那么为实现这个目的就应当适当减少著作权法对创作伦理的违背。基于此，本文认为，在AI表演的知识产权问题上，不论选择何种保护路径，都应当为创作自由留下必要的空间。

三、制度供给：AI表演的保护路径

为了回应AI表演产业化的制度需求，应当在AI表演的新录音上设立录制者权，在AI表演上设立“表演者权”。新录音与传统录音之间的差别在于录制过程中是否使用了AI软件，而非录音成果的表现形式，将传统的录制者权扩大至AI表演的录音之上，并无理论上的障碍。理论上的障碍主要是AI表演上如何设立“表演者权”。如果我们希望像保护传统录音产业一样保护AI表演的录音产业，那么就应当在AI表演上设立“表演者权”，如同在自然人的表演上设立表演者权。但是，在AI表演上设立“表演者权”存在较多法律技术障碍。直观上，AI表演并非自然人的表演，而是AI声学模型的使用结果。AI声学模型不是民法上的人，不能成为权利和行为的主体。能够成为权利和行为主体的只能是目标表演者或者实施后续录制行为的录制者（包括行为人）。

在目标表演者和录制者中，只有目标表演者才能成为AI表演上“表演者权”的权利人。一方面，实施后续录制行为的录制者已经可以享有录制者权，再设立“表演者权”会造成制度的浪费。AI表演的录音本身，既无法直接指向传统录制者，也无法直接指向行为人。不论是行为人还是录制者都承担不起表演者权的制度功能。另一方面，AI表演的音色直接指向目标表演者。对市场和受众而言，目标表演者与AI表演具有天然的、直接的、足够权利外观的联系。这种联系使得新录音可以直接指向目标表演者。通过目标表演者的授权，录制者可以获得表演及其录音的控制权。当第三人利用同一目标表演者的AI表演进行录制和发行时，录制者可以仅凭借录音本身就确定侵权行为的存在。兼顾我国现行制度，将AI表演的“表演者权”赋予目标表演者有两种路径：一是声音权等人格权的保护方式；二是目标表演者的反淡化保护方式。如果将知识产权的保护分为设权模式和竞争法模式，那么声音权路径为设权模式，反淡化路径为竞争法模式。不同模式下，AI表演上“表演者权”的实现各有优劣。

（一）声音权路径

AI表演是对目标表演者声音的模仿，因此最直观的路径就是声音权等人格权路径。有学者甚至直接认为，“虚拟人的本质仍在于对人格要素的商业利用”。该路径下，目标表演者对其声音享有声音权，可以基于声音权控制AI表演的利用、录制和传播。此外，声音权路径还蕴含了一般人格权的兜底保护。易言之，即使裁判者认为AI声学模型不属于目标表演者的声音，目标表演者也可以基于一般人格权获得救济。

《民法典》第1023条第2款规定：“对自然人声音的保护，参照适用肖像权保护的有关规定。”依据该款，保护声音权的具体民事规则适用肖像权的规则。依据《民法典》第1018条第1款，肖像权是指自然人依法制作、使用、公开或者许可他人使用自己肖像的权利。最高人民法院将声音权解释为自然人依法录制声音、使用声音、公开或许可他人使用自己声音的权利。但是，在权利对象的第一性上，肖像与声音存在质的不同。依据《民法典》第1018条第2款，肖像并非自然人的容貌五官，而是“通过影像、雕塑、绘画等方式在一定载体上所反映的特定自然人可以被识别的外部形象”。因此，肖像一定是被固定在载体上的作品，声音则是自然人通过声带发出的、可识别的空气震动，而非固定在载体上的录音。在前AI时代，行为人可以制作肖像，却不可以制作声音。因此，在对声音权的解释中，声音权的内容包括录制声音，而非制作声音。

AI技术的发展使得制作声音成为现实。从声音权的角度而言，通过训练AI软件得到目标表演者声学模型的过程，就是制作声音。制作目标表演者的声音，是通过AI声学模型模仿目标表演者的音色实现的。虽然通过辨别，公众可以发现孙燕姿与AI孙燕姿之间细微的不同，但AI孙燕姿无疑直接指向孙燕姿。在肖像识别的技术上，人脸识别精度并不要求100%；在肖像权的保护制度上，肖像与权利人的容貌之间也无须完全一致。既然声音权的保护类推适用肖像权的规则，那么只要行为人制作的声音直接指向权利人，就可以落入声音权的保护范围。

声音权路径的障碍在于，传统上不论是制作声音，还是模仿音色，原则上都不属于声音权的保护范围。这种传统是基于模仿声音限于自然人、制作声音不可行的技术背景。当AI表演技术广为流行时，这种传统就明显不适宜了。如果坚持声音权不包含制作权能，那么目标表演者就只能诉诸一般人格权的兜底保护，认为行为人对目标表演者音色的模仿，侵犯了目标表演者的一般人格权。因此，可以认为，在扩张人格权保护的历程上，声音权保护路径或者一般人格权保护路径的本质就是将声音权的对象从权利人自己的声音扩张至对自己声音的机械模仿。

将声音权的对象从自然声音扩张至AI模仿声音的正当性在于，需要在AI表演上设立“表演者权”以促进AI表演与录制产业的发展。既然这种扩张的目的在于促进产业发展，那么与促进产业发展无关的制作声音的行为就应当被排除于权利保护范围之外，例如个人非商业性的创作。《民法典》第1020条规定了个人使用、新闻报道、执行公务、展示特定环境、维护公共利益或权利人合法权益五种肖像权例外的情形。类推适用于AI表演上的声音权，对创作自由的保护主要适用于个人使用的情形。

声音权路径的优势在于制度成本较低。不论是声音权路径还是反淡化路径，都需要对现行法制作出改变。但是，将声音权的对象从权利人的自然声音扩大至被AI模仿的声音，与现行法律法规及司法解释的明文规定毫无龃龉。这意味着，声音权路径的实现，无需修改法律法规，甚至无需出台专门的司法解释，仅通过指导性案例或最高人民法院公报案例就可以初步实现全国法院的统一适用。考虑到此类案件最可能出现在经济较发达地区，社会关注度较高，各地裁判不一的情形也会较少。所以，《民法典》规定的声音权可以为AI表演录音产业的发展提供最及时的法制保障。

声音权路径的弊端之一，是将权利主体范围从目标表演者扩大至普通的自然人。声音权保护不区分自然人与表演者。因此，为了保护目标表演者，不得不将权利扩大至全部自然人。但声音的识别度远低于肖像、个人信息等人格要素，并非所有自然人的声音可以被公众识别。这种扩大保护一方面造成了制度上的浪费，另一方面也可能诱发权利人滥用权利。毕竟，当表演者以外的自然人要求扩大自己声音权的范围时，就明显超出了权利设置的目的。

声音权路径的另一个弊端在于其人格权属性。人格权的法律路径会增加录音产业中声音权的交易成本。“人格权法律关系的客体，具有‘整体性’的特征。”作为人格权的声音权，不是自然人对其特定声音的权利，而是对已有和将有的全部声音的整体性权利。AI表演上需要的是特定“表演”上的“表演者权”，但声音权路径保护的是表演者全部声音的声音权。特定与整体之间的差异，既增加了表演者与录制者之间的交易成本，也增加了法律适用的解释成本。基于声音权的整体性，声音权不能被处分、转让或设立负担。在许可合同中，对表演者全部声音的长期许可也可能被认定为无效。因此，只有特定化的声音才能成为合法许可的对象。但是，行为人使用目标表演者的声音恰恰是非特定的。获得特定声音许可的录制者，为什么有权利制止非特定声音的使用？这些龃龉既增加了表演者与录制者之间的交易成本，也增加了录制者的维权成本。此外，人格权制度的价值取向是倾斜保护权利人，维系其人格尊严。倾斜保护表演者人格的制度，同样也会增加录音产业的交易成本。因此，对录音产业的发展而言，声音权路径是不经济的。长远来看，对录音产业而言，相较于以往表演者权与录制者权的组合规定，声音权与录制者权的组合规定并非善制。

（二）反淡化路径

AI表演上“表演者权”的另一条保护路径是反淡化路径。在反淡化路径下，行为人对AI表演的录制和传播被视为对目标表演者表演和录音的淡化，是一种违背诚实信用的不正当竞争行为。基于合同和商业习惯，录制者可以获得目标表演者的授权，禁止他人利用AI表演对目标表演者表演的淡化。

反淡化理论源自驰名商标保护制度。驰名商标的反淡化保护最早为美国学者Schechter于1912年在《商标保护的理论基础》一文中提出，以解决商标的间接混淆问题。20世纪中叶之后，美国各州的商标法中陆续出现反淡化的规定。1995年，美国国会通过了《联邦商标淡化法》（Federal Trademark Dilution Act）。我国2009年颁布的《最高人民法院关于审理涉及驰名商标保护的民事纠纷案件应用法律若干问题的解释》（法释〔2009〕3号）第9条第2款引入了反淡化制度。依据该款，行为人的商标与权利人的驰名商标之间即使不存在直接或间接混淆，但减弱了驰名商标的显著性（冲淡）、贬损驰名商标市场声誉（丑化），或者不当利用驰名商标市场声誉（不当利用），都属于淡化驰名商标的侵权行为。

本文认为，为了应对AI技术带来的挑战，反淡化的保护制度应当从商业标志权扩张至智力成果权。目前，反淡化的保护制度仅局限于驰名的商业标志，既与非驰名的商业标志无关，也与作品和传播成果无关。在AI技术之前，模仿秀等对特定人的模仿行为不会过多地损害该特定人的合法权益，也不会影响产业秩序。但技术的发展导致AI对特定人的模仿足以实现产业化和规模化。大规模的模仿必然会冲淡权利人的智力成果和预期收益。这使得权利人具有了禁止AI模仿的正当理由。如果说古登堡印刷术是著作权制度产生的技术基础，那么对特定人模仿的AI技术就是对智力成果反淡化保护的技术基础。在作品和传播成果的保护方面，淡化与抄袭、复制的侵权行为相较有两个特点。

其一，淡化行为的认定不以混淆为要件。虽然基于淡化的传统理论，淡化以不混淆为前提。但是，对反淡化保护而言，让原告或被告证明混淆或不混淆没有意义。举轻以明重，在具体案件中，不混淆尚且因淡化而侵权，混淆就更不会被免责。实践中也可能存在一部分公众产生混淆、另一部分公众产生淡化的情形。所以，与其说淡化侵权的认定以不混淆为前提，不如说淡化侵权的认定无需混淆。反淡化路径下，行为人录制AI表演行为的合法性与是否产生混淆的可能性无关。以往对模仿行为的禁止，大多基于混淆理论，当行为人的表演与目标表演者的表演之间发生混淆时，行为人的模仿行为违法。例如“假田震案”中，刘某以营利为目的冒充田震进行商业演出，被法院判以诈骗罪。但是，目前的AI表演一般都会在目标歌手姓名前加“AI”，如“AI孙燕姿”“AI周杰伦”，并标注在显著位置以示区别。从AI表演的创作实践来看，AI表演对目标表演者的表演既没有造成混淆，也没有造成丑化，只是可能降低了目标表演者与其表演之间的“显著性”。AI表演中行为人实施的行为正是反淡化保护所禁止的冲淡行为。目标表演者控制AI模仿行为的理由在于对损害的制止，在于避免表演者与其表演之间联系强度的降低。对目标表演者的保护而言，反淡化理论比混淆理论更符合客观情况。现代商标法中的混淆理论已经从直接混淆扩张至间接混淆。在间接混淆的理论下，相关公众认为原被告之间存在业务往来、认证许可等关系时也可以认为存在混淆。但现有的AI表演实践中，AI表演未经目标表演者授权的情形是常态。公众不可能认为AI表演与目标表演者之间存在业务往来、认证许可等关系。法制的理论和规定都不宜与实际情况相悖。而在反淡化理论下，只要公众对孙燕姿与AI孙燕姿之间存在“联想”，就可能降低孙燕姿的显著性。相较于间接混淆，反淡化所要求的“联想”更符合AI表演的实际情形。

其二，反淡化的保护限于驰名。并非所有商业标志都可以获得反淡化的保护，也并非所有的表演者都应当予以反淡化的保护。淡化驰名商标的行为之所以违法，是因为其降低了驰名商标高度的显著性。因此，反淡化所保护的商业标志一般需要相关公众熟知。对未驰名商业标志的保护仅限于混淆的禁止，与淡化无关。如果将反淡化理论适用于AI表演，那么也就应当要求目标表演者具备相应的驰名状态。依据民法传统理论，法律事实包括行为、事件和状态。“驰名只是一种特定的事实状态，而不是一种先天的身份。”“商标可能一夜之间驰名，也可能在一夜之间消亡。”目标表演者的知名度亦如此。所以，受到反淡化制度保护的目标表演者应当正处于驰名状态。当然，在语言使用习惯上，驰名一词与作者、表演者等词并不搭配。一般而言，我们并不会说某人驰名，而是称呼其为知名表演艺术家、知名歌手、著名作家等。所以，在智力成果的淡化方面，用知名替代驰名更符合语言习惯。

AI表演对目标表演者的淡化属于同类淡化，因此目标表演者的知名度无需“家喻户晓”。王迁教授将驰名商标的淡化分为跨类淡化和同类淡化。二者需要的驰名程度有所不同。同类淡化时，相关公众是重合的；跨类淡化时，相关公众差异较大。因此，相较于同类淡化，跨类淡化要求商标具备更高的驰名度，甚至需“家喻户晓”。同类淡化时，商标的驰名度则无需“家喻户晓”，只需为相关公众熟知即可。就AI表演和目标表演者的表演而言，二者同属音乐市场，甚至具备相同的音色和风格，AI表演和目标表演者的受众与市场高度重合。如果我们在智力成果的反淡化保护中区分同类淡化和跨类淡化，那么AI表演对目标表演者的淡化应当属于同类淡化，而非跨类淡化。反淡化对目标表演者的保护应当要求其知名度达到为相关公众知晓的程度，相当于我国现行法制中关于驰名商标的规定。相关公众的范围包括目标表演者的粉丝、相关从业人员、音乐软件的活跃用户等。就相关公众而言，有相当一部分公众知晓目标表演者，就可以认为其知名。同时，只有目标表演者知名时，目标表演者和相应的录制者才有受到损害的可能，行为人的淡化行为也才有盈利的可能。

目标表演者知名的要求，将目标表演者限定为知名歌手等群体，将不知名的自然人排除在外。对普通自然人而言，其音色非表演和录音产业所需，并不具有保护的必要，因此法律无需关注AI表演对不知名自然人的模仿。从知名歌手与不知名自然人的区分来看，反淡化路径对权利人的保护会更加精准。相较于声音权路径，反淡化路径对公众的创作自由也更加友好。

相较于声音权路径，反淡化路径的另一个制度优势在于，可以将保护对象从表演扩展至作品。从目前AI技术的发展来看，AI除了可以模仿目标表演者的音色之外，还可以模仿目标作者的创作风格。当AI仅用3分钟就可以创作出具有毕加索、莫奈等特定画家风格的绘画时，就可能像AI表演冲淡目标表演者的显著性一样冲淡了目标作者的显著性。将反淡化保护范围从表演扩展至作品，在理论上是自洽的。但是，将自然人的声音权保护范围扩展至自然人的绘画风格，在理论上则比较怪异。

相较于声音权路径，反淡化路径的弊端在于理论和实践的创新成本。不论是法学理论还是法律制度，不论是中国还是外国，都缺失对智力成果的反淡化保护。一项新理论和新制度的孕育与发展，需要较高的理论成本和制度成本。新的理论指导实践需要学界的共识；新的制度得以运行需要修改法律法规。不论是学界共识还是法制成本，都会增加智力成果反淡化保护路径的难度。因此，短期来看，反淡化路径并不可行。声音权路径虽然弊端较多，却是近期切实可行的保护路径。

结语

古登堡印刷术替代手工抄写，成为著作权制度产生的技术基础；录音技术再现自然人的表演，成为表演者权和录制者权产生的技术基础；AI技术模仿目标歌手的音色、模仿目标作者的创作风格，同样会产生新的制度需求。为了实现AI表演和录制的产业化，AI表演和录制之上需要设立“表演者权”和录制者权。AI表演上“表演者权”的设立有声音权路径和反淡化路径两种路径。智力成果的反淡化保护更契合AI表演的产业需求，也更有利于维系公众的创作自由，但该路径需要高昂的理论和制度成本。短期来看，声音权路径虽然有较多弊端，却是及时、可行的保护路径。

共1条记录