先闻其声：AI声音侵权了吗？

斯嘉丽·约翰逊（Scarlett Johansson）曾在电影《她》中扮演了一款先进的人工智能操作系统萨曼莎（Samantha），在这部电影中：斯嘉丽·约翰逊“未见其人、先闻其声” ，她的声音温暖、富有表现力，成功地塑造了一个人性化又具有机器特性的角色。在许多年后的2024年，斯嘉丽·约翰逊发现ChatGPT-4o用于对话的语音助手Sky的声音与自己的声音高度相似，她认为OpenAI涉嫌未经许可克隆自己的声音，要求OpenAI下架Sky。

（图片来自网络）同样地是，在全国首例AI声音侵权案中：原告发现他人利用其配音制作的作品在多个知名APP广泛流传。在本案中，被告二为原告录制的录音制品的著作权人。法院认为：声音作为一种人格权益，具有人身专属性，对录音制品的授权并不意味着对声音AI化的授权，未经权利人许可，擅自使用或许可他人使用录音制品中的声音构成人格权侵权。

随着人工智能等高科技的发展，声音保护的需求越来越突出，也伴随着法律定性上的问题。一方面，声音具有无形性，如何界定构成对声音权益的侵犯？另一方面，在声音之上：不仅享有声音的人格权益，也享有著作权相关权益。如果需要对自然人的声音进行使用，是否必然要获得人格权和著作权的双重授权？本文将对此进行评述。

声音之独特性：声音保护的界定

蓬皮杜中心新媒体艺术首席策展人马切拉·莉丝塔（Marcella Lista）说：“声音如同液体般流淌，难以被限制或驻留，这正是其美妙之处。”声音的无形性赋予它丰富的层次和无限的想象空间，它不仅仅是一种表达工具，更是一种能够传递思想、情感和故事的媒介。具体而言：

1.声音权益是一种人格利益，参照肖像权的规定进行保护：根据《民法典》的规定，声音是一种人格利益，而非具体人格权，参照适用肖像权保护的规定。虽然声音是一种人格利益而非具体人格权，但是也应当适用人格权编的保护规则。声音具有以下人格特点：

声音具有独特性、唯一性的特点。自然人的声音可以通过声纹、音色、频率进行区分，每个人的声音都不可能与他人的声音完全相同。声音能能够给他人产生与该自然人有关的思想，可以对外展示个人的行为和身份。
声音具有无形性的特点。肖像是可识别个人身份的外部形象，具有有形性；而声音虽然也能识别主体的身份，但属于无形的身体特征，一般在反复多次或长期聆听等情形下，能够使他人识别出特定自然人。

目前声音权益多指人格权意义上的声音权益，下文将用声音权益统一指称人格利益上的声音权益。2.声音之上存在声音权益和表演者权双重权益：声音之上除了声音权益之外，也会存在邻接权上的表演者权。表演者权由表演者的精神权利和经济权利构成，是指表演者依法对其表演所享有的权利，即表演者许可或禁止他人利用自己表演活动的权利。简单来说，表演者只要对作品进行了表演，那么表演者即享有表演者权。比如歌手对音乐进行表演、配音演员对文字内容进行表演，都会对表演活动产生表演者权。当然，声音之上可能还存在个人信息、商标权等权益，本文对此暂不讨论。3.声音权益和表演者权都只保护自然人的声音声音又分为自然人声音和非自然人的声音。自然人的声音，是指自然人利用发声器官所产生的能够引起听觉的波。非自然人的声音如AI合成的虚拟偶像歌声、兵器的声音、动物的叫声等由自然界、动物或者其他物体所发出的声音。无论是民法典上的声音权益还是邻接权上的表演者权，都只保护自然人发出来的声音。因此，AI表演不会产生表演者权，除非AI表演实际上是真人表演的投射时，真人是表演活动的表演者，但是AI的表演可能会侵犯他人的人格权或者表演者权。可见：声音权益作为人格利益，受《民法典》保护，但不属于具体人格权。它具有独特性、唯一性、无形性的特点，可以展示个人身份，但识别性也较弱。声音之上包括声音权益和表演者权，后者赋予表演者对表演内容的控制权。这些权益仅限自然人声音，AI合成声音等非自然声音不产生声音权益和表演者权。

AI声音侵犯

声音权益的判断：可识别性1.以肖像保护为例：可识别性的认定因素声音权益参照适用肖像权保护的有关规定。《民法典》第一千零一十八条规定：“肖像是通过影像、雕塑、绘画等方式在一定载体上所反映的特定自然人可以被识别的外部形象。”肖像的保护不仅限于面部特征本身，还包括可以被识别的外部形象，即足以反映或者可以识别特定自然人的外部形象。

（图片来自网络）

在成都高新法院审理的易烊千玺与成都某生物科技有限公司肖像权纠纷一案中：被告在其微信公众号上发布了一篇商业推广文章，文章中发布了一张人物肖像剪影图片，文章中除肖像剪影外，还用文字描述的方式提供了大量人物线索，并且在该文章的精选留言区有大量留言均提及易烊千玺的名字。

在本案中，法院对该剪影具备可识别性的认定有以下理由：

即便被告对原告照片进行了加工处理，无法看到完整的面部特征，但剪影所展现的面部轮廓（包括发型）仍具有原告的个人特征，属于原告的外部形象。
案涉文章通过人物特征描述的“精准画像”，大大加强了该肖像剪影的可识别性。比如文章中提到的“主演的两部电影均超过十亿票房的青年演员”“以文化、专业双科第一的成绩考入中央戏剧学院表演系”。
案涉文章的留言部分可印证剪影的可识别性并具有诱导性。在文章下方评论区的精选留言；大量留言均评论该肖像剪影为易烊千玺。即便一时无法看出剪影系易烊千玺的阅读者在浏览到文章评论时，受评论影响，也会诱导其产生该剪影系易烊千玺的心理暗示。

可见：本案 “肖像剪影+人物特征描述+精选留言”模式具有明显的可识别性。单纯的剪影因其仅有轮廓，可识别性并不强，但如果对剪影有大量明确指向性的人物特征描述，再加之精选留言，使该剪影具有很强的可识别性。

2. 以斯嘉丽OpenAI纠纷为例：声音权益可识别性的判断

通过上述肖像可识别性的认定规则，我们可以看出可识别性的判断可以结合两个因素：一方面，应就形象/声音呈现之方法、特征、场合、相关文字说明等客观要件加以综合认定关联性；另一方面，个人的社会交往范围、社会知名度不同，应当考虑权利人的社会交往范围、社会知名度等。

以斯嘉丽·约翰逊与OpenAI的纠纷为例，我们可以从以下三个方面来认定Sky是否侵犯了斯嘉丽·约翰逊的声音权益：

首先，斯嘉丽·约翰逊的声音具有明显的个性特征，并且在社会上享有较高的知名度，这使得她的声音容易被公众识别和关联到她本人；
其次，OpenAI曾多次邀请斯嘉丽·约翰逊为ChatGPT 4.0系统配音，并且OpenAI的CEO山姆·奥特曼（Sam Altman）在个人X平台账号上发了一个词“her”，都可能让人联想到斯嘉丽在电影《她》中为聊天系统萨曼莎配音的角色。山姆·奥特曼公开表示是该电影的粉丝，这进一步强化了两者之间的关联性；
再次，我们还需要考虑声音的相似性，即Sky的声音是否与斯嘉丽的声音足够接近，以至于公众能够将两者联系起来。即便Sky的声音属于另一位使用自己语音的专业女演员，但如果通过技术手段模仿了斯嘉丽的声音，并且这种模仿达到了一定的可识别性标准，那么这也可能构成对斯嘉丽声音权益的侵犯。

可以想象，那些极有特色、为公众所熟知的明星或卡通人物的声音，因其独特的音质和广泛的知名度，自然具有相当的知名度和吸引力。相比之下，普通自然人的声音可能在识别性上相对较弱。因此，判断是否具有可识别性：一方案与自然人本身的知名度、影响范围有关；另一方面，也与声音的使用环境、频率以及与特定产品或服务的关联程度等因素有关。

识别效果影响

声音权益和表演者权的判断让我们再次聚焦首例AI声音侵权案的案件：在本案中，被告二已经获得了录音制品的著作权授权，但获得其授权的被告三将原告AI化的行为，被认定为侵犯人格权。这是否意味着使用声音必然需要获得声音权益和著作权权益的双重授权？我们认为，这与识别效果是指向表演内容，还是指向自然人的身份特征有关。

（图片来自网络）

在成都互联网法庭审理的孙红雷诉某游戏公司案中也涉及到该话题：本案中，被告未经授权，在其运营的网络游戏《西瓜摊主大战买瓜人》中使用了原告孙红雷在电视剧《征服》中的台词表演“你这瓜保熟吗？”在该案件中，法院区分了声音权益和一般人格权，认为本案被告使用其声音未指向孙红雷本人，不构成一般人格权侵权，但构成声音权益侵权，法院认为：

自然人的声音和肖像作为自然人的人格标志，具有人格权属性。二被告未经孙红雷本人同意，也未取得孙红雷许可使用的影视作品著作权人授权同意，在开发、制作、运营的游戏中使用其声音，构成声音权益侵权。
但游戏中人物形象设计来源于影视作品角色设定，在游戏制作中未明显偏离原剧设定。在客观表现上案涉游戏角色指向的是影视剧人物，一般公众的理性认知并未将反派形象的游戏角色识别为孙红雷本人的社会认识和评价，基于识别指向关系的中断，不构成一般人格权侵权。

根据法院的判决，我们可以观察到：法院在审理此案时，已经注意到案涉行为并未产生指向原告孙红雷本人的效果，也并非出于利用孙红雷个人名声的目的。因为孙红雷作为演员，在该电视剧桥段中的对话表达，并非其作为自然人的固有声音属性，而是根据剧情发展和角色设定的需求，经过精心策划和演绎的结果。这种对话的表达方式，包括特定的语气和语调，是电视剧创作团队经过共同讨论、设计并精心创作的一部分，故难以把该声音或台词表达归为孙红雷个人名下。然而，法院最终认定侵犯了声音权益，但没有认定侵犯其一般人格权。这一判决在逻辑上存在一定的矛盾性：即便声音权益不属于一般人格权，但仍属于人格利益的范畴，因此也要符合人格利益的特征，即使用内容需要和自然人身份特征产生识别性。我们认为：本案由于识别效果没有产生识别孙红雷本人身份特征的效果，不构成人格意义上的声音权益侵权。需要注意的是，本案孙红雷也难以这主张表演者权。在影视作品中，自然人的表演者权利往往会被影视作品权利所吸收。如《著作权法》第十七条规定：视听作品中的电影作品、电视剧作品的著作权由制作者享有，但编剧、导演、摄影、作词、作曲等作者享有署名权，并有权按照与制作者签订的合同获得报酬。根据著作权法的规定，视听作品虽然是由多位创作者（编剧、导演、摄影、作词）等合作形成，但著作权统一由制作者享有，其他作者仅享有署名权。举重以明轻，受到较高保护水平的作者都不能享有对其参与的作品保留除署名权之外的其他权利，那么演员作为表演者更不可能。因此，孙红雷也不能基于表演者的身份，单独主张表演者权。再退一步，即便孙红雷“你这瓜保熟吗？”这段台词表演可以被单独使用，本案被告也不是单独或仅仅只使用了孙红雷的表演。回到首例AI声音案中。被告二拥有原告录音制品的著作权，而被告三则是从被告二处获得了相应的授权，使用了原告的声音生成了案涉文本转语音产品。根据目前了解到的信息，我们可以作出以下推定：

首先，通过这些被告之间的相互证明，我们可以明确案涉AI化声音确实是基于原告的声音制作的；
其次，由于原告是从事配音特定职业的自然人，一定范围内的听众较易将该声音与该特定自然人产生一一对应关系；
再次，经当庭勘验，该AI声音与原告的音色、语调、发音风格等具有高度一致性。

综上，如果被告确实仅是使用原告的声音制作文本转语音产品，而非使用原告的表演内容，那么结合上述可识别性的认定，可以认定构成侵犯原告的声音权益。因为即便被告获得过原告录制的录音制品的相关著作权授权，但该项授权仅是授权被告使用原告录制的表演内容，这不代表原告许可被告单独使用原告的声音产生识别到原告本人身份特征的效果，从而侵犯原告的人格权益。

结语

由于声音权益属于相对新型的人格权益，其权益内容和边界在现行法律体系中尚存在一定的模糊性。尤其是随着数字技术特别是人工智能等技术的发展，声音的利用方式日益多样化。在判断侵权行为时，需要综合考虑声音的使用是否产生了识别性，以及识别的是身份特征还是表演内容，认定是否侵权以及侵犯何种权利。声音权益的保护既是法律问题，也是社会问题：它不仅关系个人的尊严和自由，也关系到艺术创作和文化多样性的保护。

本文采摘于网络，不代表本站立场，转载联系作者并注明出处：https://www.iotsj.com//kuaixun/3344.html

先闻其声：AI声音侵权了吗？

相关推荐

联系我们