聊天机器人生成内容的版权风险及其治理*
近年来,自然语言处理、深度学习、语音识别和模式识别等人工智能技术的稳步推进,推动了聊天机器人系统的高度发展。从苹果的Siri、微软的“小冰”到时下的ChatGPT(全称Chat Generative Pre-trained Transformer),聊天机器人成为互联网等多领域的热门应用。尤其是ChatGPT在人类反馈强化学习(Reinforcement Learning with Human Feedback,缩写RLHF)[1]等技术的加持下已经能够进行文字翻译、文案撰写以及代码撰写等工作,在金融、法律、医疗、教育等行业具有广阔的应用前景。然而技术的发展不可避免地与风险相伴,聊天机器人作为人类生产生活的工具,可能引发数据安全、隐私保护和知识产权等诸多领域的法律风险。尤其在以ChatGPT为代表的聊天机器人生成内容逻辑关联度不断提高,愈发接近于人类的常识、认知、需求和价值观的背景下,其生成作品的广泛传播和应用存在潜在版权风险,有必要加以识别和治理。
一、聊天机器人数据挖掘中的版权风险
数据是聊天机器人的发动机,数据的生成、收集和存储是以ChatGPT为代表的聊天机器人迭代进化的重要支撑。其中,数据收集是聊天机器人生成内容的第一步。
1.聊天机器人数据挖掘中的版权问题
聊天机器人作为人工智能产品,其生成内容是否具有可版权性是本文讨论的前提。多数观点认为弱人工智能和强人工智能阶段的人工智能只能作为服务于人类的工具[2],其生成物也只不过是人的生成物[3],生成内容在著作权法上可视为代表设计者或训练者意志的创作行为[4],只要他们满足独创性要求,即可能具备“可版权性”。[5]当然也有少数学者认为驱动人工智能生成的只是算法程序[6],不能体现创作者的独特个性,不能被认定为著作权法意义上的作品。[7]笔者支持多数观点,也即人工智能生成内容具有可版权性。在确定这一前提的基础上,本部分将讨论数据挖掘中的版权问题。
聊天机器人生成内容的智能化是在Transformer等核心技术的加持下,调用所学习的大量现成文本和对话集合,使其在不需要理解对话内容的情况下通过预测形成对话内容。当前ChatGPT所使用的GPT-3.5语言模型相关数据尚未公开,但其上一代GPT-3语言模型就已经需要挖掘千亿级参数加以支撑,不难猜测GPT-3.5的数据数量将更为庞大。这其中可能存在大量受版权保护的客体。但是,如果聊天机器人在挖掘数据的过程中无法辨认被挖掘对象的权利状态,权利人也无从知晓作品是否已经被挖掘使用,那么可能正如ChatGPT自己所承认的那样,即使已经尽可能减少侵犯版权的风险,但不能保证所有使用的数据都经过了原始作者的许可。
被挖掘数据构成作品的情况下受《著作权法》的保护,对作品的挖掘行为存在版权风险。一方面,尽管我国《著作权法》第二十四条规定了合理使用情形,但投资聊天机器人的主体通常为法人或非法人组织而非个人,不构成为个人学习、研究或者欣赏而使用他人已经发表的作品。此外,即使用于科研活动也仅限于少量翻译或者复制已经发表的作品,且其作品不允许公开出版发行,所以也难以构成适当引用的合理使用豁免。另一方面,即使挖掘者支付了一定费用来订阅相关内容,也有版权人认为机构付费订阅的内容只包括缓存、阅读以及在PDF文档中进行检索的权利,而不包括文本和数据挖掘。[8]由此便产生了相关版权问题。笔者认为,解决数据挖掘版权风险重在保障版权来源明确、合法,所以权利人可以通过robots协议、水印、标签等技术标识作品的权利状态,而挖掘者则可以增加对标识状态的检测程序用以保障合法来源。
2.版权风险在数据挖掘过程中的具体表现
在数据挖掘阶段,数据挖掘可能的版权风险具体表现为对作品进行复制和改编的版权风险以及使用数据库而产生的版权风险。我国《著作权法》第十条规定:复制权是以印刷、复印、拓印、录音、录像、翻录、翻拍、数字化等方式将作品制作一份或者多份的权利。聊天机器人在挖掘数据的过程中一般包括信息抽取、语义分析、关系计算及知识发现四个步骤。无论是将这些数据读入系统还是进行格式转换和数据分析,均涉及受著作权人控制的复制行为。[9]与此同时,我国《著作权法》规定了改编权,也就是改变作品,并创作出具有独创性的新作品的权利。聊天机器人在原样复制被挖掘数据的同时,还需要对目标文本进行识别和转码,转码行为是“改变、编排目标对象的表达形式,从而形成新的研究样本”[10]。可见数据挖掘过程中的转码行为与我国著作权法意义上的改编行为在很大程度上具有同质性。[11]因此数据挖掘还可能落入改编权的控制范畴。此外,数据既包括具有独创性的数据库,也包括不具有独创性的数据库,前者可以受狭义著作权的保护,而后者在各国和地区的保护方式存在差异。例如欧盟的《数据库保护指令》就规定了数据库权[12],其第七条规定了数据库制作者的禁止抽取权,也就是禁止抽取和再利用数据库的全部或实质性部分。所以在某些国家和地区挖掘数据库的行为也存在版权风险。
二、聊天机器人内容生成中的版权风险
聊天机器人生成的作品类型多样,各种类型作品的生成过程都需要满足相应法律规则的要求。与此同时,由于其作品是在多主体共同参与下完成的,其版权归属既要符合版权法的规定,同时还要符合《民法典》等相关规则。
1.多主体作用下作品形成的版权风险
如上所述,关于聊天机器人生成内容是否具有可版权性存在“工具说”和“无版权性说”等观点。笔者认为“工具说”较为合理,它认为只要其创作结果符合版权法要求的独创性和可复制性要件,就应该考虑将其认定为版权法上的作品[13],并可能存在三种情况。第一种是原创作品或利用公共素材和作品的思想进行创作的作品。例如有用户提出“在探讨人生意义这个层面上,宗教是不是比科学更能胜任、更容易说服人类”这一问题。笔者将ChatGPT回答的每句话进行单独检索,并未发现其与在先既有内容的重复,且内容上辩证地看待了宗教与科学的关系,所以这种情况的版权风险相对较小。而如果聊天机器人通过“洗稿”等方式创作并使用作品则可能存在道德风险。第二种是聊天机器人在他人既有作品的基础上进行的改编、翻译、注释和整理而形成的演绎作品。此种风险来自于是否获得在先作品权利人的授权,且在行使著作权时不得侵犯原作品的著作权。第三种是通过对在先作品的合理使用而创作的作品。从当前聊天机器人的作品生成过程来看,此种风险主要来自于不同使用者在不同场景下,基于不同使用目的对聊天机器人的应用。所以版权风险会随着聊天机器人应用场景和主体类型的丰富而发生变化。需要补充的是,受限于当前对ChatGPT的训练方法,在内容的生成上暂时还无法实现与人类语料的同步更新,所以必然存在作品生成的局限性。
2.聊天机器人生成内容的版权归属风险
从表面上看,聊天机器人的生成内容是在机器人与用户的互动过程中形成的,但实际上特定内容是由聊天机器人创设者(程序设计者和训练者)、聊天机器人技术开发者(软硬件知识产权的所有者)、利用聊天机器人创作作品者共同完成的。当前ChatGPT处于网页或电脑客户端的应用模式,当应用领域拓展至机器人等有体物的场景时,还可能出现聊天机器人物权的所有者和聊天机器人使用者等相关权利主体。但是聊天机器人生成内容的版权应归属于哪一主体在学界尚未达成共识。有学者认为,关于人工智能的著作权问题可以参照职务作品或者是雇佣作品之规定[14],将人工智能视作“雇佣者”,而人工智能生成成果的权益赋予投资者,以此解决人工智能生成成果的权益分配问题。[15]也有学者认为可借鉴法人作品的制度安排[16],或者作为民法学意义上物的孳息,并认为将硬件所有者——电脑或机器的所有人——作为孳息的原物所有者更为合适。[17]《英国版权法》将对计算机生成作品进行了必要安排的人视为作者,可能包括编写人工智能的程序员、人工智能系统或设备投资者,或者人工智能的最终使用者,以及上述主体共同作为“进行必要安排的人”。[18]笔者认为,当事人意思自治是市场法治的基本原则,因此聊天机器人生成内容的版权归属首先应当以所有者与使用者之间的约定优先。在约定优先的基础上可以适用版权法的既定法律规则。一方面,计算机软件作品可适用于聊天机器人领域,如无特殊约定,聊天机器人开发者享有聊天机器人生成内容的版权。另一方面,版权法关于权利穷竭和演绎授权的规定也可以被引入到聊天机器人领域:在没有特殊约定的情况下,聊天机器人的实际控制者利用聊天机器人作为工具产生的版权应归其所有,但针对在先聊天机器人生成作品的演绎仍要遵守先授权方能演绎进而享有版权的规则。需要注意的是,对于上述一般情况之外的特殊情况,还需要根据该种特殊情况结合版权法和《民法典》的相关规则来确定版权归属。[19]
三、聊天机器人内容完成后的版权风险
任何作品的价值都在于有效利用,聊天机器人生成内容更具有相当大的市场空间。准确识别聊天机器人生成内容在使用过程中的版权风险有利于提高内容流转和使用效率,更大程度激发生成内容的市场价值。
1.聊天机器人生成作品利用的版权风险
聊天机器人生成作品利用中的版权风险集中于专有出版、许可和转让过程。专有出版权是图书出版者与版权权利人之间基于合同约定享有的权利。[20]如果将聊天机器人生成内容印刷为图书和期刊出版则必须符合《出版管理条例》的规则,也即有权出版主体仅限于国家批准成立的出版机构。如果专有出版权合同的出版者一方不具有资格,那么基于合同效力的问题就存在后续使用的版权风险。同时,我国网络出版服务单位也应当经行政审批介入。通常情况下自然人不具有出版资质,所以如果自然人将聊天机器人生成内容进行网络出版将可能存在后续使用的版权风险。在版权许可过程中,如果许可使用的是聊天机器人生成内容的专有使用权,那么按照《著作权法实施条例》的规定应当采取书面形式。同时还应当在许可使用合同中明确约定专有许可使用权的范围,否则就被认定为被许可人独占排他的专有使用。此外,在被许可人享有专有使用权的情况下,除非合同中存在转授权的约定,否则如果被许可人再许可第三人行使同一版权还应当取得版权权利人的许可。在版权转让过程中,由于聊天机器人生成作品的版权归属较为复杂,网络服务提供者应当根据生成内容的价值和作品传播方式的不同分类拟制不同种类的版权转让合同,以尽量避免合同双方权利义务失衡以及版权价值落空的风险。如果双方订立的合同属于质押合同,就还应当办理出质登记并以出质登记时间为成立时间。另外,由于违法作品的特殊性,对于违法作品著作权的出版还受到严格限制。[21]
2.聊天机器人生成作品的版权保护风险
聊天机器人生成作品在使用过程中可能包括以下版权风险。第一是侵犯复制权、信息网络传播权等著作财产权的风险。一般情况下,复制或者将聊天机器人生成作品上传至网络应当取得版权人的许可。时下对聊天机器人生成作品一种较为流行的使用方式是将对话的截图或者截图中的文字内容上传至网络供网友欣赏和评论。如果在后使用者未经许可就将他人与聊天机器人对话所形成的作品复制下来使用,或者直接上传到网络中供大众阅读浏览,在不构成合理使用且满足侵权行为其他构成条件的情形下就可能侵犯版权人的复制权等著作财产权。第二是侵犯署名权、修改权和保护作品完整权等著作人身权。现实生活中存在一种情况,版权人已经授权他人行使改编权等著作财产权,后又指控使用人侵犯了其修改权和保护作品完整权。对于这类使用行为需要综合看待。一方面如果改编等使用行为确实超出了必要限度,则可能构成侵权。但另一方面也要充分考虑诚实信用原则和公平原则,从合同真实意图出发,对侵犯著作人身权的认定采取审慎态度。另外,对聊天机器人生成作品的其他使用行为还可能侵犯《著作权法》规定的兜底权利。
上述侵权风险存在民事、行政和刑事三种救济路径。在民事救济上,如果使用者实施了《著作权法》第五十二条规定的侵权行为,则应当根据情况,承担停止侵害、消除影响、赔礼道歉、赔偿损失等民事责任。在行政救济上,如果民事侵权行为同时损害了公共利益,就需要承担罚款等行政责任。在个案中,具体行为是否损害公共利益还需要由著作权行政管理部门根据侵权人的过错程度、损害后果等具体情节作出判断。[22]从刑事责任的角度看,如果使用聊天机器人作品的行为属于《著作权法》第五十三条规定的侵权行为,同时构成犯罪的,相关主体则应当承担刑事责任。当然,在刑事责任的救济上不能泛刑化,要避免以临时政策式的刑事司法活动进行短期效应的所谓知识产权营商环境营造。[23]
四、聊天机器人生成内容的版权风险治理
聊天机器人作为人工智能产品,在版权风险的治理上应当立足宏观站位和多角度面向,构建涵盖技术标准、司法保护、行政监管和平台治理的综合体系。
1.重视技术措施的管理功能
与规则和指令相比,技术有利于降低版权的保护成本并提高效率。由于ChatGPT生成内容几乎可以达到以假乱真的地步,已经有期刊社明确表示不接受ChatGPT生成内容的投稿,但尽管如此仍“真假难辨”。这就需要数字版权管理技术(DRM,全称Digital Rights Management)的有效参与。DRM通过对聊天机器人生成内容的管理和分发[24],有利于确保生成内容被合法使用。根据采用的安全技术,DRM可以分为基于密码技术的DRM系统和基于数字水印的DRM系统以及两者相结合的系统。前者是指通过对数字文件的加密使其在传递过程中无法被获取,从而达到版权保护和信息安全的目的。[25]后者是将创作者的创作信息和个人标志等不可感知的辅助信息嵌入载体中[26],只有专用的检测器或计算机软件才可以检测出隐藏的水印。[27]通过为原创作品、演绎作品和受国家公法管制的特殊作品等添加各类水印,有利于降低对作品不当使用而带来的风险。但是由于数字水印技术本身还存在各种问题,所以日后对聊天机器人生成内容的使用管理可以凭借DRM系统的密码技术或者密码和数字水印技术的结合,进而降低聊天机器人生成作品在使用与被授权使用过程中的版权风险。此外,除了隐藏的水印技术和显性的密码技术,还可以通过“贴标签”的方式对使用风险较大的作品予以标识,为避免风险起到明示效果。
2.合理运用司法裁量空间
司法裁判应处理好数据挖掘、作品生成以及生成内容的使用三者之间的关系。数据挖掘阶段版权风险治理的实质是平衡好权利人和挖掘者的利益关系,而运用合理使用兜底条款是司法路径中较为可行的一种解决方式。笔者认为合理使用作为对权利的限制不应过度“打开”,较为可行的做法是在个案中叠加适用三步检验法与美国的四要件规则进行综合判断。作品生成阶段的版权风险集中在生成内容是否具有可版权性以及版权归属。笔者认为,ChatGPT的出现是统一生成内容可版权性与版权归属司法裁判观点的良好契机,最高人民法院可以适时提审具有代表性的案例,并在全国范围内形成相对一致的裁判观点。一方面,确立聊天机器人的工具属性,结合ChatGPT等聊天机器人的技术原理以及个案中的生成内容提供可版权性的裁判指导。另一方面,在版权归属上可以运用民法的一般原则,对技术创设者和开发者在研发过程中的投入给予价值肯认。在作品的使用过程中,建议裁判者从维护版权交易转让的安全性和版权产业健康发展的秩序性出发,致力于维护版权合同的效力或部分效力。例如,对于同时约定了版权人身权与财产权转让的合同,一般情形下应认为财产权转让有效。
3.适当发挥行政执法监管作用
版权作为民事权利属于私权范畴,但同时具有促进文化发展的公益目标。[28]因此我国《著作权法》第五十三条作出了版权行政处罚的规定,但同时规定了以损害公共利益为必要前提。作为私权,版权的行使和流转仍应当以当事人意思自治为自主,版权执法仅能起到必要的补充作用。所以对行政处罚的介入需要加以严格限制。这要求版权执法既不能“泛公共利益化”,更不能“去公共利益化”,而是要对公共利益要件加以审慎适用。版权执法对聊天机器人生成内容的正常使用原则上应予以避让,但是当版权使用等行为损害了文化发展利益、消费者利益以及公平竞争市场秩序[29]的时候,则有必要施以行政处罚。例如在ChatGPT官方服务器处于超负荷运行的当下,就有商家利用ChatGPT大肆掘金。通过自己租赁服务期,在服务器上挂载ChatGPT,再将ChatGPT接入微信并有偿使用等方式赚取高额利润。商家此举故意避开了OpenAI限制境外访问的技术措施,同时干扰了官方ChatGPT的正常使用,就有可能被认定为破坏公平竞争市场秩序的行为并施以行政处罚,这也是版权行政监管的正当性所在。
4.优化平台版权自治新模式
平台是作品传播的重要渠道,在技术标准、司法保护和行政监管等外界手段之外,具有一定版权自治能力的平台也应当率先从“治理受体”向“治理主体”转变。从单个平台的内部管理来看,传播聊天机器人生成内容的大型平台可以借鉴YouTube平台的内容识别(Content Id)和版权监视(Copyright Watch)等技术手段,加大对侵权内容的筛查力度,并进一步作出处理。同时随着技术识别能力的提升,平台的识别误差还会逐步下降,算法过滤结果将更为可靠。通常情况下网络平台的技术水平和管理水平与注意义务呈正相关关系[30],所以算法过滤这类较为消耗人力、物力的技术手段在当前更适合纳入平台的自治范畴而非法定义务。对于不具备算法过滤等技术能力的平台也无需勉为其难,其可以通过进一步完善“通知—必要措施”等规则的配套措施来实现经营过程合法合规。从多个平台的交互合作来看,一方面以ChatGPT为代表的聊天机器人可以与其他内容生成平台通过版权的相互授权来持续提升版权价值和利用效率,实现合作共赢。另一方面,内容传播平台还可以与ChatGPT等内容生成平台签订使用协议,从源头上致力于版权来源与使用合法。
五、结语
版权法被称为“技术之子”,技术的革新力和创造力对版权规则的推动作用不容小觑。从ChatGPT的发展现状来看,在数据挖掘阶段存在合理使用风险,在内容生成阶段存在可版权性和版权归属风险,在内容生成后的使用阶段存在流转风险与侵权风险。基于ChatGPT的多领域适用前景,有必要在运用技术措施预防并监测风险的同时,借助司法裁判统一相关争议,并把握好行政监管的宽松度,防止行政介入过多过宽。在内部治理上则应提升平台的版权自治能力,由平台主动加强版权运营和管理。不过需要指出的是,技术发展并不必然要求版权规则的变革。相反,这一阶段聊天机器人的版权风险仍可以通过版权法的基本规则进行治理,只是需要因势利导予以必要调整。
(作者单位:华东政法大学知识产权学院)
*本文系国家社科基金项目“两大法系背景下的著作权与版权概念研究”(20BFX140)阶段性成果
注释:
[1]Long Ouyang, et al.Training language models to follow instructions with human feedback[EB/OL].(2022.03.04) [2023.02.16].https://arxiv.org/pdf/2203.02155v1.pdf.
[2][13][19]丛立先.人工智能生成内容的可版权性与版权归属 [J].中国出版,2019(1):11,13,14.
[3]李扬等.康德哲学视点下人工智能生成物的著作权问题探讨 [J].法学杂志,2018(9):50.
[4][16]熊琦.人工智能生成内容的著作权认定 [J].知识产权,2017(3):8,8.
[5]吴汉东.人工智能生成作品的著作权法之问 [J].中外法学,2020(3):668.
[6]冯晓青等.人工智能“创作”认定及其财产权益保护研究 [J].西北大学学报(哲学社会科学版),2020(2):51.
[7]王迁.论人工智能生成的内容在著作权法中的定性 [J].法律科学,2017(5):148.
[8]唐思慧.大数据环境下文本和数据挖掘的版权例外研究——以欧盟《DSM版权指令》提案为视角 [J].知识产权,2017(10):10.
[9]吴高.人工智能时代文本与数据挖掘合理使用规则设计研究 [J].图书情报工作,2021(22):4.
[10]关永红等.论文本与数字挖掘技术应用的版权例外规则构建 [J].河北法学,2019(9):150.
[11]马治国等.文本与数据挖掘对著作权例外体系的冲击与应对 [J].西北师大学报(社会科学版),2021(4):108.
[12]See The European Union.Directive 96/9/EC of the European Parliament and of the Council of 11 March 1996 on the legal protection of databases.
[14]吴汉东.人工智能时代的制度安排与法律规制 [J].法律科学,2017(5):132.
[15]BRIDY A., The Evolution of Authorship: Work Made by Code.[J].39 Columbia Journal of Law&the Arts 395, 400-401(2016).
[17]黄玉烨.孳息视角下人工智能生成作品的权利归属 [J].河南师范大学学报(哲学社会科学版),2018(4):28.
[18]Jani McCutcheon, The Vanishing Author in Computer-Generated Works : A Critical Analysis of Recent Australian Case Law.[J].36 Melbourne University Law Review 915, 959-960(2013).
[20]丛立先.《民法典》的实施与版权合同的完善 [J].出版发行研究,2020(10):7.
[21]丛立先.违禁作品著作权问题辨析——兼评我国《著作权法》第4条的修改 [J].法学,2011(2):92-99.
[22]快播公司诉深圳市场监管局著作权行政处罚纠纷案(2016)粤行终492号。
[23]丛立先.我国著作权法总体趋向与优化进路 [J].中国出版,2020(21):15.
[24]Gut h S.Rights expression languages.In: Becker E.et al.Digital Rights Management: Technological, Economic, Legal and Political Aspects.[M].Berlin: Springer Verlag, 101-112(2004).
[25]冯登国.可证明安全性理论与方法研究 [J].软件学报,2005(10):1743-1754.
[26]陈真勇等.以鲁棒性为目标的数字多水印研究 [J].计算机学报,2006(11):2038.
[27]S Craver, N Memon, B L Yeo, and M M Yeung, Resolving rightful ownerships with invisible watermarking techniques: Limitations, attacks and implications.[J].16 IEEE Journal on Selected Areas in Communications 573, 573-586(1998).
[28]吴汉东.著作权合理使用制度研究 [M].北京:中国人民大学出版社,2013: 44.
[29]王洪友.论版权行政执法的公共利益要件:以制度异化为视角 [J].中国出版,2020(1):39.
[30]参见北京爱奇艺科技有限公司诉北京字节跳动科技有限公司侵害作品信息网络传播权纠纷案(2018)京0108民初49421号。