AI大模型的版权问题一直是生成式人工智能走向应用无法避免的问题。
就在最近,SamAltman代表OpenAI交出了一份答卷:版权盾(CopyrightShield)。他在OpenAI第一届开发者大会上做出承诺,如果使用旗下产品ChatGPT的用户面临版权侵权的法律索赔,其公司承诺会介入辩护,并承担法律费用。此前,谷歌、GettyImages、Shutterstock、Adobe等公司都曾向用户作出过明确的表态,承诺将支付大模型使用所涉版权纠纷的诉讼费用。
人工智能的版权困境下,类似侵权包赔模式可行吗?在规则体系尚未清晰的当下,AI企业如何顺利走向应用?
受访专家认为,在做好前期训练数据合规的情况下,侵权包赔的模式具备一定可行性。,除了提供版权包赔承诺,AIGC工具提供商还会通过事前合规、作者分成等方式平复版权风险的市场担忧。
OpenAI为用户“执盾”根据OpenAI官网,版权盾是公司在系统中内置的版权保护措施的基础上提供的新服务,可以把它理解为软件许可协议中的一种赔偿条款。
具体到实际操作上,上海申伦律师事务所律师夏海龙告诉21记者,假如一家公司用ChatGPT为自己生成了一系列营销文章,当第三方起诉生成文章侵犯版权时,OpenAI可能会为公司提供素材来源、内容生成过程等证据来协助应诉,并承担判定侵权后的赔偿金。
“各大公司采取的‘侵权包赔’模式,在公司已经做好版权保障,比如获得了相关著作权人使用许可的情况下,是合理且可行的。”上海大邦律师事务所高级合伙人、知识产权律师游云庭如此评价道。
不过他也指出,如果著作权人未对训练数据授权的,人工智能公司在面对纠纷时,一方面需要支付侵权赔偿,另一方面还要承担停止侵权的法律责任,换言之,公司需要用未经授权训练素材训练出的结果进行审查,如果有涉嫌侵权的内容,还应该进行删除。
值得注意的是,目前版权盾仅针对ChatGPTEnterprise的用户和开发者平台的使用者,也就是说,公司并不为ChatGPT的过亿普通用户提供赔偿。
此外,21记者发现,类似赔偿条款通常会设定赔偿的上限金额、用户免责的前提条件等,但OpenAI目前没有公布版权盾的更多细节。“版权盾是否属于一种兜底承诺,还要看条款的具体约定。”夏海龙指出。
OpenAI为何要保证侵权包赔?在开发者大会现场,SamAltman在“开发者请求”中数次提到版权保护这一关键词,可见推出版权盾的主要目的是回应市场担忧。
在Acrolinx最近对世界500强公司的调查中,有近三分之一的人表示知识产权是他们使用生成式AI的最大担忧。另一项民意调查显示,在1001位受访的软件开发者中,90%的开发者在用AI开发软件时会认真考虑隐私和知识产权问题。
数百万到数十亿条的大模型训练数据多来自网络中抓取的电子书、艺术作品、电子邮件、歌曲,抓取时并未告知原作者,通常也难获得单独授权。因此训练AI和AI生成的数据,往往难以判断版权归属。
在版权成为生成式人工智能技术应用障碍的当下,不难理解,担忧版权侵权和缺乏兜底赔偿,都可能成为企业不选择供应商的理由。对于目前估值上升到800亿美元的OpenAI,回应大模型的核心版权问题,是关键且必要的一步。
AI版权“战火不断”AI领域中关于版权侵权争议始终存在,检索发现,侵权指控主要分两类:一类诉讼提出作品被用于最初的模型训练,因而每一项AI输出都是侵权衍生品;一类诉讼集中在输出端,认为具体的AI生成作品复制、模仿了原作品的内容和风格。
输入端的训练数据库无疑是版权争议的焦点。据不完全统计,硅谷所处的美国加州地区法院,自2022年至今受理了起码10起关于大模型训练数据的版权起诉。今年9月,包括《权力的游戏》系列丛书的作者GeorgeR.R.Martin在内的17名作家向OpenAI发起集体诉讼,指控该公司在未经许可的情况下批量复制原告的作品,并将这些受版权保护的材料用以模型训练和响应。OpenAI等人工智能公司则用“合理使用”的豁免条款来支持自己的正当性。
所谓合理使用,是指美国最高法院确立的一种版权材料使用豁免原则。在侵权诉讼中,法院会考虑使用版权作品的数量、使用的影响等四个要素,并采用“转换性使用”的判定标准,即二次使用能不能为原作带来新的意义、新的美感等。尽管大模型训练是否构成合理使用,美国司法侧没有给出明显倾向,但灵活的认定原则和自由裁量空间或是OpenAI做出承诺的底气。
“在输入端,”游云庭指出,“如果使用了未经授权的素材,训练这一行为就涉嫌侵权,但部分人工智能公司也抗辩,说他们的训练行为使用素材属于合理使用,具体各国法律规定不同,所以还要让子弹飞一会儿,看看各国法院最终怎么判。”
而在输出端,也有多起版权诉讼剑指AI公司。比如今年年初,媒体报道美国三位视觉艺术家对StabilityAI、Midjourney、DeviantArt三家AIGC商业应用公司提起集体诉讼,认为AI作图软件以他们的风格创建人工智能生成的图像,这些副本属于未经授权的衍生作品,侵犯其著作权。
夏海龙指出:“著作权侵权的判定要件之一是构成实质性相似。”在他看来,在使用他人的作品作为源素