随着人工智能技术的快速发展和广泛应用,近年来,由人工智能自主创作诗歌、小说、绘画、音乐等已不再是新鲜事情。人工智能创作需要创作素材来“喂养”,这些创作素材是以数据形式表现的各种数字化作品,由此面临著作权侵权风险问题。如何妥当地解决这一问题,对人工智能技术的广泛应用和社会文化艺术的繁荣发展有着重要意义。
对数据的“表达性使用”使人工智能创作面临著作权侵权风险
数据的获取与利用贯穿人工智能创作全过程。
首先是数据的获取与输入,这一环节也可称为“机器阅读”。据微软公司的人工智能研发人员介绍,世界上第一部百分之百由人工智能作者“小冰”于2017年创作的诗集《阳光失了玻璃窗》,就是人工智能在学习了500多位诗人的现代诗后,经过上万次训练最终创作而成。其次是数据的处理与分析,这一环节也可称为“机器学习”。人工智能系统通过对大量已有数据作品进行分类和整理,分析这些作品所表达的思想感情、所采用的语言特征、所特有的表达风格等。最后是数据的生成与传播,这一环节也可称为“机器输出”。由此生成的结果可以达到作品的独创性,有些甚至比人类作者创作的作品更具有艺术价值。
但是,在这一过程中,对数据的“表达性使用”使人工智能创作面临著作权侵权风险。
这里采用“非表达性使用”一词,是指使用原作品的目的并非为了利用其具有独创性的表达,而是将其作为一种事实性信息进行功能性利用,在使用结果上也未再现原作品的艺术价值;“表达性使用”则是指使用原作品的目的在于利用其独创性表达,从而在使用结果上也再现了其艺术价值(无论是“原样再现”或“改编再现”)。
人工智能对数据作品的使用也有“表达性使用”和“非表达性使用”之区分。例如为了运行人脸识别智能系统而使用人脸照片就是一种“非表达性使用”。而我们所探讨的“人工智能创作”对于数据作品的使用显然属于“表达性使用”。
人工智能创作利用数据的侵权类型
人工智能创作利用数据,可能侵害的权利类型包括:
复制权
在人工智能进行深度自主学习之前,需要将作为创作素材的作品进行数字化处理并转换为适合“机器阅读”的标准数据格式,是对已有作品在不改变内容情形下所进行的全文复制和原样再现,并且存储在机器中形成永久复制件,属于著作权法上的“复制”行为。现行《著作权法》在原有7种复制类型后专门增加了“数字化”复制方式。在作品输出环节,如果人工智能最终输出的内容与之前所使用的数据作品存在实质性相似,则同样可能会侵犯复制权。
改编权
在人工智能创作中,如果最终输出的生成内容虽具有一定的独创性,但仍然保留了数据库中某一作品或者某些作品的基本表达,应属于改编作品,此种创作行为如未经许可并支付报酬则可能侵害改编权。如微软公司开发的“下一个伦勃朗”人工智能系统,通过深度学习伦勃朗346幅画创作出了与伦勃朗风格相似但又具有独创性的绘画作品。如果被学习的作品仍在著作权保护期限内,则都属于侵犯改编权的行为。
传播权
在我国现行立法中,传播权包括表演权、放映权、广播权和信息网络传播权。人工智能创作涉及的传播权侵权风险主要是信息网络传播权和广播权,表现在人工智能创作的输出环节:若将机器学习的数据分析结果通过网络即时公开发布,可能会侵犯作品广播权;如果延时发布,则可能侵犯信息网络传播权。
著作权法上有侵权豁免规定,理由一般有合理使用、法定许可和强制许可三种类型。我国现行立法中尚无强制许可制度。法定许可规则所确定的四种类型也难以适用于人工智能创作场合。几种合理使用情形最有可能作为侵权抗辩依据,但是:就“个人学习、研究”这条而言,人工智能创作并不符合该条款的规范意旨,“个人”通常限于自然人,人工智能创作中使用数据的行为主体为人工智能系统,并非自然人,控制人工智能创作系统的主体也并非单个的自然人;“科学研究”这条,根据我国现行《著作权法》第24条第1款第(六)项的规定,在“为科学研究,翻译、改编、汇编、播放或者少量复制已经发表的作品,供科研人员使用,但不得出版发行”情形下,可以不经著作权人许可亦无须支付报酬,人工智能创作也无法适用;“适当引用”这条也难以作为对人工智能创作使用数据予以侵权豁免的法律依据,人工智能创作对于数据作品的使用显然已经超出了适当性的要求。
将人工智能创作利用数据纳入合理使用的考量
传统许可模式难以满足数据规模化利用的现实考量
人工智能创作所使用的数据在价值上具有低密度性,即单个作品对最终形成的创作成果贡献极小,由此意味着只有大批量、规模化地使用数据对于人工智能创作才有意义。要避免人工智能创作物一经生成便背负上侵权的“原罪”风险,唯一途径就是逐一获得数据作品著作权人的许可并支付报酬,而这在现实中几乎不太可能。此时,采用合理使用规则来配置数据资源可能是实现社会福利和公共利益最大化的最佳选择。
促进文化艺术繁荣的公共政策考量
为了降低使用成本并消除侵权风险,人工智