我国目前的生成式人工智能技术创新还处在初级阶段,法律法规的制定应当给科技创新留有一定的发展空间,对产品在研发阶段的数据合法性要求,应当根据数据类型和基本伦理要求,采取开放包容的规范原则。解决生成式人工智能所涉及的知识产权难题,需要使用多种制度工具,建立多元化解决机制,打造一套综合性解决方案。
生成式人工智能数据合法性
成为焦点问题
近期国家互联网信息办公室发布的《生成式人工智能服务管理暂行办法》(下称《办法》)第七条规定:“生成式人工智能服务提供者应当依法开展预训练、优化训练等训练数据处理活动,使用具有合法来源的数据和基础模型;不得侵害他人依法享有的知识产权;涉及个人信息的,应当取得个人同意或者符合法律、行政法规规定的其他情形;……”该条款的主要目的是规范生成式人工智能服务提供者数据来源的合法性问题,这也是当前全球范围内生成式人工智能数据合法性的焦点问题。
数据来源合法性是生成式人工智能产品合规的必要条件,若数据来源不合法不合规,该产品将无法进入市场应用阶段。但是,如果在生成式人工智能研发阶段就严格执行合法性标准,就会限制大数据的广泛采集,阻碍研发进程,影响高品质、高智能产品的诞生。所以,《办法》第三条也提出了“坚持发展和安全并重、促进创新和依法治理相结合的原则,采取有效措施鼓励生成式人工智能创新发展,对生成式人工智能服务实行包容审慎和分类分级监管”的基本原则。
我国要在生成式人工智能这一领域有所突破创新,一定要有相对宽松的法律政策环境和技术生态建设,吸取传统信息产业领域软件和芯片技术“受制于人”窘境的教训,利用我国独有的数据红利以及政策环境,快速形成自主可控的生成式人工智能基础技术体系。
生成式人工智能所涉及的
知识产权风险
生成式人工智能数据训练的需求,体现在数据数量、多样性、质量、领域特定性、多模态性、实时性、长期演进性、平衡性、合规性以及多语言性等方面。满足这些需求,可以帮助生成式人工智能模型更好地适应各种场景和任务,提高其性能和可应用性。
生成式人工智能的数据来源合法性,主要是指生成式人工智能收集的数据是否以合法、正当的方式取得,是否无损数据权益人的权益,是否取得相关知识产权所有者的同意,在处理个人信息时是否取得了个人信息主体或其他数据权利人的同意等。
生成式人工智能的数据来源主要分为两个部分:第一部分为生成式人工智能的训练数据库,内容几乎涵盖所有能收集到的人类数字化信息,包括公共数据、网络信息(文本、图片、音视频)、数字化图书、自媒体对话数据集、报刊杂志、科学论文等;第二部分为生成式人工智能在服务用户的过程中所收集和输出的信息,也就是人工智能合成数据。第一部分的数据收集往往可能遭遇知识产权瓶颈;第二部分的数据收集的传统知识产权风险较少。
数据库训练的不同来源有不同的知识产权法律风险,可归纳为以下三个方面:一是来自于公有领域的内容,本身已经不存在著作权财产权保护问题,但会涉及署名权、修改权等人身权问题;二是通过与著作权人一对一签订授权协议或者通过著作权集体管理机构合法授权获得的内容,但这部分内容通常也难以做到百分百的准确授权;三是利用“爬虫”技术爬取的网络信息,这也是生成式人工智能技术最常用的数据收集手段,其爬取的内容受网络爬虫协议条款约束,应视其具体使用目的和对象判断是否合法,若出于商业产品开发使用目的,一般会受到限制。
在训练数据库的输入阶段和输出阶段,最大的著作权侵权风险是侵犯复制权和改编权。在输入阶段,如果将大量受著作权保护的作品用来训练人工智能,这本身看似出于学习目的,实则最终服务于商业目的,很难使用现有的著作权合理使用制度规避侵权责任。在输出阶段,如果生成的内容与原作品在表达上构成实质性相似,则可能侵犯复制权;如果在保留原作品表达的基础上形成了新的表达,则可能涉及改编权问题。
美国对人工智能研发过程中的知识产权问题,目前采取相对统一的价值指导和原则性规定予以处理,尚未出台具体规范。出于推动人工智能创新、审慎立法、防止法律与技术进步脱节等考量,美国对人工智能的规制采取“先产业发展后立法”模式,即在AI研发过程中不提及版权,而是依赖于社会舆论、企业自觉、司法和行政系统的事后回应来解决知识产权争议。2023年7月,美国七大AI企业与拜登政府签署协议,承诺采取自愿监管措施管理AI技术开发的法律风险,包括展开安全测试、为AI生成内容添加数字水印、制定透明的隐私与知识产权保护政策等。
多元化解决生成式人工智能的
知识产权难题
解决生成式人工智能所涉及的知识产权难题,需要使用多种制度工具,建立多元化解决机制,打造一套综合性解决方案。
借用早期互联网治理规则
生成式人工智能的发展可类比互联网治理,引入类似合理使用原则、避风港机制等规则。
合理使用原则:扩展著作权法中的合理使用原则,明确生成式人工智能在数据训练和输出过程中的