legal work committee

法务工作委员会
 热门关键词:娱乐法   法商论坛    法务委员查询 
中国电视剧制作产业协会
联系我们
通知公告
Notice
  
  
张平:生成式人工智能数据训练知识产权合法性问题探讨
来源: | 作者:张平 | 发布时间: 2023-09-05 | 3454 次浏览 | 分享到:


生成式人工智能的数据来源合法性,主要是指生成式人工智能收集的数据是否以合法、正当的方式取得,是否无损数据权益人的权益,是否取得相关知识产权所有者的同意,在处理个人信息时是否取得了个人信息主体或其他数据权利人的同意等。因此,判断数据来源的合法性时,一方面需要注意数据是否具有受保护的权益,另一方面需要注意是否以合法、正当的方式取得收集、处理数据的权利。
生成式人工智能的数据来源主要分为两个部分 :第一部分为生成式人工智能的训练数据库,内容几乎涵盖所有能收集到的人类数字化信息,包括公共数据、网络信息(文本、图片、音视频)、数字化图书、自媒体对话数据集、报刊杂志、科学论文等;第二部分为生成式人工智能在服务用户的过程中所收集和输出的信息,也就是人工智能合成数据。第一部分的数据收集往往可能遭遇知识产权瓶颈;第二部分的数据收集的传统知识产权风险较少。此外,当人工智能生成物在未来受到法律保护时,也可能继续面临不同的生成式人工智能产品之间的相互数据学习所带来的知识产权问题。数据库训练的数据来源,经历了从零星的、开放的、无著作权门槛的数据,到科技文献、优秀作品、精英观点等,其中涉及的数据信息是海量的。数据库训练的不同来源有不同的法律风险,可归纳为以下三个方面:一是来自于公有领域的内容,本身已经不存在著作权财产权保护问题,但会涉及署名权、修改权等人身权问题;二是通过与著作权人一对一签订授权协议或者通过著作权集体管理机构合法授权获得的内容,但这部分内容通常也难以做到百分百的准确授权;三是利用“爬虫”技术爬取的网络信息,这也是生成式人工智能技术最常用的数据收集手段,其爬取的内容受网络爬虫协议条款约束,应视其具体使用目的和对象判断是否合法,若出于商业产品开发使用目的,一般会受到限制。[1]
AI开发者需要在数据训练中认真评价内容获取行为,分别根据内容获取阶段、内容输入阶段、内容输出阶段评估具体的著作权法项下行为[2]。在训练数据库的输入阶段和输出阶段,最大的著作权侵权风险是侵犯复制权和改编权。在输入阶段,如果将大量受著作权保护的作品用来训练人工智能,这本身看似出于学习目的,实则最终服务于商业目的,很难使用现有的著作权合理使用制度规避侵权责任。在输出阶段,如果生成的内容与原作品在表达上构成实质性相似,则可能侵犯复制权;如果在保留原作品表达的基础上形成了新的表达,则可能涉及改编权问题。
美国对人工智能研发过程中的知识产权问题,目前采取相对统一的价值指导和原则性规定予以处理,尚未出台具体规范。出于推动人工智能创新、审慎立法、防止法律与技术进步脱节等考量,美国对人工智能的规制采取“先产业发展后立法”模式,即在AI研发过程中不提及版权,而是依赖于社会舆论、企业自觉、司法和行政系统的事后回应来解决知识产权争议。例如,微软公司在研发人工智能系统的过程中,曾被质疑其行为可能涉及个人信息保护和知识产权问题,随后微软公司马上关闭了其AI人脸识别训练数据库的公众入口,自己则仍然可以使用该系统。此外,该数据库也被分享在开源平台上,且此前已经下载该数据库的企业也可以继续使用。美国国内尚没有明文法律可以直接规制微软公司的上述行为。[3]2023年7月,美国七大AI企业与拜登政府签署协议,承诺采取自愿监管措施管理AI技术开发的法律风险,包括展开安全测试、为AI生成内容添加数字水印、制定透明的隐私与知识产权保护政策等。[4]

 
组织人员
The organizer
领导班子
秘书处
专家委员
法务委员