因此,在生成式人工智能训练数据的著作权授权过程中,AI开发者可以通过著作权集体管理组织获得某一领域的作品授权,充分发挥著作权集体管理的保障效能,减少开发者的数据合法性风险。即使在无法判断某一作品权利人是否系著作权集体管理组织会员的情况下,也可以通过延展代理机制保证权利人的获酬机会,表达人工智能服务提供者尊重著作权的善意。
利用开放授权的数据资源
开放授权机制源于计算机软件领域的开源许可证,是一种对世的著作权开放授权声明,通过许可证约定使用者的权利和义务,目的是打破一对一的低效授权。在遵循许可证条件的情况下,使用者可以自由、免费地使用和修改作品。这种开放授权机制后来扩展到文档、图片、音视频领域。知识共享许可协议(Creative Commons license,简称CC协议)为传统作品的版权授权开辟了一条新路。
开放授权的共同点是:(1)承认著作权,要求署上原作者或著作权持有人的姓名,这是授权最基本的限制;(2)允许免费的私人使用和商业使用;(3)允许使用者修改及修改后再发布;(4)免责声明:原作者或著作权持有人不承担作品使用后的风险及产生的后果;(5)终止授权:一旦违反开放授权条件时,终止一切授权,回归传统的知识产权保护。
以主流的深度学习框架为例,目前,人工智能软件技术开发都使用开源许可证, 主 要 有 MIT许可证、BSD许可证、Apache许可证等。训练数据库也应多使用开源资源,并推动更多科学作品的开放授权,推动生成式人工智能输出数据的开放许可。
结语
利益平衡是我国知识产权法律体系的一项重要原则。人工智能训练数据合法性问题,本质上是个人利益与公共利益冲突的体现。在个人利益方面,研发者、投资者、使用者、数据贡献者共同构成人工智能产品的开发成本和预估值,但这四者的资产、价值占比难以明确。如果缺少利益平衡原则,在利益分成时容易产生分歧。在公共利益方面,公众受益于智能科技产品服务,由此感受到整体社会福祉的提升。同时,得益于传统知识产权体系的保障,创作者能够获得足够的法律保护,其知识产权价值能够保持长期稳定,知识产权成果能够在市场流通赋值。当人工智能时代到来,传统的知识产权规则再一次遇到挑战,必须随着利益再平衡的需求进行调整。唯有如此,才能实现《办法》的发展目标,推动人机良性互动的社会发展。
注释:[1]参见宋海燕、陈佩龄:《浅析ChatGPT训练数据之合理使用》,载微信公众号“金杜研究院”,2023年4月25日,https://mp.weixin.qq.com/s/KDHwR_l2A-HOElllka5kpg;段志超、蔡克蒙、蒋海楠、邹奕:《从ChatGPT看生成式AI的合规挑战与应对》,载微信公众号“汉坤律师事务所”,2023年2月23日,https://mp.weixin.qq.com/s/RhHCrZeHiiKTdoeLybctng。[2]在首例生成式人工智能数据训练版权侵权案(Getty Images vs. Stability AI)中,被告被指使用未经许可的版权作品作为训练图像,侵犯了权利人的版权。这种行为涉及内容输入和输出阶段的著作权问题。[3]Microsoft quietly deletes largest public face recognition data set, from:https://www.ft.com/content/7d3e0d6a-87a0-11e9-a028-86cea8523dc2, last visited: 2023/08/02.[4]《美国七大AI巨头签署协议 :为AI生成内容加水印》,载微信公众号“国际法务”,2023年7月24日。