2023年是人工智能的商用元年,在其野蛮生长的一年时间里,生成式人工智能、大模型遍地开花。仅2023一年,我国人工智能相关企业就新增52.92万家,可以说人工智能在2023年迎来了爆发性增长。
不可否认的是,人工智能技术、企业的发展为我国经济发展带来了新的增长点,但人工智能的产业发展还存在明显的弊病——侵犯隐私和著作权等权益。
最近一段时间,有关AI侵权的案件屡屡发生,从国外的“OpenAI遭起诉,涉嫌窃取数百万用户信息以及面临赔款”,到国内的杭州数字人侵权、“山寨通义千问”以及国内第一AI绘画侵权等案件的先后发生,都反映了生成式人工智能的确存在侵权问题。
科学技术是第一生产力,生成式人工智能可否作为生产力?有人认为借助各种生成式人工智能工具或者平台,用来写文章、绘画、生成音频、视频等,由此产生的作品的著作权又归属于谁呢?
笔者认为,生成式人工智能的内容产出本质就是“抄袭”。生成式人工智能以亿万的庞大的数据为参数,尽管具有出色的生成能力和巨大的应用价值,但其产出的内容一度受到了各界的质疑。
2023年3月,意大利宣布暂时禁止访问ChatGPT,原因是没有法律依据来证明用于训练 ChatGPT 的大规模数据是合法的。
2023年12月21日,科技部监督司发布的《负责任研究行为规范指引(2023)》指出,不得使用生成式人工智能直接生成申报材料,不得将生成式人工智能列为成果共同完成人,不得直接使用未经核实的由生成式人工智能生成的参考文献等。
生成式人工智能的发展面临的最大挑战就是引发侵权风险。以ChatGPT为例,其生成式人工智能系统使用从互联网上获取的大量数据创建内容,这些数据涵盖了未经授权使用的文章、图片,甚至是敏感的个人信息。
有分析称,OpenAI 的训练数据包含了超过 30 万本书,当中有许多是没有获得许可、非法获取的有版权图书。有研究表明,大语言模型在某些情况下可以重现或者生成训练集内的初始文本。
生成式人工智能在爬取海量数据的基础上都可能会侵犯哪些权利?首先是侵害隐私和个人信息。有研究发现,由于大模型收集大量个人信息和隐私,且模型越大,所搜集的信息和隐私越多。在数据泄露频发的当下,大模型搜集的海量个人信息极易成为不法分子攻击的目标,从而提取出个人隐私的信息。
其次是名誉权。OpenAI公司首席执行官山姆·阿尔特曼在接受采访中说,“我特别担心这些人工智能被用于大规模制造虚假信息”。我国禁止使用生成式人工智能作为材料申报、成果共同完成人的一个重要原因就是无法保证生成式人工智能提供的内容的真实性。
中国人民大学法学院教授王利明指出:“生成式人工智能自动生成的包含虚假信息的图片、视频、声音,已经达到了以假乱真的地步,甚至生成式AI都难以辨别其生成的图片等是真实拍摄的还是自动生成的。”其生成的内容已经到了自身都难辨真假的地步,产业界应该重视起来。
最后是侵害肖像权。生成式人工智能能够自动生成图片、视频的原理同生成文字一样,同样需要将大量的原始画作、视频提供给AI。在生成过程中,AI根据不同的要求产生不同的“作品”,需要注意的是,AI有可能会生成虚假等非法的信息。
数据已经成为新的生产要素。未来,数据也将会成为各大平台争抢的重要资源,一些知名网站、APP将进一步封锁数据的流出,保证优质的数据资源留在自身的平台内。而这将进一步影响以爬取海量数据为基础的大模型训练,长此以往,生成式大模型的训练必定难以为继。且当下,我国越来越重视数据安全,这些因素都将影响生成式人工智能的良性发展。
生成式人工智能已经深入大多数用户的生活和工作中,面对法治越发健全和诉讼增多的双重发难,在这里提出一些建议。
一方面,各国应该积极完善AI领域的版权政策和法规,以法律法规引领产业健康发展;另一方面,AIGC公司应当全力保障AI生成式输出的内容具有版权的合规性,或及时向作者支付版权费,以提高内容的真实性和质量,形成良性循环。
作者:孙 天
责编/版式:盖贝贝
审校:王 涛 梅雅鑫
监制:刘启诚