AI训练数据版权的问题

常规做法:

数据来源净化:Meta通过“合法购买+扫描后销毁原件”的方式构建训练库,法院在早期裁定中认可此类行为可能构成合理使用。国内企业则更多依赖CC协议授权的开放数据集,如阿里达摩院的“多模态学术语料库”明确排除未授权作品。

技术防护机制:Anthropic在Claude模型中植入“防记忆”模块,避免生成与训练数据高度相似的文本片段;百度文心一言则采用“风格稀释”技术,确保输出内容与单一作者风格的相似度低于30%。

授权模式创新:出版社开始推出“AI训练专项授权”,如中信出版集团与字节跳动达成协议,允许其在支付千字0.8元的报酬后,将部分财经书籍用于模型训练。这种“按使用量付费”模式正成为平衡各方利益的新范式。

总结:

  1. 即使未逐字复制,若AI生成内容与原作在笔触、构图逻辑上实质性相似,仍构成侵权。

  2. 法院虽未直接认定训练行为侵权,但强调盗版数据来源本身即构成直接侵权。

  3. 单纯学习思想观点不侵权,但未经授权使用具体表达或破坏市场秩序则需担责,二者的法律边界正通过典型案例重塑。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。