常规做法:
数据来源净化:Meta通过“合法购买+扫描后销毁原件”的方式构建训练库,法院在早期裁定中认可此类行为可能构成合理使用。国内企业则更多依赖CC协议授权的开放数据集,如阿里达摩院的“多模态学术语料库”明确排除未授权作品。
技术防护机制:Anthropic在Claude模型中植入“防记忆”模块,避免生成与训练数据高度相似的文本片段;百度文心一言则采用“风格稀释”技术,确保输出内容与单一作者风格的相似度低于30%。
授权模式创新:出版社开始推出“AI训练专项授权”,如中信出版集团与字节跳动达成协议,允许其在支付千字0.8元的报酬后,将部分财经书籍用于模型训练。这种“按使用量付费”模式正成为平衡各方利益的新范式。
总结:
即使未逐字复制,若AI生成内容与原作在笔触、构图逻辑上实质性相似,仍构成侵权。
法院虽未直接认定训练行为侵权,但强调盗版数据来源本身即构成直接侵权。
单纯学习思想观点不侵权,但未经授权使用具体表达或破坏市场秩序则需担责,二者的法律边界正通过典型案例重塑。