(一)中国:斗破苍穹案——用户训练模型的侵权认定4
2025年上海市金山区人民法院对《斗破苍穹》美杜莎形象被抄袭案作出一审宣判。被告李某截取动漫中美杜莎形象图片二十余张,通过某AI图像生成平台的“训练LoRA”功能投入训练,生成两款美杜莎LoRA模型并发布。其他用户使用这些模型时,可通过不同提示词生成与美杜莎形象相同或实质性相似的图片。
法院认定,被告李某以商业使用为目的,在素材截取阶段及LoRA模型训练、发布及使用阶段再现在先作品的独创性表达,将美杜莎图集和短视频等素材通过网络提供给公众,侵害了原告对“美杜莎”作品享有的复制权和信息网络传播权。
本案的关键法律看点在于:其一,模型训练过程中的数据复制行为被明确认定为独立的著作权侵权行为,而非仅仅根据生成结果来判断侵权。这在司法实践中具有重要意义——它意味着模型训练过程本身就可能构成侵权,即便模型没有生成直接复制原作的输出,只要训练素材中使用了未经授权的版权作品,就可能单独构成侵权。其二,提供AI训练功能的平台方被认定为“网络服务提供者”,需遵循“通知+必要措施”规则。法院认为平台向用户尽到了合理告知义务,并及时采取了删除和下架措施,因此在主客观条件上均不构成侵权。这一认定厘清了平台方与用户的责任边界,为AI平台合规运营提供了规则指引。
(二)美国:卡德雷诉Meta案——合理使用的“风向标”5
2025年美国联邦地区法院对卡德雷等人诉Meta公司案作出判决。这是美国司法系统首次对使用版权作品训练大语言模型是否构成合理使用作出系统性回应。
本案原告是由理查德·卡德雷等13名作家组成的团体,被告是科技巨头Meta公司。原告指控Meta公司在未经许可、未署名且未支付报酬的情况下,大规模复制了他们的书籍,用于训练LLaMA大语言模型。特别值得注意的是,原告指出Meta用于训练的数据集包含了从“影子图书馆”(Books3、Bibliotik、LibGen等)获取的作品,这些平台是众所周知的盗版内容集散地。
法院依据美国《版权法》第107条对合理使用的四个要素进行了系统性审查:
要素一:使用的目的与性质。法院认为,原告书籍的目的是供人阅读以获取娱乐或知识,而Meta复制这些书籍的目的是训练一个功能性的软件工具。LLaMA模型并非简单地“重新包装”原著,而是从数据中学习统计规律,以创造出在性质和功能上全新的事物,这正是“转换性使用”的核心要义。关于备受争议的“恶意”获取盗版数据问题,法院认为,即使Meta明知是盗版书籍而使用,这种恶意也不影响其后续训练使用行为的转换性——合理使用的宗旨在于允许不构成市场替代的新表达形式出现,而原始材料的来源是否合法,并不会改变后续使用的根本性质。
要素二:受版权保护作品的性质。法院承认涉案作品多为小说、回忆录等创造性和表达性极高的作品,理应处于版权保护的核心范围。但法院同时指出,在现代对合理使用的判断中,该要素很少起到决定性作用。
要素三:使用部分的数量与实质性。法院认为,为了有效训练大语言模型,复制整部作品是合理且必要的。因此,既然复制全部内容是实现合法转换性目的所必需的,那么这种复制行为在数量与实质性上就是合理的。
要素四:对潜在市场或价值的影响。法院驳回了原告提出的两个主要市场损害理论:一是“输出内容替代”理论——证据显示模型在对抗性提示下也不会“反刍”出任何有意义的文本片段,无法对原著市场构成威胁;二是“授权许可市场损失”理论——法院认为这是循环论证,一个正在发展中的市场尚不能作为已发生的市场损害依据。
最终,法院认定Meta公司使用原告作品训练大语言模型的行为构成合理使用。但这一判决并非对AI公司使用版权作品的无条件认可。法院的判决逻辑实际上为未来的版权诉讼留下了若干重要空间:如果原告能够举证AI模型的输出确实替代了原著市场,如果能够证明数据获取方式的恶意程度足够严重,或者如果能够提供更充分的授权许可市场损害证据,案件的裁判结果可能会有所不同。
该案通过深入的法理论证,为后续司法实践和版权治理提供了极具价值的启示。正如法院所提示的,未来如果有原告能够提供更充分的市场损害证据,“可能会取得不同的结果”。
(三)德国:GEMA诉OpenAI案——“记忆”即“复制”的里程碑式认定6
2025年德国慕尼黑第一地方法院对GEMA诉OpenAI案作出判决,为全球AI版权诉讼贡献了一个具有标杆意义的判例。
原告GEMA是欧洲规模最大的音乐著作权集体管理组织。案件源于被告运营的ChatGPT未经授权使用GEMA管理的九首歌词用于训练,原告发现通过简单提示词,模型即可输出与原作高度雷同的内容,部分段落甚至逐字复制——如《Männer》副歌重复率达70%以上。
法院的核心法律认定可分为两个层次:
第一层次,法院将技术上的“记忆”行为定性为法律上的“复制”行为。法官采信了信息学研究的结论,即当训练数据在训练集中反复出现时,模型会对其进行“记忆”。模型输出高度相似或完全相同歌词的行为,构成了“记忆”的坚实证据。在法律定性上,法官援引欧盟《信息社会著作权指令》,强调复制权定义广泛,包括“以任何方式或形式”、“直接或间接”、“临时或永久”的复制。尽管歌词被分解为参数分布在模型中,但这种在参数中的“固定”足以构成著作权法所要求的“有形固定”。法官将此类比于MP3压缩技术——尽管数据被压缩和转换,但仍被认定为复制。
第二层次,法院认定被告运营的AI模型使得任何用户都可以通过简单提示词调用模型中存储的保护歌词,构成了侵犯“向公众提供权”。判断侵权的关键在于原始作品的独创性元素在AI输出中是否“可识别”。本案中涉及歌词输出要么是逐字再现,要么与原始文本“未保持足够的距离”,原作的核心创造性部分清晰可辨。
此外,法院强调被告是直接侵权人,而非仅仅提供工具的中介——因为被告主动选择了训练数据、设计了模型架构、进行了训练并最终导致了记忆现象,用户仅输入简单提示,并未主导输出的具体内容。
这一判决的核心要义在于:AI模型对训练数据的记忆,在法律上等同于对作品的复制。这一认定对AI行业的合规路径具有深远影响——它意味着AI公司需要从根本上重新审视其训练数据处理模式,不能再以“技术中立”或“合理使用”为由回避版权授权义务。