AI训练数据合法性评估:版权授权与合理使用边界
发布日期:
2026-06-22

从早期单一文本生成到当下图像、音乐、视频并行的多模态内容生成,人工智能每一次技术迭代,都对训练数据的体量、深度与复杂度提出了更高要求,当下大模型竞争早已跳出算法、算力的表层比拼,本质是合法合规的数据供给与治理能力的较量,能否稳定获取高质量多模态数据集,直接决定AI企业在产业中的竞争地位;但当前行业普遍直接抓取网络受版权保护作品用于模型预训练,引发了大量跨境版权侵权纠纷,而诞生于传统互联网时代的著作权法律体系,无法适配大模型非表达性、机器自动化的数据解构使用模式,严苛的全授权模式会抬高技术创新成本,完全放任数据使用又会侵害版权人合法权益,在二者的利益冲突之下,版权合理使用制度成为各国探讨化解矛盾的核心路径,可传统合理使用判定标准难以适配AI场景,域外相关理论也无法直接照搬,学界与司法实务至今未形成统一裁判共识。

2025年11月,上海市金山区人民法院的一纸判决,让中国AI行业的版权合规问题正式走到了聚光灯下。在《斗破苍穹》美杜莎形象被抄袭案中,一名平台用户截取动漫角色图片作为训练素材,通过AI平台生成两款LoRA模型并发布供他人使用,最终被认定侵害了著作权人的复制权和信息网络传播权。这是上海首例人工智能大模型著作权侵权案一审宣判,也是国内首个对“用户利用AI平台训练模型”这一场景作出完整法律定性的判决。

德国慕尼黑第一地方法院对GEMA诉OpenAI案作出一审判决,认定OpenAI在训练AI模型过程中对受版权保护歌词的“记忆”行为构成著作权法意义上的“复制”,须承担停止侵权、赔偿损失等责任1。此案成为全球首个认定AI模型训练中对作品的“记忆”等同于著作权法下“复制”的司法判决。

几乎同时,美国加利福尼亚州北区联邦地区法院在卡德雷等人诉Meta案中,却得出了截然不同的结论——法院认定Meta公司使用原告作品训练大语言模型的行为构成“合理使用”。2

一纸判决之间,大西洋两岸的司法立场呈现鲜明分野。生成式人工智能以海量版权作品为“燃料”迅猛发展,而版权法的核心法则——未经许可不得使用——却在这一新的技术现实面前遭遇前所未有的挑战。训练数据究竟是合法的“合理使用”,还是构成“著作权侵权”?AI企业如何在现行法律框架下建立稳健的版权合规体系?这些问题不仅关乎千亿级AI产业的合规成本,更将深刻影响版权产业的生态平衡。

本文将系统梳理训练数据版权的法律基础、国内外核心司法判例、立法动态与企业应对路径,为AI从业者与内容产业在现阶段提出合规行为指引。

一、训练数据的法律定性

(一)训练行为在法律上的定性

按照版权法的基本原理,未经著作权人许可,使用他人受版权保护的作品,原则上都构成侵权。生成式人工智能模型训练过程中,对受版权保护作品的使用,基本符合著作权侵权的构成要件。

从技术流程上看,人工智能模型训练至少包含以下环节:数据收集时从网站、数据库等渠道下载数据,形成初始备份;数据整理过程中进行格式转换、筛选和标注,反复复制作品内容;训练过程中,模型需要多次访问、处理和临时复制训练数据,以实现参数优化。每一个环节,都在著作权法意义上构成了对作品的“复制”。

从法律构成要件判断,训练数据侵权的认定需满足“接触+实质性相似”这一传统著作权侵权裁判标准。然而,这一标准正面临前所未有的挑战。AI训练通过算法将文本进行向量化数学表征处理,最终形成碎片化、不连续的分布式存储方式。被训练的作品以参数的形式“溶解”在模型之中,并未以完整的表达形式被固定下来。这与著作权法所定义的“复制”概念存在结构性差异——著作权法对复制权的定义以机械化复制时代为基础,难以完全适应深度学习的技术现状。

(二)合理使用制度的法理基础

合理使用制度是各国版权法为平衡权利人与社会公共利益而设置的重要制度工具。

美国《版权法》第107条明确了合理使用的四个法定要素:(1)使用的目的与性质;(2)被使用作品的性质;(3)使用部分的数量与实质性;(4)对作品潜在市场或价值的影响。四个要素没有单一要素具有决定性,法院需要在综合权衡中得出结论。

我国《著作权法》第24条以封闭列举的方式规定了13种合理使用情形,包括为个人学习研究、适当引用、新闻报道、课堂教学、国家机关执行公务等特定目的使用作品,无需经著作权人许可,也无需支付报酬。然而,这一列举清单中并未包含“AI模型训练”这一使用场景。

中国有学者表示,将AI语料库建设和数据训练归为“合理使用”存在正当性缺失、公平性失衡等缺陷。建立语料库需对海量作品进行复制,若未经许可且未产生新价值,单纯以“学习”为由主张合理使用在法理上难以自洽3

有研究者提出关于合理使用是否适用于AI训练,存在不同观点。生成式人工智能应用对著作权人并没有造成整体激励的削弱,只是导致了激励行为的结构性调整,因此不需要将著作权保护延伸到数据训练来补偿。依据“人工智能产业的发展蕴含着巨大的公共利益属性,且由于当前数据交易市场存在市场失灵的局面,从合理使用制度自身价值和功能出发,应将生成式人工智能数据训练行为纳入合理使用分析框架”。

合理使用制度的本质,在于允许那些不构成市场替代的新表达形式出现。AI模型通过海量数据训练,学习的是统计规律和语言模式,并非简单“重新包装”原著,这正是“转换性使用”的法理基础。但同时,这种“学习”是否足以构成“转换性使用”,在全球司法实践中尚无统一答案。各国法院正在以各自的方式,为这个技术时代最重要的版权法命题寻找答案。

二、国内外核心判例解析国内外核心判例解析

(一)中国:斗破苍穹案——用户训练模型的侵权认定4

2025年上海市金山区人民法院对《斗破苍穹》美杜莎形象被抄袭案作出一审宣判。被告李某截取动漫中美杜莎形象图片二十余张,通过某AI图像生成平台的“训练LoRA”功能投入训练,生成两款美杜莎LoRA模型并发布。其他用户使用这些模型时,可通过不同提示词生成与美杜莎形象相同或实质性相似的图片。

法院认定,被告李某以商业使用为目的,在素材截取阶段及LoRA模型训练、发布及使用阶段再现在先作品的独创性表达,将美杜莎图集和短视频等素材通过网络提供给公众,侵害了原告对“美杜莎”作品享有的复制权和信息网络传播权。

本案的关键法律看点在于:其一,模型训练过程中的数据复制行为被明确认定为独立的著作权侵权行为,而非仅仅根据生成结果来判断侵权。这在司法实践中具有重要意义——它意味着模型训练过程本身就可能构成侵权,即便模型没有生成直接复制原作的输出,只要训练素材中使用了未经授权的版权作品,就可能单独构成侵权。其二,提供AI训练功能的平台方被认定为“网络服务提供者”,需遵循“通知+必要措施”规则。法院认为平台向用户尽到了合理告知义务,并及时采取了删除和下架措施,因此在主客观条件上均不构成侵权。这一认定厘清了平台方与用户的责任边界,为AI平台合规运营提供了规则指引。

(二)美国:卡德雷诉Meta案——合理使用的“风向标”5

2025年美国联邦地区法院对卡德雷等人诉Meta公司案作出判决。这是美国司法系统首次对使用版权作品训练大语言模型是否构成合理使用作出系统性回应。

本案原告是由理查德·卡德雷等13名作家组成的团体,被告是科技巨头Meta公司。原告指控Meta公司在未经许可、未署名且未支付报酬的情况下,大规模复制了他们的书籍,用于训练LLaMA大语言模型。特别值得注意的是,原告指出Meta用于训练的数据集包含了从“影子图书馆”(Books3、Bibliotik、LibGen等)获取的作品,这些平台是众所周知的盗版内容集散地。

法院依据美国《版权法》第107条对合理使用的四个要素进行了系统性审查:

要素一:使用的目的与性质。法院认为,原告书籍的目的是供人阅读以获取娱乐或知识,而Meta复制这些书籍的目的是训练一个功能性的软件工具。LLaMA模型并非简单地“重新包装”原著,而是从数据中学习统计规律,以创造出在性质和功能上全新的事物,这正是“转换性使用”的核心要义。关于备受争议的“恶意”获取盗版数据问题,法院认为,即使Meta明知是盗版书籍而使用,这种恶意也不影响其后续训练使用行为的转换性——合理使用的宗旨在于允许不构成市场替代的新表达形式出现,而原始材料的来源是否合法,并不会改变后续使用的根本性质。

要素二:受版权保护作品的性质。法院承认涉案作品多为小说、回忆录等创造性和表达性极高的作品,理应处于版权保护的核心范围。但法院同时指出,在现代对合理使用的判断中,该要素很少起到决定性作用。

要素三:使用部分的数量与实质性。法院认为,为了有效训练大语言模型,复制整部作品是合理且必要的。因此,既然复制全部内容是实现合法转换性目的所必需的,那么这种复制行为在数量与实质性上就是合理的。

要素四:对潜在市场或价值的影响。法院驳回了原告提出的两个主要市场损害理论:一是“输出内容替代”理论——证据显示模型在对抗性提示下也不会“反刍”出任何有意义的文本片段,无法对原著市场构成威胁;二是“授权许可市场损失”理论——法院认为这是循环论证,一个正在发展中的市场尚不能作为已发生的市场损害依据。

最终,法院认定Meta公司使用原告作品训练大语言模型的行为构成合理使用。但这一判决并非对AI公司使用版权作品的无条件认可。法院的判决逻辑实际上为未来的版权诉讼留下了若干重要空间:如果原告能够举证AI模型的输出确实替代了原著市场,如果能够证明数据获取方式的恶意程度足够严重,或者如果能够提供更充分的授权许可市场损害证据,案件的裁判结果可能会有所不同。

该案通过深入的法理论证,为后续司法实践和版权治理提供了极具价值的启示。正如法院所提示的,未来如果有原告能够提供更充分的市场损害证据,“可能会取得不同的结果”。

(三)德国:GEMA诉OpenAI案——“记忆”即“复制”的里程碑式认定6

2025年德国慕尼黑第一地方法院对GEMA诉OpenAI案作出判决,为全球AI版权诉讼贡献了一个具有标杆意义的判例。

原告GEMA是欧洲规模最大的音乐著作权集体管理组织。案件源于被告运营的ChatGPT未经授权使用GEMA管理的九首歌词用于训练,原告发现通过简单提示词,模型即可输出与原作高度雷同的内容,部分段落甚至逐字复制——如《Männer》副歌重复率达70%以上。

法院的核心法律认定可分为两个层次:

第一层次,法院将技术上的“记忆”行为定性为法律上的“复制”行为。法官采信了信息学研究的结论,即当训练数据在训练集中反复出现时,模型会对其进行“记忆”。模型输出高度相似或完全相同歌词的行为,构成了“记忆”的坚实证据。在法律定性上,法官援引欧盟《信息社会著作权指令》,强调复制权定义广泛,包括“以任何方式或形式”、“直接或间接”、“临时或永久”的复制。尽管歌词被分解为参数分布在模型中,但这种在参数中的“固定”足以构成著作权法所要求的“有形固定”。法官将此类比于MP3压缩技术——尽管数据被压缩和转换,但仍被认定为复制。

第二层次,法院认定被告运营的AI模型使得任何用户都可以通过简单提示词调用模型中存储的保护歌词,构成了侵犯“向公众提供权”。判断侵权的关键在于原始作品的独创性元素在AI输出中是否“可识别”。本案中涉及歌词输出要么是逐字再现,要么与原始文本“未保持足够的距离”,原作的核心创造性部分清晰可辨。

此外,法院强调被告是直接侵权人,而非仅仅提供工具的中介——因为被告主动选择了训练数据、设计了模型架构、进行了训练并最终导致了记忆现象,用户仅输入简单提示,并未主导输出的具体内容。

这一判决的核心要义在于:AI模型对训练数据的记忆,在法律上等同于对作品的复制。这一认定对AI行业的合规路径具有深远影响——它意味着AI公司需要从根本上重新审视其训练数据处理模式,不能再以“技术中立”或“合理使用”为由回避版权授权义务。

三、企业合规路径

从上述判例可以看出,不同法域对训练数据版权问题的处理呈现出明显的路径差异:美国以“转换性使用”为核心的合理使用分析路径,重点关注的是AI模型输出的性质和功能是否发生了根本性转变,核心衡量的是输出端。德国以“记忆即复制”为核心的分析路径,核心衡量的是输入端——未经许可将作品纳入训练数据集本身就构成复制权侵权。而中国的裁判思路更倾向于实质审理,从输入端的作品判断是否构成复制权的侵权。由于目前法律规定对于训练数据获取、使用是否属于“合理使用”尚未有具体的定论,且各国在基本判断逻辑上存在较大差异,决定了目前AI企业在合规治理的路径上必须兼收并蓄。

(一)输入端:数据来源的合法性审查

1.数据来源的合法性是训练数据版权合规的首要环节。生成式人工智能服务提供者依法开展训练数据处理活动,应当使用具有合法来源的数据,不得侵害他人依法享有的知识产权。AI企业在实践中应建立数据来源合规审查机制,对每一批训练数据进行来源追溯和权属评估,确保不含有未经授权的版权作品。

2.对于已经使用但尚未能及时获得授权的训练数据,应该建立“选择退出”机制,在权利人主张权利或明确声明拒绝被用于训练时,及时进行删除和清理数据。

3.“转换性使用”的原则要适用,AI企业对于采集数据的利用需要从根源上进行数据拆分,从数据中学习规律,创造出在性质和功能上全新的事物。转化过程中的数据处理和使用方式需要记录,并可以追溯。

4.对于训练数据的范围以“合理限度”为宜,如果可以使用部分作品训练就不要进行作品整体使用,而是通过对作品部分要素或部分章节的节选,建立后续的推理逻辑。如果可以证明后续训练和学习是必须使用全部作品,必须可以对“必要性”建立相关的证据逻辑。

(二)中端:数据处理与使用方式

1.训练数据采集后的加工、存储和使用环节同样需要合规管控。企业应在技术层面建立数据使用记录和审计机制,确保可追溯、可审计。

2.企业需要关注模型的“过度记忆”风险,所谓“过度记忆”是指即便AI公司主张其模型只是通过训练学习特征,而非“复制”作品,但只要模型的输出能够还原或高度相似于原始作品,就可能被认定为著作权侵权行为。因此,企业在模型开发过程中应对模型的“记忆”程度进行检测和评估,采取措施降低模型输出与原作实质相似的风险。

3.当用户输入的提示词涉及知名作品名称、角色名称等高风险关键词时,系统应主动提示风险或拒绝生成。AI平台应采取关键词过滤等措施,防范生成与在先作品实质性相似的图片。

(三)输出端:内容过滤与侵权监测

1.企业应建立AI生成内容的侵权检测与过滤机制。AI平台具有内容与服务双重属性,AI平台方责任认定正逐步形成“阶段注意义务”体系:事前平台需根据经营模式、技术能力履行合理预防义务,如建立版权投诉渠道;事后则严格遵循“通知+必要措施”规则,及时删除或屏蔽侵权内容。AI平台的管理机制要完善并有追踪记录,确保每一个版权投诉都可以获得及时的处理。

2.AI企业需要健全用户使用协议内容,对于用户提供的相关文件、数据、作品等作出不侵权的承诺,明确用户和平台责任划分,为避免免责条款的效力受格式条款规制,AI平台应尽到相应提示义务。

3.AI企业也应该建立内部核查机制或技术措施,对相关作品的版权进行筛选。技术中立抗辩需以主动构建侵权预警机制为前提。AI企业应在技术可行、成本合理的情况下,主动采取措施避免生成与在先作品实质性相似的内容。

4.对AI生成内容进行显著标识

2025年9月1日起施行的《人工智能生成合成内容标识办法》要求,所有AI生成内容必须依法添加相应的声明标识,未履行标识义务本身就可能构成违规,并影响免责抗辩的成立。

四、结语

AI训练数据的版权合法性评估,不是一个可以简单回答的技术问题,而是一个复杂的法律权衡命题。技术创新的车轮与版权保护的护栏正在激烈碰撞,而这场碰撞将从根本上重塑AI产业和内容产业之间的力量平衡。

对于AI企业而言,版权合规已从“可选项”变成了“必选项”。正如一位学者所言,训练数据是整个生成式AI的地基——如果模型侵权使用海量数据训练,后续所有输出就不具有合法性。没有合法授权,模型本身就是“污染源”。

在可以预见的未来,建立合规、透明、可持续的训练数据使用机制,不仅是企业规避法律风险的现实需要,更是构建AI行业可持续发展模式的内在要求。技术和法律的碰撞,最终将催生出新的制度平衡——而这一平衡的形成过程中,作为AI企业所要做的就是最大限度降低企业侵权和被诉风险,通过合作、授权、购买等多种方式建立自身的合规的训练数据源。

向上滑动阅览

【1】https://naipnews.naipo.com/zh-hans/35333/#_ftn1

【2】http://www2.iprdaily.cn/news_40960.html

【3】http://prccopyright.org.cn/staticnews/2026-06-02/260602102642164/1.html

【4】http://www2.iprdaily.cn/news_40981.html

【5】http://www2.iprdaily.cn/news_40960.html

【6】https://naipnews.naipo.com/zh-hans/35333/#respond

作者:韩玲