AI企业“爬虫行为”法律风险全景分析
发布日期:
2026-06-15

2025年6月3日,上海市静安区法院作出一审判决,Y公司及其负责人杨某某因利用爬虫程序非法下载一家科技型企业1800余万条专业数据,被以非法获取计算机信息系统数据罪判处单位罚金五万元、个人有期徒刑三年(缓刑三年)并处罚金三万元1。该案件并非孤例,同年9月,上海市普陀区检察院对陈某等3人提起公诉,指控其爬取8亿余条餐饮商超及地图数据用于生成商业报告并111牟利,涉案金额高达5万余元2

爬虫数据采集与生成式人工智能模型训练之间存在天然的衔接关系。数据显示,大模型的训练依赖于海量的多模态数据,而大量爬取公开数据成为最为常见的训练数据获取方式之一。然而,正当的数据积累渠道尚未被充分认知之际,刑罚的达摩克利斯之剑已悬于未经合规培训的初创团队之上。从“腾讯诉网智案”到“淘宝诉小旺神案”,从“Reddit诉Anthropic”到“谷歌诉SerpApi”,数据爬取的法律边界正在全球范围内被不断重塑和划定。

对于AI企业而言,一个根本性的问题摆在面前:通过爬虫技术获取训练数据的合法边界究竟在哪里?本文将从刑事风险、民事侵权、跨境合规、数据合规四大维度,结合最新判例与监管动态,对这一问题展开全景式分析。

一、刑事风险

(一)“入罪”的法律依据

在人工智能崛起前,法律对于无序网络信息采集已经编织了较为严密的防线,其中刑事责任处于金字塔的顶端,用以规制突破技术屏障、侵害多重法益的数据采集行为。《中华人民共和国刑法》是评估爬虫行为刑事风险的核心依据。

非法获取计算机信息系统数据罪首当其冲。依据《刑法》第285条第2款,违反国家规定,侵入国家事务、国防建设、尖端科学技术领域以外的计算机信息系统或者采用其他技术手段,获取该计算机信息系统中存储、处理或者传输的数据,情节严重的,构成犯罪。此罪的认定核心在于“侵入”的实质含义——司法实践将其界定为违背他人意愿,未经许可进入他人计算机信息系统,即行为人必须实施了规避或突破系统安全防护措施的行为。甚至通过合法渠道实现了账号登录,却在使用账号过程中,以技术手段突破授权边界,利用爬虫软件将导出权限提升覆盖至对全库底层原始数据的获取,该行为严重违背被害单位的授权意志、范围,本质上是超越授权非法获取信息数据。

提供侵入计算机信息系统程序罪则规制那些不直接实施爬取,但通过制造、提供“爬虫工具”获利的行为。上海普陀区法院2024年审理的王某案即是典型:王某开发了能破解“得物”APP防护措施、自动抓取商品数据的爬虫程序,通过网络平台售卖,短短两年获利60余万元。法院认定其行为构成提供侵入计算机信息系统程序罪,判处有期徒刑三年缓刑三年,并处罚金八万元。王某开发的爬虫软件通过技术手段,绕过“得物”APP的防护机制,获取“得物”APP服务器数据,属于违法的“侵入性”访问。

当AI企业将爬取的数据用于违法用途,或者爬虫行为破坏了目标网站的正常运行时,还可能涉及破坏计算机信息系统罪——利用爬虫对目标网站或系统发起大量请求,导致系统负载过高甚至崩溃,可能构成该罪。

此外,爬取的公开数据中若包含未脱敏的公民个人信息,用于商业目的可能构成侵犯公民个人信息罪;若数据涉及商业秘密,还可能触犯侵犯商业秘密罪

(二)“爬取公开数据也构成犯罪”的误区与真相

“爬取公开数据是否可能构成犯罪”是一个困扰AI行业多年的问题。理论上,如果这些数据对任何人都是可见的,自然不存在“侵入”的问题,不应构成非法获取计算机信息系统数据罪。然而在司法实践中,并非所有看似公开的数据都能被视为“允许爬取的数据”。

上海普陀区法院在王某案判决书中明确指出:“允许访问的公开数据不代表允许爬虫抓取。”法院认为,公开数据的“访问”和“抓取”在行为对象、行为内容和行为目的上均存在本质差异。访问公开数据是指用户以消费为目的,浏览企业以文字、图片等形式展现的信息内容;而爬虫抓取的是数据分析者在系统后台以计算机语言编辑、传输的加密代码,用以价格监控、行为分析、趋势预测等目的,已超出了公开数据合理使用的限度。

涉案商品信息在“得物”APP客户端可以正常浏览,但信息在APP后台所对应的代码进行了加密保护,并设置了多重反爬虫措施——包括签名认证、图形验证、设备指纹、代码混淆加固等。王某开发的爬虫程序通过破解API加密算法、批量获取设备身份指纹SK等技术手段绕过了这些防护机制。法院认定,被告无视系统警示、未经授权许可提供爬虫程序破解防护机制的行为,已属于提供“专门用于侵入计算机信息系统的程序”,而非单纯的技术行为。

(三)正当利益并非刑事抗辩的有效理由

在涉及个人信息处理的AI训练场景中,欧盟《通用数据保护条例》(GDPR)将“数据控制者正当利益”作为AI预训练中处理个人数据的合法性基础,但我国《个人信息保护法》在制定时并未将“处理者正当利益”作为个人信息处理的合法依据,该条采封闭式列举,企业以正当利益为由大规模处理个人信息在法律依据上存在空白。

二、民事侵权的多层次维度:从不正当竞争到合同违约

(一)不正当竞争法的适用空间

相较于触发刑事追责的高门槛与极为严格的事中调查取证难度,爬取AI训练数据在民事领域更容易触发不正当竞争相关的法律规定。

《反不正当竞争法》(2025修订版)第十三条对违反Robots协议的自动化采集行为提供了更明确的法律评价依据3。当脱离搜索引擎的公益语境后,AI服务绕过Robots协议抓取内容的行为,应直接适用《反不正当竞争法》的一般原则和具体规定进行分析。甚至在“腾讯诉网智案”中,网智公司认为腾讯公司公示的爬虫协议中明确允许其他经营者使用网络爬虫爬取新闻数据,其行为不属于不正当竞争行为。但是法院则认为腾讯新闻数据系腾讯公司通过持续性投入形成的竞争性资源,承载着企业的商业利益与创新动力。网智公司在未经许可亦未支付报酬的情况下,大量采集腾讯新闻数据并进行商业化使用的行为,损害了腾讯公司一方的合法利益,有违公平竞争原则,与公认的商业道德不符,构成不正当竞争。该案表明即便在robots协议允许范围内的公开数据进行爬取也可能构成侵权。

(二)著作权法下的侵权风险

AI模型训练过程中,对训练数据的复制、存储和处理行为可能直接侵犯著作权人的复制权和信息网络传播权。爬取的公开数据中若包含文字、图片、音乐、视频等受版权保护的内容,即便该内容在网络上是公开可访问的状态,AI企业未经授权将其批量复制并用于商业化模型训练,仍可能构成著作权侵权。

需要特别关注的是,AI训练的法律风险并不只发生在模型输出阶段。训练前端的大规模复制、清洗、标注、向量化和数据集固化,同样可能引发著作权权利争议。2025年“美杜莎案”4中,法官认为被告李某(平台使用者)以商业使用为目的,在素材截取阶段及LoRA模型训练、发布及使用阶段再现在先作品的独创性表达、将“美杜莎”图集和短视频等素材通过网络提供给公众,侵害了原告对“美杜莎”作品享有的复制权和信息网络传播权。但是平台向用户尽到了合理告知义务,设置了投诉举报机制和发布审核机制,在收到起诉状后及时下架了全部美杜莎LoRA模型,并更新平台审核机制中的筛选关键词,在接到原告通知后,及时通知了海外AI平台,主观上并无过错,客观上尽到了“采取必要措施”“转通知”义务,不应认定构成侵权。随着国内“美杜莎案”等司法判例在AI模型训练数据版权问题上的落地,著作权侵权诉讼对于国内AI企业而言将逐步从理论风险转化为实际的法律成本。

(三)平台规则的法律约束力

用户协议或服务条款中明确禁止的自动化爬取行为,在司法实践中逐渐被视为具有法律约束力的合同义务。爬虫采集行为若违反用户协议,企业可能需承担合同违约责任。HiQ Labs v. LinkedIn案件在这方面提供了重要的比较法视角。案件的关键转折在于后续判决的走向:地方法院在后续判决中确认,即便《计算机欺诈与滥用法案》(CFAA)不适用,hiQ仍然可能构成对LinkedIn用户协议的违约,因为hiQ曾注册账号并同意相关条款,包括禁止爬取及假账号行为。最终案件于2022年12月以和解方式结案:hiQ同意永久停止爬取LinkedIn数据,删除已获取的全部数据、相关源代码及基于这些数据开发的算法,向LinkedIn支付50万美元赔偿,并同意LinkedIn在包括CFAA、州级计算机滥用法、侵权挪用等多个法律依据下建立责任。值得注意的是,该案以和解方式结案,双方在同意判决中的约定内容并非法院的事实认定,不具有判例法上的先例价值,但和解条款中支付的50万美元赔偿及数据销毁义务,为AI企业敲响了警钟:即便CFAA风险得以规避,合同违约和不正当竞争的法律成本同样不容小觑。目前我国还没有类似案例,大部分的被侵权企业均基于反不正当竞争法、著作权法的相关规定进行诉讼,基于违约诉讼的并不多见。这可能是由于目前平台的用户协议和服务条款中对于爬虫技术的限制条款并不严谨导致。

综上分析,从开放数据共享的角度来看,完全禁用网络爬虫并不总是合法行为。美国第九巡回上诉法院曾在hiQ案的CFAA层面裁定,对于互联网上完全公开、无需任何权限(如密码)即可访问的页面,使用自动化程序进行抓取,不构成CFAA所禁止的“未经授权的访问”。这一判决的内在逻辑在于数据公开属性的认定——一旦数据被公之于众,原数据的控制者放弃了一定的排他性控制权,任何人都有浏览的权利,自动化采集虽然频率和规模超出人工浏览的范畴,但并未触及CFAA旨在规制的“侵入”行为。然而,这一结论并未获得美国最高法院的最终确认——最高法院曾在2021年将该案发回重审。最终以和解收场,并未形成最终定论。

对AI企业而言,理解这一逻辑边界至关重要:一方面可以援引公开属性的法理依据,对纯公开数据的爬取行为进行抗辩;另一方面必须清醒认识到,在中国法域下,法院更多地着眼于爬虫对网站服务器资源的消耗、对被爬方竞争利益的侵蚀,以及爬取行为是否突破了网站设置的技术防护措施——即便爬取的是公开数据,若采用了突破技术防护的手段,依然可能构成侵权。

三、跨境爬虫的合规要求

(一)美国CFAA框架下的公开数据爬取之争

美国CFAA是规制网络爬虫行为最为核心的法律工具,其禁止未经授权或超越授权访问受保护的计算机。然而在hiQ案中,第九巡回上诉法院作出了对爬虫方相对有利的裁定:对于互联网上完全公开、无需任何权限(如密码)即可访问的页面,使用自动化程序进行抓取不构成CFAA所禁止的“未经授权的访问”。该裁决明确指出,CFAA的立法意图是针对“黑客式侵入”,而非普通公众访问公开网页的行为。

然而,爬取方仍需审慎考虑CFAA框架下两个潜在的风险点。首先,不能仅依赖第九巡回上诉法院的裁决,仍需全面评估全美各联邦法院对CFAA适用问题的立场分歧——不同巡回区法院对该条款的解释存在显著差异。其次,“未授权访问”的判定标准正在悄然变化:最新司法动态表明,即使爬取的是技术层面的公开数据,如果访问频率、规模、手段突破了网站设置的技术保护措施(如IP封锁、签名认证、验证码等),仍可能被认定为CFAA意义上的“未经授权”。

2025年12月19日,Reddit公司对Perplexity AI公司提起诉讼6,指控其通过数以亿计的虚假搜索绕过技术保护措施,非法爬取受版权保护的内容,随后将这些数据整合至其“答案引擎”中。这对国内AI企业的启示尤为深远:其一,直接爬取境外网站的公开数据并非CFAA下的“避风港”,网站运营方有权基于用户协议、技术措施和各类州法进行全方位诉讼围剿;其二,越来越多境外数据抓取纠纷以高额和解金和数据销毁义务收场,爬取方即使未最终败诉,其诉讼成本和商业操作上的限制也足以使其业务无法为继;其三,通过规避访问限制获取的公开内容未必属于“可自由训练”范畴。

(二)欧盟GDPR与版权法下的双重要求

欧盟在数据隐私和版权保护方面采取了更为严格的监管立场。GDPR要求,爬取欧盟境内数据主体的个人信息必须具有明确的合法性基础,包括数据主体的同意或控制者的正当利益等法定依据。AI企业通过爬虫获取欧洲用户的社交媒体数据、评价信息等个人数据时,必须面临GDPR严格的事前通知、目的限制和数据最小化原则的约束。

在AI预训练场景下大规模抓取个人信息的问题上,由于GDPR将数据控制者正当利益作为合法性基础,但我国《个人信息保护法》在制定时并未将“处理者正当利益”纳入个人信息处理的合法依据,因此中国AI企业在处理境外个人数据时的合规路径尚未完全明确。

在著作权保护方面,根据欧盟《数字单一市场版权指令》第3条和第4条,为科学研究的文本与数据挖掘目的使用作品提供了一定程度的合理使用空间,但商业性质的AI模型训练并不当然享受这一豁免,进一步要求通用人工智能模型提供者制作并持续更新技术文档,包括训练和测试过程等信息,制定遵守欧盟版权法的政策,并按照官方提供的模板,公开关于训练内容的充分详细摘要。这表明,欧盟监管并不简单地一刀切禁止使用互联网数据,而是要求模型提供者能够详细说明“使用了什么类型的数据、如何取得、如何尊重权利限制、如何形成训练数据治理记录”。

此外,欧盟法院在Ryanair v. PR Aviation案中提供了重要比较法视角。涉案的比价网站PR Aviation使用自动化程序从Ryanair官网抓取航班信息,Ryanair在网站条款中明确禁止自动化工具抓取数据用于商业目的,用户必须点击同意这些条款才能继续浏览。法院裁决,即使欧盟数据库指令不直接赋予Ryanair对航班数据的数据库特殊权利,其仍可依据网站服务条款中的合同约定,禁止PR Aviation的自动化爬取行为。这一裁决明确通过用户协议对自动化抓取行为进行事先禁止,是欧盟境内数据控制方有效的法律防御手段,AI企业在爬取境外网站时必须确保遵守相关的服务条款和用户协议。

四、AI企业“爬虫行为”的合规框架

面对日益趋严的监管环境和不断涌现的司法判例,AI企业必须建立系统性的数据采集合规体系。以下五个方面构成了爬虫数据采集合规的核心框架:

第一、建立分层采集策略。将互联网数据按照“公开程度、技术防护程度、知识产权属性和隐私程度”分为不同层级。第一层级为完全公开且无技术措施的数据,需关注Robots协议和网站服务条款。第二层级为设有反爬措施的数据(验证码、签名认证、设备指纹等),应当在获取授权后进行。第三层级为需要登录或付费订阅的数据——必须通过正规授权渠道获取,不得以突破技术防护手段进行窃取。这三个层级不是彼此孤立的,越往高层面临的刑事风险越大。静安区法院的相关判例显示,即便存在合法登录账号,一旦以技术手段突破授权范围获取后台原始数据,就足以构成非法获取计算机信息系统数据罪。

第二、重视Robots协议与服务条款的合规审查。自动化采集行为应首先遵循目标网站的Robots协议,严格审查其服务条款是否禁止爬虫访问。解析Robots以识别禁止抓取的路径,设置合理的请求间隔避免对服务器造成压力,使用User-Agent标识爬虫身份以提升透明度,避免相关法律风险。

第三、建立数据授权溯源体系与训练数据全链路记录。AI企业应当对训练数据的来源、采集方式、处理过程、使用目的、数据形态进行全链路记录和留痕。当监管、客户或权利人追问数据来源时,企业应当能够清晰说明“这些数据从哪里来、凭什么可以用、用到了哪里、如何处理过、是否可以删除或停用”。这一全链路记录机制不仅是满足《生成式人工智能服务管理暂行办法》第七条“使用具有合法来源的数据”这一法定要求的必要手段,也是企业应对外部合规审查和知识产权争议时保护自身权益的核心证据支撑。

第四、建立版权合规与个人信息保护的双重防线。对著作权与个人信息的保护应建立在最小必要原则上,审慎构建数据内容合规的双重防线。在著作权维度,训练数据中若包含受版权保护的内容(新闻报道、音乐、图片、代码、学术论文等),应当审查其使用是否构成著作权法意义上的“合理使用”,不构成合理使用的应当通过正规授权渠道取得许可。在个人信息维度,《个人信息保护法》第二十七条虽允许在合理范围内处理个人自行公开或者其他已经合法公开的个人信息,但同时规定个人明确拒绝的不得处理,且处理活动对个人权益有重大影响的仍应依法取得个人同意。在AI训练场景中,企业不能只看信息是否公开,还应审查使用目的是否偏离原公开场景,处理方式是否超出个人合理预期。

第五、关注最新监管动态与制度建设。从制度建设层面来看,国家数据局于2026年6月印发的《关于推进行业高质量数据集建设行动的实施方案》提出了一系列前瞻性的制度安排,该方案鼓励发展“订阅模式”“商场模式”“定制模式”等多元数据交易模式,推动商业模式从基础数据包销售向API调用、模型化解决方案及全栈服务梯次跃升。这一政策信号表明,正当的数据授权交易渠道正在逐步建设之中,AI企业应当主动拥抱这一合规通道,而非继续依赖存在重大法律风险的爬虫采集模式。

五、结语

爬虫技术本身是中立的,它是网络数据获取的高效工具,也是人工智能训练数据供应链中的重要一环。然而,技术的中立性不能掩盖使用方式的法律后果。对于正在蓬勃发展的中国AI企业而言,真正的风险管理不是是否需要“完全放弃爬虫技术”,而是在法律法规并不完善,相关裁判规则尚未完全建立起来之前,AI企业通过规范自身爬取数据的行为,建立完善的内部有效的风险防控措施,留存过程监控文件,在发生法律纠纷和政府核查时作为有利证明。国家数据局的方案已明确提出“推动版权作品数据等有序用于模型训练,完善数据授权使用机制和收益分配规则”。当合规的交易通道逐步打通之时,AI企业应当以授权和合规渠道逐步取代存在争议的爬虫方式,从根本上消除训练数据的合法性问题。

数据是AI时代的生产资料,但数据采集的合法性是企业发展的生命线。唯有在合规的轨道上运行,技术创新的列车才能行稳致远。

向上滑动阅览

【1】https://www.spp.gov.cn/spp/zdgz/202507/t20250715_701316.shtml

【2】http://www.shzfzz.net/node2/zzb/n4484/n4486/u1ai1701295.html

【3】经营者不得以欺诈、胁迫、避开或者破坏技术管理措施等不正当方式,获取、使用其他经营者合法持有的数据,损害其他经营者的合法权益,扰乱市场竞争秩序。

【4】http://www.legaldaily.com.cn/IT/content/2025-11/04/content_9283435.html

【5】https://www.proskauer.com/blog/hiq-and-linkedin-reach-proposed-settlement-in-landmark-scraping-case

【6】https://ipr.mofcom.gov.cn/article/gjxw/ajzz/bqajzz/202510/1993704.html

作者:韩玲