(一)“入罪”的法律依据
在人工智能崛起前,法律对于无序网络信息采集已经编织了较为严密的防线,其中刑事责任处于金字塔的顶端,用以规制突破技术屏障、侵害多重法益的数据采集行为。《中华人民共和国刑法》是评估爬虫行为刑事风险的核心依据。
非法获取计算机信息系统数据罪首当其冲。依据《刑法》第285条第2款,违反国家规定,侵入国家事务、国防建设、尖端科学技术领域以外的计算机信息系统或者采用其他技术手段,获取该计算机信息系统中存储、处理或者传输的数据,情节严重的,构成犯罪。此罪的认定核心在于“侵入”的实质含义——司法实践将其界定为违背他人意愿,未经许可进入他人计算机信息系统,即行为人必须实施了规避或突破系统安全防护措施的行为。甚至通过合法渠道实现了账号登录,却在使用账号过程中,以技术手段突破授权边界,利用爬虫软件将导出权限提升覆盖至对全库底层原始数据的获取,该行为严重违背被害单位的授权意志、范围,本质上是超越授权非法获取信息数据。
提供侵入计算机信息系统程序罪则规制那些不直接实施爬取,但通过制造、提供“爬虫工具”获利的行为。上海普陀区法院2024年审理的王某案即是典型:王某开发了能破解“得物”APP防护措施、自动抓取商品数据的爬虫程序,通过网络平台售卖,短短两年获利60余万元。法院认定其行为构成提供侵入计算机信息系统程序罪,判处有期徒刑三年缓刑三年,并处罚金八万元。王某开发的爬虫软件通过技术手段,绕过“得物”APP的防护机制,获取“得物”APP服务器数据,属于违法的“侵入性”访问。
当AI企业将爬取的数据用于违法用途,或者爬虫行为破坏了目标网站的正常运行时,还可能涉及破坏计算机信息系统罪——利用爬虫对目标网站或系统发起大量请求,导致系统负载过高甚至崩溃,可能构成该罪。
此外,爬取的公开数据中若包含未脱敏的公民个人信息,用于商业目的可能构成侵犯公民个人信息罪;若数据涉及商业秘密,还可能触犯侵犯商业秘密罪。
(二)“爬取公开数据也构成犯罪”的误区与真相
“爬取公开数据是否可能构成犯罪”是一个困扰AI行业多年的问题。理论上,如果这些数据对任何人都是可见的,自然不存在“侵入”的问题,不应构成非法获取计算机信息系统数据罪。然而在司法实践中,并非所有看似公开的数据都能被视为“允许爬取的数据”。
上海普陀区法院在王某案判决书中明确指出:“允许访问的公开数据不代表允许爬虫抓取。”法院认为,公开数据的“访问”和“抓取”在行为对象、行为内容和行为目的上均存在本质差异。访问公开数据是指用户以消费为目的,浏览企业以文字、图片等形式展现的信息内容;而爬虫抓取的是数据分析者在系统后台以计算机语言编辑、传输的加密代码,用以价格监控、行为分析、趋势预测等目的,已超出了公开数据合理使用的限度。
涉案商品信息在“得物”APP客户端可以正常浏览,但信息在APP后台所对应的代码进行了加密保护,并设置了多重反爬虫措施——包括签名认证、图形验证、设备指纹、代码混淆加固等。王某开发的爬虫程序通过破解API加密算法、批量获取设备身份指纹SK等技术手段绕过了这些防护机制。法院认定,被告无视系统警示、未经授权许可提供爬虫程序破解防护机制的行为,已属于提供“专门用于侵入计算机信息系统的程序”,而非单纯的技术行为。
(三)正当利益并非刑事抗辩的有效理由
在涉及个人信息处理的AI训练场景中,欧盟《通用数据保护条例》(GDPR)将“数据控制者正当利益”作为AI预训练中处理个人数据的合法性基础,但我国《个人信息保护法》在制定时并未将“处理者正当利益”作为个人信息处理的合法依据,该条采封闭式列举,企业以正当利益为由大规模处理个人信息在法律依据上存在空白。