文章目录
一、爬虫到底是违法还是合法呢?二、爬虫技术可能触犯的法律风险2.1 爬虫引发不正当竞争案例1案例2法条说明分析说明 2.2 爬虫侵犯用户个人信息案例法条说明分析说明 2.3 爬虫非法入侵计算机系统获取数据案例法条说明分析说明 2.4 提供非法爬虫工具案例法条说明分析说明 2.5 爬虫破坏计算机信息系统案例法条说明分析说明 三、爬虫如何避免触犯法律红线?四、总结
一、爬虫到底是违法还是合法呢?
爬虫技术是一种自动化的数据采集技术,其本质是对网络信息的自动抓取与处理,爬虫技术本身并不违法,但非法使用爬虫技术时可能会触及法律问题。(就如:水果刀作为工具,本身并不违法,但用来伤人就违法了)
接下来,我们深入剖析什么情况下使用爬虫属于违法行为。
二、爬虫技术可能触犯的法律风险
2.1 爬虫引发不正当竞争
案例1
【天津面兜兜网络科技有限公司不正当竞争案】
案情介绍:天津面兜兜网络科技有限公司(下称当事人)通过开发上货助手软件,提供商品信息数据“一键搬家”服务,在不同购物平台的服务市场上线运营并收取软件使用费。该软件通过调用第三方接口的方式,在未经数据源购物平台及平台内经营者同意的情况下,爬取数据源购物平台商品信息数据,并一键上传至其他具有竞争关系的购物平台。截至案发,该软件共爬取商品信息数据942万余条。
法律依据及处罚:当事人的行为违反了《中华人民共和国反不正当竞争法》第十二条第二款第(四)项的规定,依据该法第二十四条的规定,责令当事人停止违法行为,罚款100万元。
案情评析:商家利用“爬虫”程序窃取他人店铺相关信息,直接挪用他人劳动成果,属于新型网络不正当竞争行为。
案例2
【新浪微博诉今日头条移植数据不正当竞争案】
案情介绍:抖音公司未经微梦公司许可,通过对涉案新浪微博内容的爬取并将其直接“移植”到今日头条平台进行替代性或同质化地商业利用。
法律依据及处罚:法院认为抖音公司已构成2019年反不正当竞争法第二条所规制的不正当竞争行为。(2021)京73民终2816号二审判决书送达各方,北京知识产权法院二审维持一审2100多万元的判赔等。
案情评析:今日头条在有用户授权,但无平台授权的情况下,通过爬取微博内容,实现同一用户在微博发布的信息可以同步发布在头条网站的行为,依然会被认定为违法爬取,属于不正当竞争行为。
法条说明
《中华人民共和国反不正当竞争法》第十二条
经营者利用网络从事生产经营活动,应当遵守本法的各项规定。经营者不得利用技术手段,通过影响用户选择或者其他方式,实施下列妨碍、破坏其他经营者合法提供的网络产品或者服务正常运行的行为:
(一)未经其他经营者同意,在其合法提供的网络产品或者服务中,插入链接、强制进行目标跳转;
(二)误导、欺骗、强迫用户修改、关闭、卸载其他经营者合法提供的网络产品或者服务;
(三)恶意对其他经营者合法提供的网络产品或者服务实施不兼容;
(四)其他妨碍、破坏其他经营者合法提供的网络产品或者服务正常运行的行为。
分析说明
结合上诉案例,我认为,爬虫行为是否构成不正当竞争,可从以下两个方面加以认定:
(一)是否得到经营者授权同意?
案例中爬取的数据 “看似为公开数据”,从互联网信息开放角度来看貌似并无大碍。然而,法院明确指出,这类非独创性的数据集合,实则是平台经营者倾注了巨大的人力、物力及财力资源,通过合法手段积累而成的数据资产。此类数据集合凭借其规模优势和集群效应,构筑了互联网平台企业的竞争壁垒,构成了其不可或缺的竞争优势,理应受到法律的严格保护。未经授权擅自使用这些数据集合,无异于直接掠夺平台经营者的核心竞争资源,严重削弱其市场竞争地位。因此,可以明确的是,即便是那些已经公开的数据,一旦经过他人的精心经营处理(包括收集、存储、加工及传输等流程),也不能被视为爬虫技术合法抓取的对象。
(二)双方间是否存在竞争关系?
数据抓取公司在面对法律指控时,常常会以“双方并未构成直接竞争态势”作为辩护的基点,然而,在当今错综复杂的网络商业生态中,竞争的概念已被极大地拓宽,不再仅仅拘泥于传统意义上提供相同商品或服务、且在同一物理空间内竞争的狭义范畴。例如,在“大众点评诉百度地图”的案例中,百度地图通过技术手段抓取大众点评的商户信息,并将其整合进自己的平台展示给用户,法院最终裁定,尽管两者在某些细分领域各有侧重,但在为用户提供的核心功能上高度重合,因此构成了实质上的直接竞争关系。
免责声明:个人观点,仅供参考,对阅读本文后的进行爬虫行为的用户不承担任何法律责任。
2.2 爬虫侵犯用户个人信息
案例
【某大学生编写Python爬虫脚本爬取全国多家医院患者非法获利案】
案情介绍:2022年6、7月间,在校大学生陈某通过某境外加密通讯软件获取他人发布的漏洞信息和接口数据后,利用自行编写的python爬虫脚本,多次在互联网上爬取全国多家医院患者姓名、手机号、身份证号码等个人信息,非法获取多省医疗系统数据16107750条。同时,陈某通过该境外加密通讯软件向他人累计出售个人信息数据21726493条,非法获利1351.32USDT(数字虚拟货币),折合人民币9077元。
法律依据及处罚:莱西市人民法院以侵犯公民个人信息罪判处陈某有期徒刑三年,缓刑四年,并处罚金人民币一万元,同时判令陈某彻底删除用于非法获取公民个人信息的Python爬虫脚本及其所非法持有的公民个人信息,支付赔偿金人民币9077元,在国家级新闻媒体上公开赔礼道歉。
案情评析:互联网、大数据时代,公民个人信息兼具人身与财产属性,同时作为重要的社会资源具有突出的公共属性。非法获取并出售公民个人信息造成众多不特定公民个人信息泄露,面临遭受侵害的风险,属于严重违法行为。
法条说明
《中华人民共和国刑法》第二百五十三条之一
【侵犯公民个人信息罪】违反国家有关规定,向他人出售或者提供公民个人信息,情节严重的,处三年以下有期徒刑或者拘役,并处或者单处罚金;情节特别严重的,处三年以上七年以下有期徒刑,并处罚金。
违反国家有关规定,将在履行职责或者提供服务过程中获得的公民个人信息,出售或者提供给他人的,依照前款的规定从重处罚。
窃取或者以其他方法非法获取公民个人信息的,依照第一款的规定处罚。
单位犯前三款罪的,对单位判处罚金,并对其直接负责的主管人员和其他直接责任人员,依照各该款的规定处罚。
分析说明
刑法第二百五十三条之一规定的“公民个人信息”,是指以电子或者其他方式记录的能够单独或者与其他信息结合识别特定自然人身份或者反映特定自然人活动情况的各种信息,包括姓名、身份证件号码、通信通讯联系方式、住址、账号密码、财产状况、行踪轨迹等等。
如果爬虫技术被用来获取“公民个人信息”那么可能构成侵犯公民隐私权的违法行为;如果将非法获取的用户个人信息泄露给诈骗犯以协助其实施诈骗活动,那么还将面临承担诈骗罪的刑事法律责任。
免责声明:个人观点,仅供参考,对阅读本文后的进行爬虫行为的用户不承担任何法律责任。
2.3 爬虫非法入侵计算机系统获取数据
案例
【破解“得物”App防护措施,男子开发售卖爬虫程序获刑】
案情介绍:2021年,王某开发出一款能破解“得物”app防护措施、自动抓取商品数据的爬虫程序,在微信朋友圈、博客等平台发布介绍贴并售卖,短短两年间,共计获利60余万元。 2021年10月,王某发布的贴文被得物公司员工发现,该员工添加其微信购买算法。经验证,该算法的确能够从“得物”app获取包括产品定价信息等核心数据,得物公司立即向公安机关报案。 经公安机关侦查,上述爬虫程序通过破解api加密算法、批量获取设备身份指纹sk等技术方法绕过防护机制,无需授权即可获取服务器数据。
法律依据及处罚:普陀区人民法院经审理后认为,被告人王某明知其开发的爬虫程序及接口具有破解app安全保护措施并获取商品数据的功能,仍通过网络向他人售卖并提供维护服务等,经审计违法所得60余万元,其行为已构成提供侵入计算机信息系统程序罪,且情节特别严重,最终判处其有期徒刑三年,缓刑三年,并处罚金人民币八万元。
案情评析:本案中,“得物”在app的用户协议及robots协议中均明确宣示禁止任何数据抓取行为,并采取了签名认证、图形验证、设备指纹、代码混淆加固等防护措施。被告人无视系统警示、未经授权许可,向他人提供爬虫程序破解防护机制,获取系统数据,已属于法律规定的提供“专门用于侵入计算机信息系统的程序”的行为。
法条说明
《中华人民共和国刑法》第二百八十五条
【非法侵入计算机信息系统罪】违反国家规定,侵入国家事务、国防建设、尖端科学技术领域的计算机信息系统的,处三年以下有期徒刑或者拘役。
【非法获取计算机信息系统数据】违反国家规定,侵入前款规定以外的计算机信息系统或者采用其他技术手段,获取该计算机信息系统中存储、处理或者传输的数据,或者对该计算机信息系统实施非法控制,情节严重的,处三年以下有期徒刑或者拘役,并处或者单处罚金;情节特别严重的,处三年以上七年以下有期徒刑,并处罚金。
分析说明
结合上诉案例,我认为,爬虫行为是否构成非法侵入计算机信息系统、非法获取计算机信息系统数据,可从以下三个方面加以认定:
“侵入”的特征表述为 “是否为有意避开或者突破计算机信息系统安全保护措施。用户协议及robots协议中均明确宣示禁止任何数据抓取行为等。未经授权就擅自进入计算机信息系统,获取其中的数据。免责声明:个人观点,仅供参考,对阅读本文后的进行爬虫行为的用户不承担任何法律责任。
2.4 提供非法爬虫工具
案例
【陈某售卖非法爬虫大麦网抢票工具案】
案情介绍:2017年至2019年间,被告人陈辉为牟取非法利益,编写“爬虫”软件用于在浙江淘宝网络有限公司旗下的“大麦网”平台上抢票,并以人民币1888元到6888元不等的价格向他人出售该软件,非法获利人民币12万余元。2019年7月11日,被告人陈辉被公安机关抓获。经鉴定,上述“爬虫”软件具有以非常规的方式构造和发送网络请求,模拟用户在大麦网平台手动下单和购买商品的功能;具有以非常规手段模拟用户识别和输入图形验证码的功能,该功能可绕过大麦网平台的人机识别验证机制
,以非常规方式访问大麦网平台的资源。
法律依据及处罚:法院认为,陈某犯提供侵入、非法控制计算机信息系统程序、工具罪 ,判处有期徒刑三年,缓刑四年,并处罚金人民币二万元;追缴被告人陈辉的违法所得人民币12万元 ,上缴国库。
案情评析:本案涉及利用爬虫抢票,属于最近几年很常见的犯罪情形,具有以非常规手段模拟用户识别和输入图形验证码的功能,该功能绕过大麦网平台的人机识别验证机制,以非常规方式访问大麦网平台的资源,同时非法获利12万元,属于犯罪情节特别严重 。
法条说明
《中华人民共和国刑法》第二百八十五条
【非法控制计算机信息系统罪】违反国家规定,侵入前款规定以外的计算机信息系统或者采用其他技术手段,获取该计算机信息系统中存储、处理或者传输的数据,或者对该计算机信息系统实施非法控制,情节严重的,处三年以下有期徒刑或者拘役,并处或者单处罚金;情节特别严重的,处三年以上七年以下有期徒刑,并处罚金。
【提供侵入、非法控制计算机信息系统程序、工具罪】提供专门用于侵入、非法控制计算机信息系统的程序、工具,或者明知他人实施侵入、非法控制计算机信息系统的违法犯罪行为而为其提供程序、工具,情节严重的,依照前款的规定处罚。
分析说明
利用自动化脚本或爬虫技术模拟用户行为,在购物平台、金融交易系统等环境中实施操作,意图扰乱或影响目标网站的正常交易流程,这样的行为有可能触犯非法侵入或控制计算机信息系统相关的法律法规。而如果个人或组织开发并提供专门用于此类非法活动的程序或工具,则可能面临提供用于侵入、非法控制计算机信息系统的程序、工具罪的指控。
免责声明:个人观点,仅供参考,对阅读本文后的进行爬虫行为的用户不承担任何法律责任。
2.5 爬虫破坏计算机信息系统
案例
【快鸽互联公司破坏计算机信息系统罪案】
案情介绍:2018年1月,杨某某授权公司员工张某某开发一款名为“快鸽信贷系统”的软件,该软件内的“网络爬虫”功能能与深圳市居住证网站链接,可以在深圳市居住证网站上查询到房产地址、房屋编码等对应的资料,该软件对深圳市居住证网站访问量能达到每小时数十万次,以达到为其公司主营业务便捷的目的。
2018年5月2日10时至5月2日12时许两小时内,该软件对深圳市居住证系统查询访问量为每秒183次,共计查询信息1510140条次并将查询的信息以阿某云网络云盘的形式保存,深圳市公安局居住证服务平台服务器遭受了该爬虫软件的自动化程序攻击,在该时段内造成深圳市居住证系统服务器阻塞,无法正常运行,深圳市公安局居住证服务平台无法正常对外提供服务,其他用户无法正常使用平台业务,极大地影响了该居住证系统使用方深圳市公安局人口管理处的日常运作。
法律依据及处罚:杨某某、张某某违反国家规定,对计算机信息系统功能进行干扰,造成为5万以上用户提供服务的计算机信息系统不能正常运行累计1小时以上,后果特别严重,其行为已构成破坏计算机信息系统罪。杨某某犯破坏计算机信息系统罪,判处有期徒刑三年;张某某犯破坏计算机信息系统罪,判处有期徒刑一年六个月。
案情评析:高并发的爬虫技术若不加节制地应用,会显著加剧网站的访问负担,致使服务器资源迅速枯竭,进而造成其他合法用户难以正常访问网站,系统功能也因此陷入瘫痪状态,严重影响了网站的正常运营和用户体验,可能会构成破坏计算机信息系统罪。
法条说明
《中华人民共和国刑法》第二百八十六条
【破坏计算机信息系统罪】违反国家规定,对计算机信息系统功能进行删除、修改、增加、干扰,造成计算机信息系统不能正常运行,后果严重的,处五年以下有期徒刑或者拘役;后果特别严重的,处五年以上有期徒刑。
违反国家规定,对计算机信息系统中存储、处理或者传输的数据和应用程序进行删除、修改、增加的操作,后果严重的,依照前款的规定处罚。
故意制作、传播计算机病毒等破坏性程序,影响计算机系统正常运行,后果严重的,依照第一款的规定处罚。
单位犯前三款罪的,对单位判处罚金,并对其直接负责的主管人员和其他直接责任人员,依照第一款的规定处罚。
最高院、最高检《关于办理危害计算机信息系统安全刑事案件应用法律若干问题的解释》
第4条破坏计算机信息系统功能、数据或者应用程序,具有下列情形之一的,应当认定为刑法第二百八十六条第一款和第二款规定的“后果严重”:
(1)造成10台以上计算机信息系统的主要软件或者硬件不能正常运行的;
(2)对20台以上计算机信息系统中存储、处理或者传输的数据进行删除、修改、增加操作的;
(3)违法所得5000元以上或者造成经济损失1万元以上的;
(4)造成为100台以上计算机信息系统提供域名解析、身份认证、计费等基础服务或者为1万以上用户提供服务的计算机信息系统不能正常运行累计1小时以上的;
(5)造成其他严重后果的。
分析说明
高并发的爬虫技术在我看来和网络攻击并无区别,因为编写爬虫程序的时候并不知道目标网站的流量上限,万一网站流量上限很低呢?一不小心就会导致网站瘫痪。所以建议大家在使用爬虫技术的时候严格控制抓取速度。
免责声明:个人观点,仅供参考,对阅读本文后的进行爬虫行为的用户不承担任何法律责任。
三、爬虫如何避免触犯法律红线?
爬虫在使用时,为避免触犯法律红线,应当注意以下几点:
(一)遵守网站规则:
robots协议:爬虫应严格遵守目标网站的robots.txt协议。robots.txt协议是网站所有者用来告知爬虫哪些页面可以访问,哪些页面不可以访问的规则。通过遵循此协议,可以确保爬虫不会违反网站的意愿进行数据采集。 服务条款和隐私政策:在使用爬虫之前,务必仔细阅读并理解目标网站的服务条款和隐私政策。这些条款通常规定了网站数据的访问和使用方式。如果网站明确禁止使用爬虫或对数据抓取有特定限制,爬虫使用者应尊重这些规定,避免违法行为。(二)尊重个人隐私和信息安全:
避免收集敏感信息:爬虫应避免收集和处理涉及个人隐私的敏感信息,如身份证号码、银行账户、密码等。这些信息受到法律严格保护,未经授权擅自收集和使用将构成侵权行为。 数据保护:对于爬虫收集到的数据,应采取适当的保护措施,确保数据的安全性和保密性。避免数据泄露或被滥用,以免侵犯他人的合法权益。(三)合理控制爬虫行为:
避免对网站造成过大负担:爬虫在运行过程中会对目标网站造成一定的负担,包括服务器资源和带宽的占用。因此,应合理控制爬虫的爬取频率、请求量等参数,以减轻对目标网站的负担。避免频繁的请求导致网站服务器过载或崩溃。 遵守网络礼仪:在使用爬虫时,应尊重网络礼仪和道德规范,避免对目标网站和其他用户造成不必要的干扰或损害。(四)寻求授权或许可:
在必要时,向目标网站申请授权或许可。这可以确保爬虫的使用行为得到网站的认可和支持,降低法律风险。
(五)不可非法获利:
明确数据使用目的与合法性:爬虫使用者应确保收集的数据仅用于合法、正当的目的,如学术研究、市场分析等,并避免将数据用于任何形式的非法活动,如诈骗、敲诈等。 尊重知识产权与版权:如果爬虫抓取的内容受到版权保护,如书籍、影视剧、音乐等,那么在未经版权所有者许可的情况下,不得擅自使用或传播这些内容。 避免恶意竞争与不正当竞争:通过爬虫技术获取竞争对手的敏感信息,如价格策略、客户数据等,以破坏市场秩序或损害竞争对手的利益。这种行为不仅违反商业道德,还可能触犯《反不正当竞争法》等相关法律法规。 不进行数据贩卖与非法交易:如果爬虫使用者将数据出售给第三方,特别是涉及个人隐私或商业秘密的数据,将构成严重的违法行为。此外,即使数据本身不涉及敏感信息,未经授权的数据贩卖也可能触犯相关法律法规。 建立数据保护机制:爬虫使用者应建立完善的数据保护机制,确保收集的数据在存储、处理和使用过程中不被泄露、篡改或滥用。(六)爬虫工程师建议:
严格遵守上诉内容 严格遵守公司开发规范:恪守公司内部技术与法律合规准则,不冒进求新,以免个人开发行为置公司于法律风险之中;通过邮件等正式途径留存开发指令记录,以防承担不当法律后果。 避免暴力爬取和破解行为:如遇到领导的开发要求已触犯法律红线,告知其法律风险,指出”如被举报他将会主要责任“,应当毫不犹豫地拒绝,并立即寻求专业的法律建议,以确保自己的行为始终符合法律法规的要求,坚决不参与任何违法违纪的活动。免责声明:个人观点,仅供参考,对阅读本文后的进行爬虫行为的用户不承担任何法律责任。
四、总结
公开数据的访问和抓取在行为对象、行为内容和行为目的上均存在本质差异,二者不可混为一谈。
一般来说,访问公开数据是指用户是以消费为目的访问企业在客户端以文字、图片、视频等形式展现的商品信息;而爬虫抓取的是数据分析者在系统后台以计算机语言编辑、传输的加密代码,用以价格监控、行为分析、趋势预测等,超出了公开数据合理使用的限度。
对此,企业和开发者在开发和利用爬虫技术时需要特别注意,确保爬虫只抓取授权的数据、严格遵守网站的robots协议和服务条款、控制抓取频率以避免对目标网站造成过度负担,并强化数据安全与个人信息保护机制,严格规范使用。