爬虫协议构成拒绝交易和歧视待遇的条件分析

时间：2020-06-03 03:34:33　来源：达达文档网本文已影响人

关键词爬虫协议反垄断法拒绝交易差别待遇

作者简介：杨舒婷，中国科学院大学公共政策与管理学院，硕士研究生，研究方向：经济法。

中图分类号：D920.4 文献标识码：A DOI：10.19387/j.cnki.1009-0592.2020.04.031

爬虫协议是网站所有者利用robots.txt文档，设置搜索引擎机器人爬行其网络的指令。互联网经济的繁荣带来了大量的数据，而对数据的掌握成为了互联网平台经营者发展业务的关键保障。由此，网站与搜索引擎之间的沟通就变得尤为重要。作为互联网数据争夺的经典案例，百度公司诉奇虎公司不正当竞争案不仅在《反不正当竞争法》领域引起了广泛讨论，也为研究《反垄断法》对互联网平台爬虫协议的规制提供了新的思考。网站所有者排斥搜索引擎企业的机器人爬取其网站的一些内容，往往在特定的相关市场占有市场支配地位，所以这种排斥爬行的行为是否违反反垄断法是值得研究的问题。若要深入了解搜索引擎与网站所有者之间的争议，仍然要从爬虫协议入手。

一、爬虫协议的含义和性质

爬虫协议，也称为机器人协议（robots协议）。搜索引擎利用蜘蛛程序索引网站内容，垃圾邮件发送者也利用网络机器人扫描获取网页上的电子邮箱地址，此外这种程序还有很多其他用途。

爬虫协议是指网站所有者利用robots.txt文档，向网络机器人给出网站指令（instructions）的协议。由于爬虫协议的主要目的是明确排除网络机器人爬行的信息，甚至有的爬虫协议还会设置拒绝机器人爬行的搜索引擎名单，所以机器人协议也被称为拒绝机器人协议（robots exclusion protocol）。其工作原理是：当一个机器人想要访问一个网站的统一资源定位符（URL），如http：//www.examp le.com/welcome.html时，它会首先检查http：//www.example.com/robots.txt这个地址，会发现“User-agent：
*”或“Disallow：
/”。其中，“User-agent：*”是说这个部分适用于所有的机器人，“Disallow：/”则告诉机器人不应该访问这个网站的所有网页。需要注意两点：一是机器人能忽略爬虫协议，尤其是恶意的机器人能扫描网站的安全漏洞，收集电子邮箱地址的垃圾邮件商也不理会爬虫协议;二是爬虫协议文档还是公开的文档，任何人都能看到一个网站所有者不希望机器人爬取的部分。爬虫协议本质上是一个事实标准（de-facto standard），并且不为任何标准组织所拥有。

从技术上看，爬虫协议不具备强制实施的可行性，即爬虫协议不能通过技术手段阻止网络机器人爬行网页。换言之，即使爬虫协议文本明示了禁止网络机器人爬取的内容，搜索引擎企業的爬取机器人也可以仅仅凭借“无视”，就可以轻易地使这种禁止失去效果。

2012年11月1日，国内多家搜索引擎服务企业发起签署了一份由中国互联网协会予以发布的《互联网搜索引擎服务自律公约》。该自律公约中第7条约定，提供搜索服务的企业要“遵循国际通行的行业惯例与商业规则，遵守机器人协议（robots协议）。”这说明，关于网页内容爬取规则的标准，爬虫协议是一种互联网行业国际通行的行业惯例和商业规则，搜索引擎企业应当遵守。

综上，一方面，作为事实标准的爬虫协议，是互联网行业国际通行的行业惯例和商业规则，搜索引擎企业应当遵循;另一方面，网站所有者设定Robots，应当遵循促进信息自由流动的原则，力求网络信息公平和开放，不应当使用不合理的手段限制搜索引擎爬取网站的内容，更不能通过设定Robots限制和排斥竞争。

二、爬虫协议构成拒绝交易的条件

反垄断法意义上的拒绝交易，泛指一切有可能排除、限制竞争的拒绝交易形式。它既包括直接拒绝交易，也包括变相拒绝交易;既包括拒绝与竞争对手进行交易，也包括拒绝与非竞争对手进行交易;既包括中断交易，也包括拒绝与新的交易对象交易。

在互联网环境下，互联网平台经营者拥有可以自由设置“拒绝进入”的能力，极易触及拒绝交易的底线。笔者前文在分析协议内容本身是否违法的时候也提到过，爬虫协议中设置拒绝被爬取是否构成拒绝交易行为，需要按照拒绝交易行为的构成要件进一步讨论。

（一）相关市场的界定

在曾经较为传统的实体市场里，能够根据产品的性能、用途等不同来区分市场，不同用途、不同功能的产品之间的边界也比较容易区分。而在以数据资源为重心的互联网市场中，因为数据产品的技术、业务特征等相似，不同产品之间的功能界定比较困难，例如搜索引擎与社交网站之间的产生内容爬取纠纷，相关市场的界定就没有了清晰的标准，使用供给替代法、需求替代法、SSNIP（假定垄断者测试）等传统方法也可能会界定结果不够完美。

在百度诉奇虎案中，百度是大众熟知的搜索引擎服务商，但引发诉讼的是奇虎对百度搜索引擎下的内容栏目的不当爬取行为，那么在界定本案相关市场的时候，就不能单凭百度和奇虎是搜索引擎服务提供商来界定相关市场，而是针对双方之间存在竞争关系的市场进行具体区分。而且在目前的互联网经营活动中，数据往往成为平台竞争的核心要素，因此，经营者面临的风险从传统单边市场中单一的风险变成了双边市场条件下多样的竞争风险。而且，网络效应会使用户的选择产生拉大竞争者之间的差距的效果，并可能因此形成新的市场壁垒，对市场竞争带来损害。

（二）行为人是否具有市场支配地位

判断网站经营者是否具备市场支配地位，首先要看经营者在相关市场中的份额，我国现行《反垄断法》第十九条也列举了判断经营者具有市场支配地位的条件。互联网平台经营者与传统经营者的经营方式的不同，带来了对其市场份额准确判断的难度。由于滥用市场支配地位的垄断行为，首先必须具备有效的市场支配能力，但互联网平台带来的市场是一个多元化的、信息不平衡且极其复杂的市场，在互联网经济中占据很大的支配地位要具备的不仅仅是获利数额大，还要有庞大的、属于自己的且能够支配的网络资源。比如在网站所有者拥有的用户信息数据、用户上传的内容资源等，由于这些原因，对执法机构判断一个互联网企业是否具有市场支配地位也增加了许多难度。

一方面，倘若设置爬虫协议的网站所有者不具备市场支配地位，那么即使此爬虫协议中存在不正当竞争内容，亦不能当然认定其robots协议违反《反垄断法》。另一方面，如果是不具备市场支配地位的企业，即使在设置爬虫协议时拒绝搜索引擎就某项内容进行爬取，那么对市场的影响都比较微小，因此，也不需要从竞争法角度去考虑它的违法性问题，那么此行为并不能对网络环境下的竞争市场带来严重的排除、限制竞争的效果。只有占据大量市场份额的，在某个相关领域里达到垄断地位的企业，竞争法才要对其经营行为进行规制。

有观点认为，即使百度拥有了“百度贴吧”“百度知道”“百度百科”等庞大的数据库，但是这也仅仅是互联网中文内容的一小部分，更何况近年来360、搜搜（SoSo）、必应（Bing）等搜索引擎纷纷建立自己的内容数据库，百度的内容绝对无法达到市场支配地位所需的二分之一的比例，因此百度并未占据互联网中文内容的市场支配地位。

综上，如果拒绝抓取是具有市场支配地位的经营者拒绝其他经营者爬取其网络平台内容的行为。那么，该行为在反垄断法上是违法行为，构成拒绝交易。

（三）拒绝抓取行为是否损害市场竞争

一般而言，只有当市场主体滥用合同自由原则对竞争造成的损害超过合同自由本身受到限制的损害的程度时，法律才会对合同自由原则加以一定的限制。在判断这一程度时，通常用“合理原则”来考察拒绝交易行为，即只有当拒绝交易造成的损害超过对市场的有利影响，反垄断法才会对此加以限制。

如果网络平台经营者在其网站的爬虫协议中针对某一或者某几个搜索引擎的搜索范围进行限制，使其不能像其他搜索引擎一样爬取内容，则该爬虫协议具有不正当性，与此同时，如果网站所有者通过设定Robots针对性地拒绝搜索引擎爬取的行为损害了市场竞争，那么，网站所有者满足具有一定的市场支配地位且实施拒绝爬取并没有正当理由，它的行为就满足了拒绝交易的构成要件。

如果设置robots.txt协议的网络平台所有者拒绝抓取的内容是其他搜索引擎所应当共享的，且居于核心地位的信息，那么使成立不久的中小型新型搜索引擎无法生存，这无疑是对市场竞争带来严重损害，所以应当认为其内容具有违法性，这就是“核心必要设施”的理论。由于传统经济学的影响，在司法实践中，运用“必需设备理论”进行裁判的案例也有很多，例如，微软案、AMD诉Intel、人人诉百度等等。事实上，前述案例更加说明，对现有的网络平台经营者垄断案件、不正当竞争案件办理的困难之处往往来源于互联网经济本身的特殊属性，它不同于传统市场的特性亦更加使得互联网行业容易呈现出寡头垄断，对市场竞争产生不良影响。

三、爬虫协议构成差别待遇的条件

梳理上文所述百度诉奇虎案的例子，笔者发现，搜索引擎拒绝抓取的行为也有可能构成另一典型的滥用市场支配地位的行为——差别待遇。在《反垄断法》中，差别待遇也被称为歧视交易，从法条定位看，要构成差别待遇和拒绝交易的条件有着一部分共同点，它们都要求行为人具有市场支配地位，并且行为人缺乏合理的理由，不同点在于拒绝交易和差别待遇的行为特征。所以要认定搜索引擎企业是否存在差别待遇的行为，还是要遵循上文提到的步骤，先进行市场支配地位的判断，再分析具体行为。那么我们在此假设该企业具有市场支配地位后，进行下一步：

（一）交易条件对比

此处依旧以百度公司诉奇虎公司一案为例。百度作为打出“最大的中文搜索引擎”品牌宣言的网站经营者，经过多年的运营和积累，不仅具有信息庞大的百度网页资源，还有其网站下子栏目“百度知道”“百度百科”等一批专门分类的信息资源。按照奇虎公司所说，百度在设置其主网站和子网站脚本Robots时，拒绝了奇虎旗下搜索引擎的爬取，却允许了其他国内主流搜索引擎的爬取，那么在信息流通的环节确实对奇虎公司特殊设置了不同于其他搜索引擎的条件，百度承认了该设置行为。即使后来百度声称是奇虎的搜索引擎具有不规范的爬取行为，可是其自身设置了针对性的拦截，另奇虎无法获得主流资源，而其他搜索引擎又能够借由爬取百度的资源壮大自身，那么百度的行为不仅是差别待遇，且能够在一定程度上损害竞争。

（二）是否缺乏正当理由

在上文的概述中笔者了解到，网站运营方可以通过对其脚本的编辑来达到对其他爬取信息方的授权和限制。那么在使用这一功能时，网站经营者既可以设置为拒绝某一特定的搜索引擎的爬取，也可以设置为对某一些搜索引擎开放的同时对其他一些搜索引擎不开放。正如上文提到的百度诉奇虎案，正是因为百度公司在百度贴吧、百度百科百度知道等站点的Robots协议中仅对360的爬虫程序进行了限制，而对谷歌、搜狗等蜘蛛程序却允许访问的行为，激化了百度公司与奇虎公司之间的矛盾。当时，百度公司对此的解释是：只是禁止了不规矩的、存在潜在安全風险的爬虫，但是对于这个理由，百度并未能提供有力的证据支撑。

综上，根据《反垄断法》的规定，差别待遇的情形不仅要求经营者具有市场支配地位，同时还需要同时满足缺乏正当理由、交易条件存在差别两个条件，由此看来，百度公司的行为不仅缺乏正当理由，并且对其他同样作为搜索引擎的企业设置了不同的爬取条件，确实有着差别对待的嫌疑。

四、结语

互联网行业正在蓬勃发展，无论是搜索引擎、购物网站、在线旅游平台或者其他功能性网站，它们的经营都与互联网的算法技术、爬虫协议、数据等无不相关。互联网平台经营者和网民都需要一个安全、平衡且不失活力的网络竞争市场，而如今数据带来的竞争优势越来越明显，竞争相关的法律、政策却也在逐渐暴露出它的滞后性。目前，国家市场监管总局就《反垄断法》修订草案公开征求意见。对于此次修订，征求意见稿明确了互联网垄断相关规定，新提出了认定互联网平台经营者具有市场支配地位的一些因素。我们期待新的《反垄断法》能够保持旧法对于反垄断的工具作用，依旧以网民权益为价值目标，成为有效引导互联网平台经济健康发展的规范，以求解决目前爬虫协议带来的新的垄断相关问题。

注释：

https：//www.robotstxt.org/.2020年2月15日访问。

https：//www.robotstxt.org/robotstxt.html.2020年2月15日访问。

http：//www.isc.org.cn/hyzl/hyzl/listinfo-25501.html.2020年2月25日访问。

张志伟.中国互联网企业拒绝交易行为的反垄断法律规制探讨[J].江西财经大学学报，2015（3）：121-128.

王文敏.互联网竞争中设置爬虫协议黑名单的定性——由“百度与360大战”引发的思考[J].研究生法学，2014，29（3）：50-57.

杨华权.论爬虫协议对互联网竞争关系的影响[J].知识产权，2014（1）.

爬虫协议构成拒绝交易和歧视待遇的条件分析

一、爬虫协议的含义和性质

二、爬虫协议构成拒绝交易的条件

三、爬虫协议构成差别待遇的条件

四、结语

最新文章

热门文章