面向网站群的主题爬虫研究

时间：2021-01-27 16:05:51　来源：达达文档网本文已影响人

徐昊沈江明

摘要：聚焦爬虫（Focused Crawler）又称为主题爬虫，是从网络上获取特定主题数据的有效工具。为了避免传统聚焦爬虫预训练主题相关性分类器的繁复工作，提出一种自举聚焦爬虫（Bootstrapping Focused Crawler），用于从特定网站群中收集主题数据。自举聚焦爬虫省略了预先训练分类器的步骤，转而采用一些样本页面以相似度排序的方式替代分类器功能。在实验中，自举聚焦爬虫以牺牲一定准确率为代价，取得了0.62的召回率以及0.45的F1值，表现优于传统聚焦爬虫（召回率0.16、F1值0.25）。对于网站群主题数据采集任务，采用相似度排序替代主题分类器，不仅可以减轻分类器训练负担，还可以达到更好的效果。

关键词：爬虫技术;信息检索;自举聚焦爬虫

DOI：10. 11907/rjdk. 201564 开放科学（资源服务）标识码（OSID）：

中图分类号：TP393文献标识码：A 文章编号：1672-7800（2020）008-0109-04

Abstract：
Focused crawler （also known as theme crawler） is an effective tool to get data in any specific domain from Web. However， conventional focused crawlers need a classifier to filter out the irrelevant webpages， and to get such a classifier is usually labor-intensive. In this paper， we propose a Bootstrapping Focused Crawler （BFC） for collecting information from a group of websites in the same category. Instead of pre-training a tailored classifier， BFC adopts a ranking module to do the classification. In the experiments， the recall and F1-score of BFC is significantly better than conventional focused crawler， from which we could draw the conclusion that our approach is more effective for the crawling tasks within a group of similar websites.

Key Words：
Web crawler; information retrieval; bootstrapping focused crawler

0 引言

从Web上收集特定主题数据的技术可分为两类：①基于搜索的发现技术[1-3]，主要依靠搜索引擎查找网页;②基于爬行的发现技术[4-6]，主要利用Web链接结构从已下载的网页中提取新链接，从而发现更多潜在的目标网页。前者适用于存在一些关键字可区分主题数据和其它数据的情况，后者灵活性更强，代表技术就是聚焦爬虫。

与普通爬虫相比，聚焦爬虫有明确的目标指向性，在爬取网页过程中能够丢弃不相关页面，并始终跟踪可能导向“相关”页面的超链接，因而能更有效地收集特定主题的数据。聚焦爬虫框架与一般爬虫基本相同，也即是说，它从几个种子链接（Seed URL）开始，下载相关页面并提取其中包含的超链接，然后跟踪这些超链接以获取更多页面。不断重复该过程，直到无法以这种方式找到更多网页。聚焦爬虫的特殊之处在于，其会引入两个分类器——路径判别器和目标判别器，以决定某个超链接是否值得进一步访问，以及某页面是否值得保存。其中，路径判别器负责判断链接值得跟踪与否，目标判别器负责根据网页与主题相关与否对其进行归类。

聚焦爬虫研究主要集中在3个方面：一是如何获得更有效的分类器，例如使用在线学习策略构建路径判别器（目标判别器依然需要进行预训练）[7，14-18];二是如何获得更好的种子链接，例如维埃拉等[3]利用Bing搜索引擎，使用相关反馈（Relevance Feedback）收集种子;三是如何设计更好的爬行策略[8-12，19-22]。尽管这些研究从各个方面对聚焦爬虫进行了改进，预先训练分类器的工作仍不可省略，因此造成了爬虫使用的不便。由于其分类器是任务相关的，换一个目标主题就要重新手动构建数据集进行训练。

最近，KIEN[13]将聚焦爬行描述为一个排序问题，其跳过分类器训练，只使用一些示例网站作为输入。从样本网站中提取关键词，再通过关键字搜索、前向爬行和后向爬行扩展样本网站集，其设计的系统根据与当前样本网站的相似性选择新的样本网站。结果表明，通过适当的相似性度量，基于排序的聚焦爬虫可取得与基于分类器的聚焦爬虫相似的性能表现。但其问题设置與本文不同，其目标是得到相关网站，而不是网页。因此，以上实践启发了本文用排序器替换预训练分类器构建自举聚焦爬虫，以解决网站群内部的主题网页发现问题。

本文设计一种自举聚焦爬虫（Bootstrapping Focused Crawler，简称BFC），该方法为聚焦爬虫提供一些示例网页，而不是预先训练的分类器，从而可略过繁复的分类器训练过程。该方法适用于特定网站群中的主题数据收集，例如收集各大学录取信息、各公司招聘信息、各政府网站的政策信息等。图1展示了两个爬取任务示例。任务难点在于，上千所高校、公司虽然网站架构类似，但每个节点对应的超链接文字用词千差万别，路径深度与目标页面特征也存在显著差异。因此，在不预训练分类器的前提下，只提供少量样例网页充当爬虫向导，是一种新的尝试。

由于特定网站群是众多一手信息的源头，如果能及时、有效地收集相关信息并汇聚起来，将极大地降低信息浏览门槛，并催生出数据可视化等应用。因此，本文提出的网站群爬虫具有很强的现实意义。

1 自举聚焦爬虫

自举聚焦爬虫框架如图2所示。

程序有两个输入：一个是网站群站点（Website）列表，一个是少量样例网页，每个样例网页包含其所在站点的根链接和自身链接这一对元素。首先，对样例网页进行路径提取与特征提取。在传统聚焦爬虫框架下，需要一个能引导爬虫到目标节点的向导（路径判别器），以及能够区分目标节点与其它节点的评委（目标判别器）。路径提取目标是构建路径判别器，而特征提取目标是构建目标判别器。区别在于，本文提出的自举聚焦爬虫用相似度排序模块替代传统框架下的目标判别器，用类似于强化学习的手段在线构建路径判别器。然后利用两个判别器从输入的网站群根节点开始循环抓取网页，并不断把最相关的网页加入网页样例库，用于更新两个判别器。该流程循环进行，直到无法发现更多网页或达到迭代次数上限为止。

1.1 路径判别器

路径判别器本质上是一个二分类器：输入一个超链接短文本，输出其是否与要爬取的主题相关，或沿着该链接是否能找到与主题相关网页。在网站群爬虫这个具体应用场景中，存在一條从站点根节点到当前页面的超链接路径（见图1），可利用这条路径上的前序文本增强当前链接短文本的判断准确度。因此，本文通过路径提取将传统路径判别器的单一短文本输入扩充为短文本列表。

2 爬取效果

2.1 实验任务与数据集

本文按照中国大学排行榜，收集了中国排名前200的大学官方网站页面集合作为实验数据集。为检验爬虫性能，定义主题爬取任务如下：获取高校历史录取分数相关页面。本文手动标记每个站点与所需主题相关页面（URL）作为真实标签，数据集页面总数为41 600，其中正样本数量为1 033。

为得到样例网页库作为算法输入，本文从200个网站中随机抽取3个网站，并为每个网站标记一个示例页面，得到3个样例（每个样例含有一对数据，即目标网页的URL以及所在网站根节点的URL）。通过对4组使用不同样例集的爬虫计算平均得分，得到BFC性能得分。

2.2 效果展示

本文选取传统聚焦爬虫（FC）作为基线算法进行对比。出于公平性考虑，FC所需分类器基于样例网页库的少量正样本，采用KNN算法获得。本文提出的自举聚焦爬虫（BFC）与基线算法FC在高校历史录取分数爬取任务中的表现对比如表1所示。

由表1可以看到，BFC的准确率（Precision）比传统方法FC低很多，其原因是FC爬取页面数量较少，以极低的召回率（Recall）为代价获得了较高准确率。然而，在爬虫实际使用过程中，召回率更为重要，因为要尽可能全面地收集所需信息，而在自动筛选环节一旦遗漏相关信息，就很难再找到目标网页。在召回率方面，BFC的表现远好于FC。综合准确率和召回率的指标F1-Score也显示BFC的性能优于FC。

爬取部分结果如图3所示。图中name列输出爬取站点，url列输出任务相关页面网址，path列输出从网站根节点到页面的路径，score是该页面相关性得分。

3 结语

本文设计一种自举聚焦爬虫用于特定网站群中的主题数据收集，该方法以聚焦爬虫为基础，替代了预先训练路径分类器和目标分类器的步骤，转而通过提供一些示例网页，通过排序模块进行相关性判别工作。在大学录取信息爬取任务中，本文方法获得了62%的召回率，远高于传统方法。因此，针对网站群主题数据采集任务，实验结果表明，采用相似度排序替代主题分类器不仅可以减轻分类器训练负担，还可以达到更好的效果。对于一般性的主题数据采集任务，也可以尝试利用本文思路。

参考文献：

[1] DISHENG Q， LUCIANO B， XIN L，et al. Dexter：
large-scale discovery and extraction of product specifications on the web[C]. Proceedings of the VLDB Endowment， 2015：2194-2205.

[2] XUEZHI W， CONG Y， SIMON B，et al. Relevant document discovery for fact-checking articles[C]. In Companion Proceedings of the Web Conference， 2018：
525-533.

[3] KARANE V， LUCIANO B， ALTIGRAN S D S， et al. Finding seeds to bootstrap focused crawlers[C]. In The World Wide Web Conference， 2016：
449-474.

[4] LUCIANO B， SRINIVAS B，VIVEK K R S. Crawling back and forth：
using back and out links to locate bilingual sites[C]. In Proceedings of 5th International Joint Conference on Natural Language Processing， 2011：429-437.

[5] TSUYOSHI M. Finding related web pages based on connectivity information from a search engine[C]. In WWW Posters， 2001.

[6] LUCIANO B. Harvesting forum pages from seed sites[C]. In International Conference on Web Engineering， 2017：
457-468.

[7] MCCALLUM A， NIGAM K， RENNIE J， et al. A machine learning approach to building domain-specific search engines[C]. Proceedings of the Sixteenth International Joint Conference on Artificial Intelligence，1999：662-667.

[8] MICHAEL H， MICHAL J， YOELLE S M，et al. The shark-search algorithm. An application：
tailored Web site mapping[J]. Computer Networks & Isdn Systems， 1998， 30（1-7）：317-326.

[9] BERGMARK D， LAGOZE C， SBITYAKOV A. Focused crawls， tunneling， and digital libraries [C]. Proceedings of the 6th European Conference on Research and Advanced Technology for Digital Libraries，2002.

[10] MARISTELLA A， COSTANTINO T. Research and Advanced Technology of digital libraries[M]. Springer Berlin Heidelberg， 2002：91-106.

[11] 葉勤勇. 基于URL规则的聚焦爬虫及其应用[D]. 杭州：浙江大学， 2007

[12] BRA P M E D，POST R D J. Information retrieval in the World-Wide Web：
making client-based searching feasible[J]. Computer Networks & Isdn Systems， 1994， 27（2）：183-192.

[13] KIEN P， AECIO S， JULIANA F. Bootstrapping domain-speci c content discovery on the Web[C]. In The World Wide Web Conference， 2019：
1476-1486.

[14] 傅向华，冯博琴，马兆丰，等. 可在线增量自学习的聚焦爬行方法[J]. 西安交通大学学报，2004，38（6）：599-602.

[15] 刘国靖，康丽，罗长寿. 基于遗传算法的主题爬虫策略[J]. 计算机应用，2007，27（12）：172-174.

[16] 曾广朴，范会联. 基于遗传算法的聚焦爬虫搜索策略[J]. 计算机工程，2010，36（11）：167-169.

[17] 童亚拉. 自适应动态演化粒子群算法在Web主题信息搜索中的应用[J]. 武汉大学学报（信息科学版），2008，33（12）：1296-1299.

[18] 贺晟，程家兴，蔡欣宝. 基于模拟退火算法的主题爬虫[J]. 计算机技术与发展，2009，19（12）：55-58.

[19] 宋海洋，刘晓然，钱海俊. 一种新的主题网络爬虫爬行策略[J]. 计算机应用与软件，2011，28（11）：264-267.

[20] 谢志妮. 一种新的基于概念树的主题网络爬虫方法[J]. 计算机与现代化，2010，176（4）：103-106.

[21] 左薇，张熹，董红娟，等. 主题网络爬虫研究综述[J]. 软件导刊，2020，19 （2）：
278-281.

[22] 韩瑞昕. 基于时效性的爬虫调度[J]. 软件导刊，2020，19（1）：108-112.

（责任编辑：黄健）

面向网站群的主题爬虫研究

最新文章

热门文章