主题网络爬虫研究综述

时间：2020-10-30 15:27:22　来源：达达文档网本文已影响人

左薇张熹董红娟于梦君

摘要：随着人们对信息资源的个性化需求不断加大，主题网络爬虫应时而生。阐述主题网络爬虫定义及工作原理;介绍了主题网络爬虫研究进展，对主题网络爬虫爬行策略、网页抓取优先级以及系统设计实现进行阐述;总结当前研究的不足，对未来研究方向进行了展望。

关键词：主题网络爬虫;主题爬虫;搜索引擎

DOI：10. 11907/rjdk. 191351 开放科学（资源服务）标识码（OSID）：

中图分类号：TP301文献标识码：A 文章编号：1672-7800（2020）002-0278-04

英标：Overview of Research on Topic-focused Web Crawler

英作：ZUO Wei1， ZHANG Xi2， DONG Hong-juan1， YU Meng-jun1

英單：（1. School of Professional and Continuing Education， Yunnan University;2. School of Information， Yunnan University， Kunming 650000，China）

Abstract：
With the increase of peoples personalized demand for information resources， topic-focused web crawler emerged at the right time. The topic-focused web crawler and its working principle are stated. The research progress of theme web crawler is systematically analyzed， and three fields of topic-focused web crawler crawling strategy， web page crawling priority and design and implementation oftopic-focused web crawler system are expounded. The deficiencies of current research are summarized and the future research direction is prospected.

Key Words：
topic-focused web crawler; topic-focused crawler; search engine

0 引言

Internet的飞速发展加快了网络信息量增长。据中国互联网络信息中心第41次《中国互联网络发展状况统计报告》 [1]显示，“截止2018年6月，我国网民高达8.02亿，互联网普及率为57.7%”。在互联网这个庞大的资源库中，网页搜索引擎是人们获取外界信息的主要工具。为了提高检索质量，达到更好的检索体验，通用搜索引擎应运而生。通用搜索引擎利用爬虫程序对网站进行检索，如谷歌、百度等面向所有用户的大型搜索引擎，把种子页面作为搜索起点，力图遍历整个网络，尽可能全面搜索到人们所需的信息。然而，针对某一特定主题，通用搜索引擎存在信息冗余大、内存占用高、消耗系统资源、查准率低和个性化需求弱等问题[2]，为解决这些问题，出现了抓取特定领域信息资源的主题网络爬虫（Topical Web Crawler）技术。主题网络爬虫又称主题爬虫（Topical Crawler）和聚焦爬虫（Focused Crawling），是网络爬虫的一个重要分支[3]。主题网络爬虫指尽可能爬行和收集用户所需的网页，与通用网络爬虫有较大差异，它只抓取用户特定的、与主题相关的网页，忽略与主题无关的网页，具有准确性、深入性和专业性等特点。

近年来，国内外专家学者对主题网络爬虫技术研究取得了显著成果，但鲜有文献对主题网络爬虫研究发展状况进行分析和系统梳理。因此，对近年来主题网络爬虫进行综述显得至关重要。本文从主题网络爬虫的定义及工作原理、国内外研究进展、研究中存在的问题、未来研究方向展望4个部分进行阐述，以期为今后主题网络爬虫研究与实践方向提供借鉴与参考。

1 主题网络爬虫定义与工作原理

1.1 主题网络爬虫定义

网络爬虫（Web Crawler）是依照一定规则主动抓取网页的程序，是搜索引擎获得信息的渠道之一。通常根据给定URL种子爬取网页，得到新的URL存放至待爬行URL中，当满足一定条件时停止爬行。网络爬虫一般分为通用网络爬虫、深度网络爬虫和主题网络爬虫3类。

主题网络爬虫通常给定URL种子集，依照预先规定的主题，由特定的分析算法算出爬行网页的主题相关度，并过滤与主题无关的网页，优先抓取相关度高的网页，当满足一定条件时停止。主题网络爬虫根据主题对Web进行分块采集并整合采集结果，从而提高Web页面利用率。

1.2 主题网络爬虫工作原理

主题网络爬虫与通用爬虫差异如下：

主题相关性预测。主题爬虫对提取的URL会采用一定策略预测其主题相关性，给出量化评价，而通用爬虫通常不需要对URL进行相关性预测。

主题相关度判断。当一篇网页下载后，主题网络爬虫自动分析页面相关度，丢弃与主题无关的页面，存储相关页面。通用爬虫通常直接存储下载的页面。

URL抓取排序。主题网络爬虫依据一定的规则将待抓取的URL排序并明确抓取顺序，通常先抓取评分较高的URL，而通用爬虫采用先进先出原则。

主题网络爬虫工作流程如图 1 所示。

2 主题网络爬虫研究现状

2.1 国外研究现状

国外主题爬虫研究始于上世纪 90 年代，提出一些获取特定内容的爬行策略，只是当时还没有提出主题网络爬虫概念。1994年，DeBra[4]设计了Fish-search算法用来指导爬虫抓取方向，在特定的范围内爬取网页。若抓取到相关网页，则继续游动，反之则停止。由于Fish不能估算出页面和主题的相关程度，Michael Hersovici[5]基于Fish-Search算法于1998年提出了Shark-Search算法，该算法通过0～1的区间值表示候选URL的优先级。直到1999年，Chakrabarti等[6]提出主题网络爬虫概念，主要用于描述超链接资源发现系统，这一系统主要包括分类器和过滤器。分类器用来评估文本内容和主题相关度，过滤器用来过滤无关链接网页，是早期主题网络爬虫较典型的研究之一。2001年，Junghoo Cho提出了best-first-search搜索策略。上述3类主题网络爬虫的设计思想主要涉及网页上的文本和内容，根据文本和内容选择下载页面及将要访问的URL。基于链接结构评价这一爬取策略主要有PageRank算法和HITS算法。Larry Page[7]提出的PageRank算法，主要根据是否被权威网站指向及链接指向判断网页的关联程度。1998年，Kleinberg[8]提出HITS算法，该算法通过权威和枢纽两个维度衡量页面的价值。若只使用网络链接关系判断网页的关键性而不去判断文本内容，可能导致爬行结果与主题无关，所以一般不单独使用基于链接的爬取策略。

Hati等[9]采用VIPS 算法把网页划为不同区块，用区块的相关度评分衡量页面的主题相关度评分;Wenxian Wang等[10]利用TF-IDF特征并结合朴素贝叶斯方法判断文本内容的主题相关性;Taylan等[11]也依据朴素贝叶斯分类器将网页链接分类，同时使用简单的链接分值优化系统性能;Yohanes等[12]认为局部搜索算法有缺陷，于是运用遗传算法指导爬行，精确率较Best-First-Search算法有很大提高;álvarez等[13]构建了DeepBot[14]主题网络爬虫，获得了较高的召回率和精确率;Singh等[15]采用提取关键词扩展主题词权重表、移除重复链接等方式提高精确率;Diligenti等[16]构建了一种名为 Context Focused Crawler的主题爬虫，该系统通过分析页面的层次结构指导爬行，获得了較高的爬行效率;Stamatakis等[17]构建了包括3个不同版本的CROSSMARC 爬虫系统，针对不同的版本提供不同的起点，从而获得较高的收获比;Seyfi等[18]将基于内容和基于链接的方法相结合构建了Treasure-Crawler爬虫系统，用来发现与主题有关的页面，并建立T-Graph 结构协助URL评分;Sougata Mukherjea[19]构建了一种网页主题管理系统（WTMS），用户能采集和分析特定主题页面。

2.2 国内研究现状

相比于国外，我国对主题网络爬虫的研究起步虽晚于国外，但也取得了不少成果。

萧婧婕等[20]设计出基于灰狼算法，旨在解决爬虫在全局爬取中的优先级问题，从而提高爬取的查全率和查准率，能爬取更多网页;蒋宗礼等[21]把SVM、语义分析技术及贝叶斯结合，提高了主题相关度判断;陈千[22]提出了一种改进的best-first策略，该方法将VSM模型和贝叶斯分类器结合，能够预测待爬行链接，从而提高网页收获率。为提高爬取性能，胡萍瑞[23]依据URL的特征和站点特点，设计了基于URL模式集的主题爬虫。实验证明，该爬虫能快速判断爬取页面的相关度，保证了爬取的召回率和准确率。刘林等[24]认为并不是网页的所有URL都与主题有关，因而有必要先通过链接分析过滤掉无关链接，实验表明该方法极大提高了爬行速度;孟竹[25]借助点对互信息（PMI）与词向量模型，判断新的网页链接与主题相关度;熊忠阳等[26]提出基于信息自增益的主题爬虫，该策略在爬行过程中自动更新;白鹤[27]基于数据抽取器构建了一个分布式主题爬虫系统，该系统使用分类标注方法克服了多个主题的兼容问题。针对主题词汇不够细化、未考虑语义词意义延伸等问题，孙红光等[28]采用LDA（Latent Dirichlet Allocation，LDA）模型，基于语义相似度计算模型，引入语义信息的相似度计算模型（SVSM）设计了语义聚焦爬虫（ESVSM）。实验证明，该算法相关网页数量和平均相关度都高于其它算法，抓取精度高达85%;方启明等[29]通过在配置文件里定义目标网站的范围和类型，实现可定制主题爬虫。网页链接权威评估方法主要采用PageRank算法、Hits算法以及基于它们的改进算法，Hits主要应用于特定领域排序，PageRank算法则用于全局排序[30]。

3 存在的主要问题

近年有关主题网络爬虫研究和探索取得了一定成果，但在文本信息抽取、主题相关度判别、搜索策略等方面还存在问题，具体如下：

主题网络爬虫的爬行先在初始页获取源代码，然后分析和处理源代码以获取网页标题、文本及链接等信息，文本信息提取准确率有待进一步提高。

主题网络爬虫一般会判别网页的主题相关度，同时将自动保存相关度高的网页，当前在主题判断效率和准确率两方面有待提升。

主题网络爬虫的搜索策略研究主要是链接结构的价值评价问题，其对爬虫进一步爬行的搜索路径、搜索结果和搜索效率有重要意义。目前，搜索策略存在主题偏离、效率不佳等问题。

4 研究趋势

主题网络爬虫研究主要集中在搜索策略、网页抓取优先级设计、主题爬虫系统设计3大领域。目前主题网络爬虫研究不断进步，但有待深入研究的问题如下：

（1）当前，基于网页内容的主题网络爬虫搜索策略研究方向是使用成熟的文本分类法对网页中的文本进行分类，忽略了网页结构影响主题相关度等问题，同时，网页是否进行去噪处理直接影响到主题的判断精度，因此对网页去噪研究有待提升。此外，该策略未考虑到互联网信息随时发生变化的情况，因网页未及时更新导致抓取到的信息可能已经过时。

（2）站點的质量越高，URL就越规范，则基于链接的主题网络爬虫的主题判断精确度越高;当网站的URL路径不规范时，基于链接的主题网络爬虫判断精确度就会降低。

（3）现阶段，主要的网页链接分析是PageRank和Hits算法[34]，有些使用了SALSA和Hilltop算法，在链接分析方面有良好效果。目前，搜索引擎查询首要采用链接分析算法，假如将链接分析算法用于主题网络爬虫搜索策略以确定网页抓取优先级，则会大大提高主题网络爬虫的信息提取和网页搜索性能。

5 结语

随着人们的个性化信息需求不断加大，主题网络爬虫成为搜索引擎领域研究热点。其中，主题网络爬虫研究重点是网页抓取优先级、爬行策略以及设计实现主题网络爬虫系统3大领域。本文先给出主题网络爬虫的定义和基本原理，然后对国内外主题网络爬虫研究发展状况进行分析和系统梳理，给出了目前研究中存在的问题以及进一步研究的方向。希望有更多学者关注、加入到主题网络爬虫研究实践中，共同推动主题网络爬虫研究健康快速发展。

参考文献：

[1] 中国互联网络信息中心. 中国互联网络发展状况统计报告[EB/OL]. http：//www.cnnic.net.cn/hlwfzyj/hlwxzbg/hlwtjbg/201808/t20180 820_70488.htm

[2] 张环. 垂直搜索引擎中主题网络爬虫算法研究[D]. 济南：山东师范大学，2016.

[3] VIEIRA K， BARBOSA L， SILVA A S D， et al.Finding seeds to bootstrap focused crawlers[J]. World Wide Web，2016， 19（3）：449-474

[4] BRA P D，POST R D J. Information retrieval in the world-wide web：
making client-based searching feasible[J]. Computer Networks and ISDN Systems， 1994， 27（2）：183-192.

[5] HERSOVICI M，JACOVI M，MAAREK Y S，et al. The shark-search algorithm. an application：
tailored web site mapping[C]. International Conference on World Wide Web. Elsevier Science Publishers B. V. 1998.

[6] CHAKRABARTI S，VAN DEN BERG M，DOM B. Focused crawling：
a new approach to topic-specific web resource discovery[J]. Computer Networks， May 1999， 31（11-16）：1623-1640.

[7] PAGE.L.The pagerank citation ranking：bringing order to the web[J]. Online manuscript，1998，9（1）：1-14.

[8] JON M. KLEINBERG. Authoritative sources in a hyperlinked environment[C]. Proceedings of the Ninth Annual ACM-SIAM Symposium on Discrete Algorithms，1998：668-677.

[9] HATI D， KUMAR A. Improved focused crawling approach for retrieving relevant pages based on block partitioning[C]. International Conference on Education Technology and Computer. IEEE，2010：269-273.

[10] WANG W，CHEN X，ZOU Y，et al. A focused crawler based on naive bayes classifier[C]. Third International Symposium on Intelligent Information Technology & Security Informatics， IEEE Computer Society， 2010.

[11] TAYLAN D，POYRAZ M，AKYOKU？ S，et al. Intelligent focused crawler：
learning which links to crawl[C]. International Symposium on Innovations in Intelligent Systems and Applications. IEEE， 2011：504-508.

[12] YOHANES B W， HANDOKO H， WARDANA H K. Focused crawler optimization using genetic algorithm[J]. Telkomnika （Telecommunication Computing Electronics and Control），2013，9（3）：403-410.

[13] áLVAREZ M， RAPOSO J， PAN A，et al. Deepbot：
a focused crawler for accessing hidden web content[C]. Proceedings of the 3rd international workshop on Data engineering issues in E-commerce and services：
In conjunction with ACM Conference on Electronic Commerce （EC"07）. ACM， 2007：18-25.

[14] BERGMAN M K. White paper：
the deep web：
surfacing hidden value[J]. Journal of electronic publishing， 2001， 7（1）：597-600.

[15] SINGH B， GUPTA D K， SINGH R M. Improved architecture of focused crawler on the basis of content and link analysis[J]. International Journal of Modern Education and Computer Science， 2017， 9（11）：33-39.

[16] DILIGENTI M， COETZEE F， LAWRENCE S， et al. Focused crawling using context graphs[C]. International Conference on Very Large Data Bases. Morgan Kaufmann PublishersInc， 2000：527-534.

[17] STAMATAKIS K， KARKALETSIS V， PALIOURAS G， et al. Domain-specific web site identification：
the crossmarc focused web crawler[C]. Proceedings of the 2nd International Workshop on Web Document Analysis （WDA2003）， Edinburgh， UK， 2003：75-78.

[18] SEYFI A， PATEL A. A focused crawler combinatory link and content model based on t-graph principles[J]. Computer Standards & Interfaces， 2016（43）：1-11.

[19] MUKHERJEA S. WTMS：
a system for collecting and analyzing topic-specific web information[J]. Computer Networks， 2000， 33（1）：457-471.

[20] 蕭婧婕，陈志云. 基于灰狼算法的主题爬虫[J]. 计算机科学，2018，45（S2）：156-158，176.

[21] 蒋宗礼，田晓燕，赵旭. 一种基于语义分析的主题爬虫算法[J]. 计算机工程与科学，2010， 32（9）：145-147.

[22] 陈千. 主题网络爬虫关键技术的研究与应用[D]. 北京：北京理工大学，2015.

[23] 胡萍瑞，李石君. 基于URL模式集的主题爬虫[J]. 计算机应用研究，2018，35（3）：694-699.

[24] 刘林，汪涛，樊孝忠. 主题爬虫的解决方案[J]. 华南理工大学学报：自然科学版，2004，32（z1）：137-141.

[25] 孟竹. 词向量语义模型研究及在主题爬虫系统中的应用[D]. 北京：中国地质大学（北京），2017.

[26] 熊忠阳，史艳，张玉芳. 基于信息增益的自适应主题爬行策略[J]. 计算机应用研究，2012，29（2）：501-504.

[27] 白鹤，汤迪斌，王劲林. 分布式多主题网络爬虫系统的研究与实现[J]. 计算机工程， 2009，35（19）：13-16.

[25] 闵钰麟，黄永峰. 用户定制主题聚焦爬虫的设计与实现[J]. 计算机工程与设计，2015，36（1）：17-21.

[26] 袁浩，黄烟波. 网页标题分析对主题爬虫的改进[J]. 计算机技术与发展， 2009， 19（6）：22-24.

[28] 孙红光，藏润强，姬传德，等. 基于语义的聚焦爬虫算法研究[J]. 东北师大学报：自然科学版，2018， 50（2）：56-62.

[29] 方启明，杨广文，武永卫，等. 面向P2P搜索的可定制聚焦网络爬虫[J]. 华中科技大学学报：自然科学版， 2007， 35（s2）：148-152.

[30] 苏成，潘云涛，袁军鹏，等. 基于优化PageRank、HITS和SALSA算法的期刊评价研究[J]. 编辑学报，2015，27（4）：330-333.

[31] 何晓阳，吴强，吴治蓉. HITS算法与PageRank算法比较分析[J]. 情报杂志，2004，23（2）：85-86.

（责任编辑：杜能钢）

主题网络爬虫研究综述

最新文章

热门文章