分布式爬虫算法对比

*广度优先搜索策略,将网页的所有链接都保存到等待队列中,该算法偏向于覆盖更广的网页,对下一级的访问会有一定的延迟。

*深度优先搜索策略,将网页链接逐个跟踪下去,算法容易虽然设计但遍历时需要回溯,该算法会偏向于搜索更深层次的信息。

*最佳优先搜索策略,按一定的网页分析算法计算网页的优先值,选取最好的一个或者几个URL进行抓取。该搜索策略只访问经过的网页分析算法预测为相关的网页,存在的特点是会忽略在爬虫路径上的很多相关网页,该算法是一种局部最优的搜索算法。

*融合的主题爬虫策略,采用多队列多策略融合的算法,结合广度优先、深度优先以及最佳优先的搜索策略以及创建多个采集队列的模式,对不同的队列采取不同的处理方式。

融合的主题爬虫策略算法流程图

算法效果对比:




在普通爬虫流程的基础上,将常用搜索策略融合为多策略融合的搜索算法,改进了原有搜索效率低下的问题,达到效率成倍提升的效果。

基于改进遗传算法的主题爬虫

*对比以上策略,主题爬虫不需遍历整个Web,并且提高了全局搜索能力。改进遗传算法的主题爬虫用于提高全局搜索能力,对比一般遗传算法具有更高精度和召回率,搜索范围更广。

遗传算法(GA)主题爬虫框架
精度对比
召回率对比

在基于遗传算法的主题爬虫的搜索策略下,改进并重新设计了更准确的ft-ness函数并优化了遗传操作。网页评估方法同时考虑主题相关性和重要性。通过向量空间模型分析主题相关性,并通过改进的PageRank算法计算主题重要性。基于用户浏览行为优化遗传操作。选择操作选择具有高度的网页,交叉操作按主题重要性排序链接,并通过搜索引擎搜索组合关键字的变异操作。结果表明,改进的GA可以部分改善精确率和召回率。

总结

对比以上几种爬虫搜索策略,广度、深度和最优搜索策略属于比较传统的算法,融合的主题爬虫策略结合了前面几种策略,效果相对比较理想,优缺点相对折中。基于改进遗传算法的主题爬虫策略相对比较复杂,毫无疑问,主题爬虫策略会比遍历搜索策略会更加精准。对比之下,改进的GA搜索策略会相对较优。

参考文献:2017,硕士论文,主题网络爬虫的并行化研究与设计
链接:http://kreader.cnki.net/Kreader/CatalogViewPage.aspx?dbCode=cdmd&filename=1017256582.nh&tablename=CMFD201801&compose=&first=1&uid=WEEvREcwSlJHSldRa1FhcTdWajFtT29JdHg4MXJvM3hIWlk2STdUZlQybz0=$9A4hF_YAuvQ5obgVAqNKPCYcEjKensW4ggI8Fm4gTkoUKaID8j8gFw!!

参考文献:2018 (ICACI), Designing Focused Crawler Based On Improved
Genetic Algorithm
链接:https://ieeexplore.ieee.org/document/8377476/

网络爬虫技术总结
Blog

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 这个系列的第六个主题,主要谈一些搜索引擎相关的常见技术。 1995年是搜索引擎商业公司发展的重要起点,《浅谈推荐系...
    我偏笑_NSNirvana阅读 11,679评论 3 24
  • 姓名:李昕洲 学号:16030120026 转载自:https://zm8.sm-tc.cn/?src=l4u...
    浩浩_72a0阅读 3,704评论 0 0
  • 是谁把相思熬成红豆, 于是我把红豆熬成了粥,我又把这相思的粥熬成了夜,越夜越深,越深越黑, 以至于都成了黑眼圈.我...
    张子晗阅读 2,047评论 0 0
  • 鱼和熊掌真的不可兼得吗? 也许是真的。 我们单位有些人一进来就是省联社考进来的,但有些当初也许只是一个中专毕业生,...
    清风伏笔阅读 2,761评论 3 3
  • 及时行乐,最具代表性的应该是:今宵有酒今宵醉。李太白的写酒的诗,都是那种潇洒,豪放,被很多人所爱被追求着。我...
    May顾玮玮阅读 3,244评论 0 2