01 : 网络爬虫

网络爬虫

通用爬虫框架

  • 首先从互联网页面中精心选择一部分网页,以这些网页的链接地址作为种子URL,将这些种子URL放入待抓取URL队列中,爬虫从待抓取URL队列依次读取,并将URL通过DNS解析,把链接地址转换为网站服务器对应的IP地址。
  • 然后将其和网页相对路径名称交给网页下载器,网页下载器负责页面内容的下载。对于下载到本地的网页,一方面将下载网页的URL放入已抓取URL队列中,这个队列记载了爬虫系统已经下载过的网页URL,以避免网页的重复抓取。对于刚下载的网页,从中抽取所有包含的链接信息,并在已经抓取URL队列中检查,如果发现链接还没有抓取过,则将这个URL放入待抓取URL队列尾部,在之后的抓取调度中会下载这个URL对应的网页。
  • 如此这般直到待抓取URL队列为空。

大致可将爬虫划分为以下3类:
1.批量性爬虫:有明确的抓取范围和目标,达到设定目标后,停止抓取过程。
2.增量型爬虫:保持持续抓取,对抓取到的网页,定期更新。
3.垂直型爬虫:关注特定主题内容或者特定行业网页。

优秀爬虫的特性

高性能 可拓展性 健壮性 友好性

宽度优先遍历策略

什么是宽度优先遍历?
将新下载网页包含的链接直接追加到待抓取URL队列末尾。

非完全PageRank策略

对于已经下载的网页,加上待抓取URL队列中的URL一起,形成网页集合,在此集合内进行PageRank计算,计算完成后,将待抓取URL队列里的网页按照PageRank得分高低排序,接下来依次由高到低抓取。(PageRank是个全局性算法,就是搜友网页下载完成后,计算结果才是可靠的)

OCIP策略

“在线页面重要性计算“ 开始之前,每个互联网页面都给予相同的”现金“,每当下载了某个页面P后,P将自己拥有的现金平均分配给页面中包含的链接页面,把自己的现金清空。

大站优先策略

以网站为单位来衡量网页重要性,如果哪个网站等待下载的页面最多,则优先下载这些链接
鉴于大型网站往往是著名企业的内容,网页质量一般较高,所以这个思路虽然简单,但是有一定的依据。

网页更新策略

历史参考策略

过去频繁更新的网页,那么将来也会频繁更新。

用户体验策略
聚类抽样策略

暗网抓取

所谓暗网,是指目前搜索引擎爬虫按照常规方式很难抓取到的互联网页面。
搜索引擎爬虫依赖页面中的链接关系发现新的页面,但是很多网站的内容是以数据库方式存储的,典型例子就是一些垂直领域网站。往往是服务网站提供组合查询界面,只有用户按照需求输入查询之后,才能获得相关数据。

查询组合问题

富含信息查询模板:对于某个固定的查询模版来说,如果给模版内每个属性都赋值,形成不同的查询组合,提高给垂直搜索引擎,观察所有返回页面的内容,如果相互之间内容差异较大,则这个查询模版就是富含信息查询模版。
ISIT算法:首先从一维模版开始,对一维查询模版逐个考察,看其是否是富含信息查询模版,如果是,则将这个一维模版拓展到二维,再次考察对应的二维模版,如此类推,逐步增加维数,直到再也找不到富含信息查询模板为止。(数据挖掘经典算法Apriori)

分布式爬虫

一个大型分布式爬虫的3个层级:分布式数据中心,分布式抓取服务器,分布式爬虫程序。
每个数据中心由多台高速网络连接的抓取服务器构成,每台服务器又可以部署多个爬虫程序。通过多层级的分布式爬虫系统,才可能保证抓取数据的及时性和全面性。

主从式分布式爬虫

有一台专门负责对其他服务器提供URL分发服务,其他机器则进行实际的网页下载。

对等式分布爬虫

在对等分布式爬虫体系中,服务器之间不存在分工差异,每台服务器承担相同的功能,各自负担一部分URL抓取工作。
由于没有URL服务器存在,每台抓取服务器的任务分工就成为问题。对网址的主域名进行哈希计算,之后取模,如果计算所得的值和抓取服务器编号匹配,则自己下载该网页,否则将该网页转发给对应变好的服务器抓取。
由于没有URL分发服务器,所以此种服务器不存在系统瓶颈,另外哈希函数不是针对整个URL,只针对主域名,所以可以保证同一网站的所有网页都由同一台服务器抓取。这样一方面可以提高下载效率(DNS域名解析可以缓存),另一方面也可以主动控制对某个网站的访问速度,避免对某个网站访问压力过大。
这种体系结构也存在一些缺点,假设在抓取过程中某台服务器宕机,或者此时加入一台抓取服务器,因为取模时m是以服务器个数确定的,所以此时m值发生变化,导致大部分URL哈希取模后跟着变化,这意味着几乎所有任务都需要重新进行分配,无疑资源极大浪费。
放弃哈希取模方式,采用一致性哈希方法确定服务器的任务分工。一致性哈希将网站的主域名进行哈希,映射为一个范围在0到2的32次方之间的某个数值,大量的网站主域名会均匀地哈希到这个数值区间,将哈希值首尾相接,即认为数值0和最大值重合,这样可以将其看作有序的环状序列,从数值0开始,沿着环的顺时针方向,哈希值逐渐增大,直到环的结尾。而某个抓取服务器则负责这个环状序列的一个片段,即落在某个哈希值范围内的URL都将由该服务器负责下载。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,761评论 5 460
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,953评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,998评论 0 320
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,248评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,130评论 4 356
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,145评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,550评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,236评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,510评论 1 291
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,601评论 2 310
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,376评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,247评论 3 313
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,613评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,911评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,191评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,532评论 2 342
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,739评论 2 335

推荐阅读更多精彩内容