网络爬虫
通用爬虫框架
- 首先从互联网页面中精心选择一部分网页,以这些网页的链接地址作为种子URL,将这些种子URL放入待抓取URL队列中,爬虫从待抓取URL队列依次读取,并将URL通过DNS解析,把链接地址转换为网站服务器对应的IP地址。
- 然后将其和网页相对路径名称交给网页下载器,网页下载器负责页面内容的下载。对于下载到本地的网页,一方面将下载网页的URL放入已抓取URL队列中,这个队列记载了爬虫系统已经下载过的网页URL,以避免网页的重复抓取。对于刚下载的网页,从中抽取所有包含的链接信息,并在已经抓取URL队列中检查,如果发现链接还没有抓取过,则将这个URL放入待抓取URL队列尾部,在之后的抓取调度中会下载这个URL对应的网页。
- 如此这般直到待抓取URL队列为空。
大致可将爬虫划分为以下3类:
1.批量性爬虫:有明确的抓取范围和目标,达到设定目标后,停止抓取过程。
2.增量型爬虫:保持持续抓取,对抓取到的网页,定期更新。
3.垂直型爬虫:关注特定主题内容或者特定行业网页。
优秀爬虫的特性
高性能 可拓展性 健壮性 友好性
宽度优先遍历策略
什么是宽度优先遍历?
将新下载网页包含的链接直接追加到待抓取URL队列末尾。
非完全PageRank策略
对于已经下载的网页,加上待抓取URL队列中的URL一起,形成网页集合,在此集合内进行PageRank计算,计算完成后,将待抓取URL队列里的网页按照PageRank得分高低排序,接下来依次由高到低抓取。(PageRank是个全局性算法,就是搜友网页下载完成后,计算结果才是可靠的)
OCIP策略
“在线页面重要性计算“ 开始之前,每个互联网页面都给予相同的”现金“,每当下载了某个页面P后,P将自己拥有的现金平均分配给页面中包含的链接页面,把自己的现金清空。
大站优先策略
以网站为单位来衡量网页重要性,如果哪个网站等待下载的页面最多,则优先下载这些链接
鉴于大型网站往往是著名企业的内容,网页质量一般较高,所以这个思路虽然简单,但是有一定的依据。
网页更新策略
历史参考策略
过去频繁更新的网页,那么将来也会频繁更新。
用户体验策略
聚类抽样策略
暗网抓取
所谓暗网,是指目前搜索引擎爬虫按照常规方式很难抓取到的互联网页面。
搜索引擎爬虫依赖页面中的链接关系发现新的页面,但是很多网站的内容是以数据库方式存储的,典型例子就是一些垂直领域网站。往往是服务网站提供组合查询界面,只有用户按照需求输入查询之后,才能获得相关数据。
查询组合问题
富含信息查询模板:对于某个固定的查询模版来说,如果给模版内每个属性都赋值,形成不同的查询组合,提高给垂直搜索引擎,观察所有返回页面的内容,如果相互之间内容差异较大,则这个查询模版就是富含信息查询模版。
ISIT算法:首先从一维模版开始,对一维查询模版逐个考察,看其是否是富含信息查询模版,如果是,则将这个一维模版拓展到二维,再次考察对应的二维模版,如此类推,逐步增加维数,直到再也找不到富含信息查询模板为止。(数据挖掘经典算法Apriori)
分布式爬虫
一个大型分布式爬虫的3个层级:分布式数据中心,分布式抓取服务器,分布式爬虫程序。
每个数据中心由多台高速网络连接的抓取服务器构成,每台服务器又可以部署多个爬虫程序。通过多层级的分布式爬虫系统,才可能保证抓取数据的及时性和全面性。
主从式分布式爬虫
有一台专门负责对其他服务器提供URL分发服务,其他机器则进行实际的网页下载。
对等式分布爬虫
在对等分布式爬虫体系中,服务器之间不存在分工差异,每台服务器承担相同的功能,各自负担一部分URL抓取工作。
由于没有URL服务器存在,每台抓取服务器的任务分工就成为问题。对网址的主域名进行哈希计算,之后取模,如果计算所得的值和抓取服务器编号匹配,则自己下载该网页,否则将该网页转发给对应变好的服务器抓取。
由于没有URL分发服务器,所以此种服务器不存在系统瓶颈,另外哈希函数不是针对整个URL,只针对主域名,所以可以保证同一网站的所有网页都由同一台服务器抓取。这样一方面可以提高下载效率(DNS域名解析可以缓存),另一方面也可以主动控制对某个网站的访问速度,避免对某个网站访问压力过大。
这种体系结构也存在一些缺点,假设在抓取过程中某台服务器宕机,或者此时加入一台抓取服务器,因为取模时m是以服务器个数确定的,所以此时m值发生变化,导致大部分URL哈希取模后跟着变化,这意味着几乎所有任务都需要重新进行分配,无疑资源极大浪费。
放弃哈希取模方式,采用一致性哈希方法确定服务器的任务分工。一致性哈希将网站的主域名进行哈希,映射为一个范围在0到2的32次方之间的某个数值,大量的网站主域名会均匀地哈希到这个数值区间,将哈希值首尾相接,即认为数值0和最大值重合,这样可以将其看作有序的环状序列,从数值0开始,沿着环的顺时针方向,哈希值逐渐增大,直到环的结尾。而某个抓取服务器则负责这个环状序列的一个片段,即落在某个哈希值范围内的URL都将由该服务器负责下载。