爬虫最基本的步骤:

1.寻找目标url,发起请求
2.获取请求的响应结果,分析响应结果
3.从响应结果中提取数据
a.第一部分,从网页中提取的目标数据
b.如果存在新的url地址,则提取,继续发起请求

爬虫结束:

所有的目标url全部请求完毕,爬虫结束

爬虫的分类(通用爬虫,聚焦爬虫):

通用爬虫:

是搜索引擎的重要组成部分
作用和目的:尽可能全的将互联网上所有的网页下载到本地,通过分词,去噪等进行预处理,处理后进行数据的持久化(镜像备份),然后提取检索系统

爬虫的用途

1.搜索引擎
2.咨询新闻网站
3.购物助手（慧慧购物）
4.数据分析与研究积累原始数据资源
5.抢票软件等

获取数据的步骤):

a.获取一些种子url,放入待爬取队列
b.从待爬取队列中取出url发起请求,将获取的响应结果
进行处理,之后存入本地,然后将已爬取的url,放入已爬
取队列
c.从响应结果中获取外链(url),将url放入待爬取队列中

DNS服务:将域名转换为ip的技术

搜索引擎如何获取新网站的url:

1.向搜索引擎直接提交url地址(https://ziyuan.baidu.com/linksubmit/url)
2.通过网页的外链
3.跟DNS服务商合作,新网站注册的域对应的网
站将会迅速被搜索引擎抓取

搜索引擎的排名:

1.根据用户的访问量和网站的流量进行的排名
2.竞价排名:根据价钱进行网站的排名

搜索引擎需要遵守robot协议:

是一个规范,网站通过robot协议告诉搜索引擎哪些页面可以爬取,哪些页面不可以爬取
https://www.taobao.com/robots.txt
User-agent:  Baiduspider(搜索引擎爬虫名称)
Allow:  /article (允许爬取的url)
Disallow:  /product/ (不允许爬取的url)

搜索引擎的缺点:

1.只能够获取简单的文件数据,大型的二进制数据(音频,视频)都不能够获取
2.搜索引擎搜索的结果千篇一律,没有办法根据特定的用户,特定的需求获取特定的数据
3.搜索引擎搜索结果99%并没用

由于搜索引擎的缺点,产生了聚焦爬虫

聚焦爬虫:

是面向主题,面向需求的爬虫,只获取跟需求相关的数据

最后编辑于：2019.01.27 10:50:05