爬虫:
以上平台或者机构不能够提供我们需要的数据,
这时就需要爬虫工程师,根据需求从互联网上抓取数据?
什么是爬虫?
就是一段自动抓取互联网数据的程序或脚本
爬虫最基本的步骤:
1.寻找目标url,发起请求
2.获取请求的响应结果,分析响应结果
3.从响应结果中提取数据
a.第一部分,从网页中提取的目标数据
b.如果存在新的url地址,则提取,继续发起请求
爬虫结束:
所有的目标url全部请求完毕,爬虫结束
爬虫的分类(通用爬虫,聚焦爬虫):
通用爬虫:
是搜索引擎的重要组成部分
作用和目的:尽可能全的将互联网上所有的网页下载到本地,通过分词,去噪等进行预处理,处理后进行数据的持久化(镜像备份),然后提取检索系统
爬虫的用途
1.搜索引擎
2.咨询新闻网站
3.购物助手(慧慧购物)
4.数据分析与研究积累原始数据资源
5.抢票软件等
获取数据的步骤):
a.获取一些种子url,放入待爬取队列
b.从待爬取队列中取出url发起请求,将获取的响应结果
进行处理,之后存入本地,然后将已爬取的url,放入已爬
取队列
c.从响应结果中获取外链(url),将url放入待爬取队列中
DNS服务:将域名转换为ip的技术
搜索引擎如何获取新网站的url:
1.向搜索引擎直接提交url地址(https://ziyuan.baidu.com/linksubmit/url)
2.通过网页的外链
3.跟DNS服务商合作,新网站注册的域对应的网
站将会迅速被搜索引擎抓取
搜索引擎的排名:
1.根据用户的访问量和网站的流量进行的排名
2.竞价排名:根据价钱进行网站的排名
搜索引擎需要遵守robot协议:
是一个规范,网站通过robot协议告诉搜索引擎哪些页面可以爬取,哪些页面不可以爬取
https://www.taobao.com/robots.txt
User-agent: Baiduspider(搜索引擎爬虫名称)
Allow: /article (允许爬取的url)
Disallow: /product/ (不允许爬取的url)
搜索引擎的缺点:
1.只能够获取简单的文件数据,大型的二进制数据(音频,视频)都不能够获取
2.搜索引擎搜索的结果千篇一律,没有办法根据特定的用户,特定的需求获取特定的数据
3.搜索引擎搜索结果99%并没用
由于搜索引擎的缺点,产生了聚焦爬虫
聚焦爬虫:
是面向主题,面向需求的爬虫,只获取跟需求相关的数据