什么是爬虫
就是一段自动获取互联网信息的程序。
爬虫基本的运作流程
- 首先确定目标网站,分析目标url
- 根据url发起请求,获取服务器返回的响应
- 从响应结果中提取目标数据
a) 提取目标数据
b) 提取新的url,执行第二步的循环 - 最终所有的目标url访问完毕,爬虫结束
网络的三大特性
- 每一个网页都有一个唯一的url(同意资源定位符)
- 每一个网页都市一个html文本(超文本)
- 都是通过http/https(超文本传输协议)获取网页数据
爬虫的分类
通用爬虫:
通用网络爬虫是捜索引擎的重要组成部分,尽可能全的爬虫全网的数据,将互联网上的网页下载到本地,将获取到的数据进行处理(关键字的提取,分词,去广告),最终根据用户检索信息,将数据返回给用户。
聚焦爬虫:
有目的性的获取网页的数据,(面向特定主题的需求)
通用爬虫如何工作
1)必须要有种子(目标)url
2)根据url发起请求,获取服务器返回的响应
a. 获取网页源码,保存在本地服务器
b. 从响应的结果中提取新的url,继续发起请求
3)所有的url请求完毕,爬虫结束
种子url的来源
- 主动向搜索引擎提交
- 网页里面的外链(友情链接)
- 搜索引擎和DNS服务商合作
DNS:将域名解析为ip的一种技术
搜索引擎的排名
- pankpage(浏览量/人气)
- 竞价排名:通过资金购买排名
搜索引擎的工作流程:
通过url获取页面源码--> 将页面数据存储本地--> 数据处理--> 排名
搜索引擎的缺点
- 需要遵守robot协议,有些路径下的数据不允许访问
- 搜索引擎只能爬取一些简单的文字,pdf,word文档的信息,不支持二进制流
- 不能够根据不同用户的不同需求返回结果
- 搜索结果大部分都是网页,很多网页的信息用不着