爬虫理论知识

爬虫:

平台或者机构不能够提供我们需要的数据,
这时就需要爬虫工程师,根据需求从互联网上抓取数据?

什么是爬虫?

就是一段自动抓取互联网数据的程序或脚本

爬虫最基本的步骤:

1.寻找目标url,发起请求
2.获取请求的响应结果,分析响应结果
3.从响应结果中提取数据
a.第一部分,从网页中提取的目标数据
b.如果存在新的url地址,则提取,继续发起请求

爬虫结束:所有的目标url全部请求完毕,爬虫结束

数据的用途:

1.可以爬取数据,写自己的网站
2.搜索引擎
3.购物助手
4.日常数据的基本分析(知乎数据冰山专栏)

做爬虫可以用python java php c/c++ switch ... 完成

爬虫的分类:

1.通用爬虫:是搜索引擎的重要组成部分

作用和目的:尽可能全的将互联网上所有的网页下载到
本地,通过分词,去噪等进行预处理,处理后进行数据的持久化(
镜像备份),然后提取检索系统

获取数据的步骤):
   a.获取一些种子url,放入待爬取队列
   b.从待爬取队列中取出url发起请求,将获取的响应结果
   进行处理,之后存入本地,然后将已爬取的url,放入已爬
    取队列
   c.从响应结果中获取外链(url),将url放入待爬取队列中

2.聚焦爬虫

焦爬虫,是"面向特定主题需求"的一种网络爬虫程序,它与通用搜索引擎爬虫的区别在于:   聚焦爬虫在实施网页抓取时会对内容进行处理筛选,尽量保证只抓取与需求相关的网页信息。

DNS服务:将域名转换为ip的技术

搜索引擎获取网站的url:

1.向搜索引擎直接提交url地址(https://ziyuan.baidu.com/linksubmit/url)
2.通过网页的外链
3.跟DNS服务商合作,新网站注册的域对应的网
站将会迅速被搜索引擎抓取

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。