登录注册写文章

爬虫概述

不一样的丶我们

爬虫概述

网络爬虫

主要是针对网络上的数据通过编程的方式，自动采集的一种手段。公司除了从第三方平台直接使用免费的数据或者购买数据之外，更多的是通过网络爬虫的方式让爬虫工程师负责采集公司所需要的数据！

通用爬虫和聚焦爬虫

一般情况下，根据爬虫程序的应用场景的不同，可以将爬虫程序大致分为两种类型：通用爬虫和聚焦爬虫
通用爬虫
- 通用爬虫是网络搜索引擎的一部分，遵循爬虫的robot协议负责采集网络中的网页信息内容并建立索引，在自己的搜索引擎服务器上建立网络信息的索引镜像备份文件，达到对网络上的信息内容可以快速检索的目的

robot协议：是关于网络爬虫的一种约定的协议，robot协议明确告诉了网络爬虫，哪些数据内容是可以爬取的，哪些数据内容是不允许爬虫采集的，如果是合法合规的爬虫程序，必须遵循robot协议约定的采集内容区域，否则可能设计到维权行为！

聚焦爬虫
- 聚焦爬虫是通过编程的方式针对特定的需要进行数据定向采集的一种手段，能更好的更加准确的采集用户需要的数据，在一定程度上能很好的满足业务数据需要。缺点在于聚焦爬虫的编码工作比较繁琐，针对不同类型的数据采集工作，需要定制化的开发不同的程序代码。然后~瑕不掩瑜的是，定向爬虫由于其特定的采集手段，尤其是程序开发人员对于问题处理的操作方式愈发先进和自动化，聚焦爬虫更加受到公司的欢迎。

最后编辑于：2018.01.12 16:37:33

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

爬虫0010：概述
爬虫概述 ——编辑:大牧莫邪 1. 目录清单爬虫简介通用爬虫和聚焦爬虫网络请求那些事儿网络数据抓包分析 2...
大牧莫邪阅读 704评论 0赞 3
[3/4]我所经历的大数据平台发展史（三）：互联网时代 • 上篇
//我所经历的大数据平台发展史（三）：互联网时代 • 上篇http://www.infoq.com/cn/arti...
葡萄喃喃呓语阅读 51,367评论 10赞 200
服务器爬虫
你爬了吗？要玩大数据，没有数据怎么玩？这里推荐一些33款开源爬虫软件给大家。爬虫，即网络爬虫，是一种自动获取网...
Albert新荣阅读 2,252评论 0赞 8
33款可用来抓数据的开源爬虫软件工具
33款可用来抓数据的开源爬虫软件工具要玩大数据，没有数据怎么玩？这里推荐一些33款开源爬虫软件给大家。爬虫，即...
visiontry阅读 7,455评论 1赞 99
33款开源爬虫软件工具收藏！(你也试试）
要玩大数据，没有数据怎么玩？这里推荐一些33款开源爬虫软件给大家。爬虫，即网络爬虫，是一种自动获取网页内容的程序...
评评分分阅读 8,052评论 2赞 121

赞1赞

赞赏

手机看全文