爬虫概述

网络爬虫

  • 主要是针对网络上的数据通过编程的方式,自动采集的一种手段。公司除了从第三方平台直接使用免费的数据或者购买数据之外,更多的是通过网络爬虫的方式让爬虫工程师负责采集公司所需要的数据!

通用爬虫和聚焦爬虫

  • 一般情况下,根据爬虫程序的应用场景的不同,可以将爬虫程序大致分为两种类型:通用爬虫和聚焦爬虫
  • 通用爬虫
    • 通用爬虫是网络搜索引擎的一部分,遵循爬虫的robot协议负责采集网络中的网页信息内容并建立索引,在自己的搜索引擎服务器上建立网络信息的索引镜像备份文件,达到对网络上的信息内容可以快速检索的目的

robot协议:是关于网络爬虫的一种约定的协议,robot协议明确告诉了网络爬虫,哪些数据内容是可以爬取的,哪些数据内容是不允许爬虫采集的,如果是合法合规的爬虫程序,必须遵循robot协议约定的采集内容区域,否则可能设计到维权行为!

  • 聚焦爬虫
    • 聚焦爬虫是通过编程的方式针对特定的需要进行数据定向采集的一种手段,能更好的更加准确的采集用户需要的数据,在一定程度上能很好的满足业务数据需要。缺点在于聚焦爬虫的编码工作比较繁琐,针对不同类型的数据采集工作,需要定制化的开发不同的程序代码。然后~瑕不掩瑜的是,定向爬虫由于其特定的采集手段,尤其是程序开发人员对于问题处理的操作方式愈发先进和自动化,聚焦爬虫更加受到公司的欢迎。
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容