离线爬虫和实时爬虫

要对数据进行分析和使用,首先要获取数据。可以通过调用第三方开源或者付费的接口获取,也可以自己爬取。爬虫是获取数据的重要方式之一,常见的爬虫有两类,离线爬虫和实时爬虫。
离线爬虫是指根据条件直接将线上数据爬取之后保存在数据库中,待使用方需要时直接从库里提供数据的爬虫。离线爬虫的数据量较大,适用于数据相对稳定并且使用范围较广的情况,不需要实时爬取,根据需要配置定时任务爬取并更新数据即可。这种爬虫常见于爬取房源、车源等数据。提供数据的方式一般是通过接口提供,请求参数中带查询条件即可,或者不需要请求参数直接返回所有数据。
离线爬虫的测试点如下,主要是线上数据要和爬取入库数据保持准确一致,以及提供出去的数据和爬取的数据准确一致。


微信图片_20181008225252.png

实时爬虫是有请求触发后再去爬取的爬虫,实时爬虫根据是否需要授权又分授权爬虫和非授权爬虫。授权爬虫是指需要登录才可以获取的,如运营商数据、网银账单、淘宝记录等。授权爬虫的数据采集和解析对风控有非常重要的作用。这种爬虫需要谨慎处理。授权爬虫需要关注数据的解析、入库和计算,并且测试范围尽可能覆盖较多场景。授权爬虫的要求较高,技术难度较大,目前市面上有很多授权爬虫产品服务。
非授权爬虫是不需要登录但是需要其它请求条件的爬虫,适用于数据使用范围较窄、实时性要求高的情况,比如舆情爬虫,需要查找某关键字时再进行实时爬取。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 179,251评论 25 708
  • 用两张图告诉你,为什么你的 App 会卡顿? - Android - 掘金 Cover 有什么料? 从这篇文章中你...
    hw1212阅读 14,066评论 2 59
  • 互联网最激烈的对抗战场,除了安全专家与黑客之间,大概就是爬虫与反爬虫领域了。据统计,爬虫流量早已超过了人类真实访问...
    雪吹西门诗阅读 2,404评论 0 15
  • 不停修正自己前行的方向,学习才能让自己得到不断的提升。还有就是不断区分了人生的方向。 今天很高兴能够区分事...
    钟姣阅读 602评论 4 5
  • 近几天,一个学生总在我的课上低着头,我说什么事情,他都表现出毫不在意的样子。 我感觉不对头,就主动询问他。 他开始...
    李矿水阅读 1,093评论 0 3

友情链接更多精彩内容