爬虫理论概述

1. 爬虫概述

    爬虫,又称为网络爬虫,主要指代从互联网上进行数据采集的脚本后端程序,是进行数据分析和数据挖掘的基础。

1.1. 爬虫分类

    根据项目中的使用情况进行区分,主要分为两大类:通用爬虫和聚焦爬虫
    根据采集数据的过程进行区分,又可以分为两大类型:累积爬虫和增量爬虫

1.1.1. 通用爬虫 & 聚焦爬虫

    通用爬虫:最常见的数据采集程序,是网络上搜索引擎使用的脚本程序,搜索引擎通过通用爬虫进行互联网上的数据搜集,提供给自己的客户进行数据搜索使用;通用爬虫采集的数据具有普遍性,针对性较差;但是通用爬虫的重用性较高,一旦开发调试完成,可以长时间运行给搜索引擎提供需要的数据。
    聚焦爬虫:是数据供应商企业使用最多的爬虫程序,通常情况针对指定范围的数据进行定向的数据采集和筛选,能在一定时间段内最大限度的采集企业需要的有效数据;但是重用性较差,一般针对不同的数据需求,需要独立开发爬虫程序进行数据采集。

1.1.2. 累积爬虫 & 增量爬虫

    累积爬虫:目标数据一旦生成,不会发生改变,随着时间的延伸数据量逐渐增大,累积爬虫就是采集这样的数据,采集并保存历史数据之后针对新生成的数据进一步获取,采集过程中不会更新历史数据;如采集期权股票的数据、房地产地域价格历史数据等等。
    增量爬虫:目标数据在需求更改过程中可能会随时发生变化;历史数据的变动和新增数据都被称为增量,所以针对此类数据采集的爬虫程序,称为增量爬虫;增量爬虫的特点就是在采集数据的过程中随时更新历史数据的同时采集新增数据;如搜索引擎采集网络数据,网络上的网页数据随时可能发生变化,需要爬虫针对采集的历史数据随时进行更新并采集新增的网页数据。

1.1.3. robot协议

    活跃在网络上的数据本身就是需要相关的客户进行访问查看的,所以正常情况下网络上客户能查看到的数据爬虫一般都能进行数据采集处理。
    但是,很多情况下有些数据是受到保护的,网站一般会发表声明该类型数据被当前网站版权保护,其他个人或者单位不能将该网站数据用于其他的网站或者商业目的,就是一种比较常规的限制。
    同时在网络上活跃着很多深层网络数据,在进行爬虫数据采集的过程中,很有可能会从正常网页中采集到该类型的url地址并获取数据,该类型数据极有可能是涉密数据,如果进行非法访问和采集会承担一定的民事/刑事责任。
    ROBOT协议就是针对这样的问题出现的一种规范和约束,一般稍有安全意识的网站都会有自己的ROBOT协议,协议规范了允许爬虫采集的网站地址列表和禁止访问的地址列表,方便爬虫程序在采集的过程中进行参考使用。

1.2. 为什么要使用爬虫

    爬虫的作用是从网站上采集(下载)数据的,目前市面上流行的下载工具比比皆是,使用爬虫的优势和使用场景的目的性一定要明确。
    爬虫的优势是将下载数据的过程通过编写的程序实现自动化批量处理,但是自动化有两个前提条件:需要编写程序、可以批量处理;这两个前提条件同样也说明了爬虫的使用场景

  • 采集数据之前,对目标数据进行分析,并编写程序代码
  • 目标数据是批量数据(非单个极少量数据),批量数据有自己的组成规律

1.3. 爬虫注意事项

    爬虫技术在一定程度上还是备受争议的,尤其是聚焦爬虫在数据处理过程中对于目标数据所在的服务器会造成短时间的压力提升;爬虫程序由于程序本身的特殊性,在一定程度上可能会引发一些对网站的恶意攻击行为;爬虫采集数据的过程中对于数据的涉密性区分不是很严格,主要靠人工手段进行筛选操作;所以爬虫处理过程中一定要注意如下问题:

  • 爬虫采集的目标数据量进行分析
  • 爬虫采集的目标数据涉密性进行分析
  • 爬虫采集目标数据的频率进行分析
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,491评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,856评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,745评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,196评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,073评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,112评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,531评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,215评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,485评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,578评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,356评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,215评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,583评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,898评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,174评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,497评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,697评论 2 335

推荐阅读更多精彩内容