爬虫技术(二)-新的思路

在上一篇文章《一篇文章了解爬虫技术现状》中,我们总结了目前后台爬虫所面临的交互困难、javascript解析麻烦、以及ip限制三大问题。本期,我们不妨换一种思路来重新思考,说不定会别开生面、柳暗花明。

承上

书接上文,我们说明了目前后台爬虫所面临的三大问题,此三点对于后台爬虫来说基本条条都是硬伤,当然,现在有些网站安全性考虑的不够,安全策略并非太过复杂,在有些场景下,对后端爬虫来说不至于会致命,但是,一旦有个新的需求遇到了这三座大山的其中一个,那将会是很麻烦的一件事。既然如此,在穷途陌路的时候,我们何不换个思路?

山重水复疑无路,柳暗花明又一村,千呼万唤始出来,蓦然回首,犹抱琵琶半遮面!

障碍,不一定非得正面跨过去,有时候,绕过去会更容易。

再思

遇到交互困难的场景有哪些?

上文中我们提到,后台爬虫说面临的第一座大山就是交互困难。但是,不是所有的网页都会有复杂的交互,其实,和爬虫(会对爬取结果产生重要影响)相关90%的网页交互都是验证码!而这些验证码通常都在登录页。比如我们要爬取某人的所有微博评论、qq空间留言、邮件列表等等。对于这些场景,我们爬虫必须要进行登录,否则无法获取内容。而对于搜索引擎的爬虫来说,这些内容是没有必要的,百度谷歌不可能取爬取用户这些信息。也就是说,无论是在怎样的需求场景下,我们遇到这种交互问题之前,都是都是需要用户告诉我们用户明和密码,然后我们再去爬,然后才能遇到验证码问题。所以,这种需求场景必然有个用户授权/登录的过程,那么在你们的产品当中,一般的交互会是这样:产品中会提供一个让用户授权/登录页面,用户授权/登录后,将账户信息加密发送到后台,后台拿到账户信息后,启动爬虫去尝试登录,如果遇到验证码,后台再返回给端上,由用户手动完成,然后后台获取到用户输入的验证码(可以是一组操作值),再继续进行登录验证,这样才能完成整个流程,大家想想12306的抢票软件的流程,正是如此。可见这样的产品交互是很复杂的。好了,我们总结一下,遇到这种情况的本质原因是爬虫在执行过程中需要用户通过端(app或网页)进行手动授权,而授权的过程需要端和后台一次或多次交互

如何才能突破ip限制?

其实,这是最容易得出结论的一个问题,我们稍加思考,就会意识到,只要爬取是在后台进行,那么ip就永远有限,这个问题就不可能彻底解决!

行文至此,今天要介绍的主角已经呼之欲出了,想必你也已经猜到了。在揭开它面纱之前我们先来看看近几年业务需求发生的变化。

新的需求场景

众所周知,近年来随着P2P的快速发展,互联网金融更是处于风口浪尖,这个万亿级的市场,吸引了一大批公司,像蚂蚁金服、陆金所、爱钱进、理财通、百度金融等等。而互联网金融的本质主要是风险控制、所以一个强大征信平台至关重要。从业务角度来看,互联网金融公司一般都会分为两块:资产端和资金端,也就是贷款方和投资方,而这里最具风险的就是对贷款方的资质审核,这和传统的金融没什么区别,而所谓互联网金融,无非是将认证流程提到了线上,借款时通过相应平台的的app完成。而认证流程往往需要获取用户信息,如信用卡代还的借款需要爬取用户信用卡账单邮箱、通话记录,有的甚至要爬支付宝交易记录、京东淘宝购买记录等等,这些都是需要用户授权/登录的,而这些网站通常为了安全期间,对ip请求的次数、频率都有着严格的限制,这导致传统的后台爬虫不能胜任,此时急需一种新的解决方案。

客户端爬取方案

经过之前的诸多铺垫,换个思路想想,如果能在用户端完成数据获取,像后台爬虫面临的三座大山还会存在吗?对于ip限制,由于数据获取是在用户端完成的,我们每一个用户的ip可以大致认为是不同的,那么ip限制则不攻自破;对于动态验证,需要爬取用户登录后的信息时,我们肯定需要用户授权,所以对于验证码,我们可以引导用户自己操作,而无需和后台进行交互;而对于javascript解析的问题,如果爬取是在客户端进行,那么我们能否引入浏览器的javascript虚拟机呢?可不可以用v8? 如果可以,那么我们的爬取脚本是不是也能用javascript去写?如果可以,那么我们的爬取脚本中是不是可以用jQuery解析网页,直接发起ajax请求?如果可以,那怎一个爽字了得,不可能有比这更容易的写的爬虫了!从此,javascript真的要一统天下了呀,好可怕。。。

换个行!我们平复一下激动的心情!

好,我们回过头来看一下,如果采用客户端方案,之前后台遇到到的三大问题是否都可以解决。

  1. 交互复杂;客户端爬取是在端上进行,无需再和后台交互,用户登录成功后再爬取,最终只需要将爬取的数据上报给后台就行。
  2. Javascript解析问题;如果爬取是在端上,所以没有后台高并发吞资源的情况,我们完全可以引入和浏览器一样的javascript运行环境。
  3. ip限制问题;彻底解决了!

客户端爬取方案可能遇到的问题

事无巨细,我们先关注以下几点:

  1. 脚本放在哪

    传统后台爬取的程序是在后台,如果目标网站发生变化,可以随时更新爬取程序。但客户端爬取将会有问题,爬取脚本保存在客户端,那么就麻烦了。看来脚本是不能保存在端上,那么必须有一套脚本下发、更新的机制。

  1. 如何进行错误收集

    如果目标网站发生变化导致我们脚本不能正常工作或抛出异常,如果是在后台,我们可以有服务器打点、报警等及时发现处理,如果在端上我们应该如何及时应对错误?

  1. 如何进行版本管理

    版本管理分为爬取脚本版本和sdk版本,脚本支持的sdk版本范围如何匹配?

  2. 怎么写脚本

    用什么语言?如何控制爬取流程?如何和端通信?

完整的客户端爬取平台

综上所述,下面,我们想想,一个完整、友好的、理想的的客户端爬取平台应该是什么样子的。

  1. 跨平台;在移动互联网时代,最起码支持ios/android.
  2. 云管理平台;主要用于配置脚本参数、更新脚本、统计脚本爬取状态、错误分析等。如果你是开发者,那么云管理平台同时也是发布、管理自己脚本的地方。
  3. 爬取脚本使用javascript语言;一来前端程序员可以很快上手,二来,javascript天生和网页更配。这样会降低开发难度和成本,学习成本很低。
  4. 脚本商店;互联网上的网页浩如烟海,开发者可以有偿或无偿的把自己的脚本发布到脚本商店,供其它人使用、共享。

最后

本文本想打算直接介绍客户端爬取平台,但我觉得在介绍新的事物之前应该要弄明白缘起,只有了解了它的诞生环境,才能更好的理解它的价值。下一篇我们将隆重介绍全球第一个开放的客户端爬取平台。,如依然有兴趣,敬请关注。

本文章允许免费转载,但请注明原作者及原文链接。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,254评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,875评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,682评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,896评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,015评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,152评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,208评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,962评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,388评论 1 304
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,700评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,867评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,551评论 4 335
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,186评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,901评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,142评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,689评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,757评论 2 351

推荐阅读更多精彩内容