爬虫(三)

          这两天呢,忽然看了一下,自己手边管理的爬虫,看了一下,数据抓取率有点偏低了。 于是自己研究了一下Amazon的反爬虫技术!

于是我在这里写下一点点,我对于反爬虫的一点点认知,欢迎各位大佬拍砖!

反爬虫技术的核心要点就是,在不影响客户体验的情况下,以最大的可能性,禁止掉爬虫!

   要做反爬虫,首先要知道爬虫的基本信息。   

     从技术层面上来说,爬虫无非就是有两种实现途径。 一个是渲染,采用程序调用(控制)浏览器来执行某一些步骤或者是,采集某一些数据。   第二种就是 抓包。 直接进行数据接口的访问信息!

 针对这两种的爬虫的机制来说的话:

    反爬虫可以进行一下以下操作:

首先,渲染的核心呢,就是浏览加载页面,而浏览器加载的有个关键的点就是,整个页面(html+js+css+jpg+....)等等,全部都加载到了这个页面才算是加载完成! 

  而反爬虫就可以在一些非重要的js进行一下,线程的休眠,或者在某个不是很重要的接口里面,写上休眠,这个样子,就可以将一个页面从开始加载,到加载完成。所耗费的时间拉长,因为不是不是特别重要的原因,既不影响客户体验,也能降低爬虫的抓取能力!(一个爬虫绝对受不了,一个页面加载需要5-10秒的时间。)

 而针对抓包这块的话,可进行的操作的点就多了。 

    一些简单的例子,没host,不允许访问啊,没user-agent不允许访问啊,封ip,必须登录状态啊,等等操作,有很大的操作空间,而我就不班门弄斧了!

而作为爬虫端呢,需要做到的有4点,分别是数据的  一致性,即时性,准确性,跟完整性!  

  一致性: 在后台数据未改变的情况下,两次抓取数据必须一致!   

              反爬虫技术中的: 数据混淆,就是针对这个来直接性进行的。 (例如:天眼查)

爬虫数据倘若一条不对,则整个批次,都需要重新抓取处理! 

即时性: 假设,你的爬虫每天固定12点执行。 而网站每天下午一点进行数据刷新。 也就是说,如果你想要前面的数据的话,必须保证在13点之前爬虫就执行完毕,否则,就不是一个批次了! 

        据我所知,貌似没有专门针对这个的反爬虫技术,因为,网站数据不可能是变动有规律的。 只能能说一点一点的变!

完整性: 假设,一条产品的一个价格属性,假设商家在上架时未给产品设定这个属性。 我们抓不到,情有可原,但设定了,浏览器访问也出现了。 爬虫没抓到,就是失职!

       反爬虫技术在针对这个的时候,将这个产品的属性在产品页:进行多个位置进行固定展示,但这些个位置中间随机一下!  (例如 :amazon)

准确性: 页面所显示的所有的数据,爬虫必须做到准确无误,绝对不能再任意环节更改数据内容! 否则会影响后期数据分析的!

反爬虫技术中好像也没有专门针对这个的。 倘若数据不准确,也是会影响客户体验的!

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,402评论 6 499
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,377评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,483评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,165评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,176评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,146评论 1 297
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,032评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,896评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,311评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,536评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,696评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,413评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,008评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,659评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,815评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,698评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,592评论 2 353

推荐阅读更多精彩内容