爬虫——百度指数

蛮早之前公司有个产品问我能不能爬百度指数,我随便瞄了眼,直接回了可以,然后...光速打脸...今儿个有空,研究研究这玩意儿。嫌长的可以直接拉到最后看后记。

目标

先明确下要做什么,目标不是要写出一个可用的完整的爬虫,只是要个思路。

image.png

我们的目标仅仅只是爬取这边的数字,162和125,还有后边的比例。

分析

先说点题外话,业界对数字的加密真是做的丧心病狂,返回假数据然后js重新计算修改都是简单的了,复杂的还有某移动端网页返回数字234,然而因为使用了特殊的字体显示123的,这边还有个更恶心的迷之加密。
开始分析,首先,展示出来的样子,不像是数字,像是分辨率不高的几张图片,让我们看看渲染完的html长啥样的。

image.png

确实很迷,显示出来好好的类似图片的数字,html里边(而且是渲染完的html)只有几个div和span,class里边倒有几个val,txt,重点怀疑下,要看看哪里用到。而且看上去分辨率很低的图片也还没有出现,而根据我有限的知识,html里边显示出来的图片除了img标签,也就css里的background。很明显,我们在右边找到了背景图,果然,看来问题马上就要解决了,下载下来看看。

image.png

???这是什么鬼???等等,621215,仅有的几个数字似乎有点熟悉,没错,就是上边那几个指数,看来我们已经找到了,感觉就是span里边的style控制显示的背景(还有这种操作??)。

先让我们验证下上面的猜测,方法很简单,换个关键词,找到那个关键词对应的背景图,拿过来替换到该关键词中,看看数字会不会变。

image.png

果然,数字变了,变成了几个不知道是什么的东西。应该是有什么地方可以控制显示背景图的第某个位置之类的方法。

继续瞎改html


image.png

如图,我把imgval 和imgtxt 的style进行了修改,原先的162变成了112,显然,是根据这个来控制显示的值的。这边有两个值,一个是imgval的width,另一个是imgtxt的margin-left。

继续找,这两个值是哪里来的呢?直觉告诉我是js算出来的,一定是某个js 根据一个key,再怎么加密解密(前端就喜欢搞这一套 = = )得到的,一定是。然鹅,当我打开network,竟然发现了这个

image.png

....... 直接去获取的啊....
其实到了这,我已经能抓取了。我们公司是有爬虫渲染的模块的,但是秉承着负责的态度,继续往下看,那这个url是谁发出的呢?

先放一个url
https://index.baidu.com/Interface/IndexShow/show/?res=XzQxJzIIAyRuCxU5CXgybx5THHx9LRE%2FJSZtHnteBHsBBBw%2BflgJJRokN25aQDZKd34gajodKkEWJFxQfDsWBB0WJzF8MnMtFAR%2BExY3VjkNYxooZBt0NEw6Lh5TVkZEAFwSCVEGCTA%2BOFRVJUUFSFgqRm0lYXYTfCJGVVFkOyZ2fzBVMgJnAW5FIhJTMQBAfSB%2BLm0xIAJFWyZILQQGPl8mE0MEIwc8YEtYHmMUOBYaHAQcb3wgXDd%2FVCEqLn0kNzVwDgNzH1krBBwiGioDAAofGwkvDRE%3D&res2=37ST6.341397.033YAYNLDflArlUE8fO8qIhKkWJnVeMVF4jxf0pBWJlMogXpnn7RTSXE37&classType=2&res3[]=z0&res3[]=Ee&className=profWagv

分析下长得很像的几个发出的url,很容易可以发现大部分字段都是一样的,估计是把keyword再和什么东西加密得到的,然后后边都是明文,所以我们只需要找到res和res2生成的方法就可以了。

过去了两个小时...

没想到啊,竟然卡在这了。
直接给结论吧...res和res2都在直接返回的html里边。
res是直接给的,直接搜PPval.ppt后面一长串就是了。

res.png

res2找了我好久,结果也是这里面。。
找到类似这样的东西

res2.png

图中的VWO就是了,需要自己写下这个js模拟算下,要注意的是,这几个字母是会变得!!每次都不一样!!

后记

行了,就这样了,比想象的麻烦多了,但回过头来看其实很简单。

  • 获取页面 类似这样https://index.baidu.com/?tpl=trend&type=0&area=0&time=13&word=%C3%C3%D7%D3%B0%C9 ,这边可能需要登录,我没做
  • 提取PPval.ppt记做res 用正则在上面获取到的html中抽出来就好了
  • 获取res2 res2需要跑一下这个html里边有个script,具体找的方式看上一段
  • 拼接 "https://index.baidu.com/Interface/IndexShow/show/?res={res}&res2={res2}&classType=2&res3[]=z0&res3[]=Ee&className=profWagv".format(res=res,res2=res2)
  • 获取数字 上面url返回的有两样东西,一个style,确定数字位置,一个是background。两者就能得到以图片显示的数字了,然后ocr识别一下分分钟就搞定了(说的简单)
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,761评论 5 460
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,953评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,998评论 0 320
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,248评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,130评论 4 356
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,145评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,550评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,236评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,510评论 1 291
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,601评论 2 310
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,376评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,247评论 3 313
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,613评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,911评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,191评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,532评论 2 342
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,739评论 2 335

推荐阅读更多精彩内容