Python 爬虫 | 猿人学第一题

好久没有更新js逆向的文章了,之前分享过一个爬虫练习网站,之后我会将上面的题全部进行讲解,虽然很多公众号都有在做了,但是我还是要做,毕竟自己总结的才是最深刻的。

第一题:

http://match.yuanrenxue.com/match/1

目录:

1、环境

2、分析网站

3、实现爬取

1、环境

Python3.7、pyexecjs、requests

2、分析网站

1-1.png

目标就是将红框中的数据进行相加,很容易就可以找到数据接口如图2-2

这个网站只要你一打开开发者工具就会进行无限debugger,让你无法调试,直接右键点击行数,选择Never pause here即可跳过

1-2.png
1-3.png

图2-3

1-4.png

图2-4

请求中带了一个m参数,初步一看估计是MD5加时间戳

方法一:

接下来看看这个请求的调用栈如图2-5

1-6.png

进入request,看到一行无法格式化的代码,如图2-6

1-7.png

方法二:

做Js逆向有多种方法可以定位加密位置,直接查看调用栈的方法对于刚接触的人不好理解,我们还可以一步步调式到加密位置。

1-8.png

这个请求是xhr类型,对于xhr类型就打xhr断点

1-9.png

复制一部分url

1-10.png

xhr断点是只要网站发起的请求包含了目标字符串的就会被自动打下断点
1-11.png

刷新一下网站,自动打上了断点,先看旁边的调用栈,一个个看,很快就可以找到刚才的加密位置。

1-12.png

这行代码既然无法用开发者工具进行格式化就用其他工具,我用的网站是:http://tool.chinaz.com/tools/jsformat.aspx?qq-pf-to=pcqq.c2c

1-13.png

1-14.png

格式化后的代码也就一百多行,大概看一遍

1-15.png

很快就发现了参数m的生成逻辑,

var timestamp = Date.parse(new Date()) + 100000000; var m = oo0O0(timestamp.toString()) + window.f; var list = { "page": window.page, "m": m + '丨' + timestamp / 1000 };

“m”由m + '丨' + timestamp / 1000组成,

变量m由oo0O0(timestamp.toString()) + window.f赋值得到, window.f先不看,先查看oo0O0的逻辑,大致看一下就好了,不必每行代码都看懂

function oo0O0(mw) {
window.b = '';
for (var i = 0, len = window.a.length; i < len; i++) {
console.log(window.a[i]);
window.b += Stringdocument.e + document.g
}
var U = ['W5r5W6VdIHZcT8kU', 'WQ8CWRaxWQirAW=='];
var J = function (o, E) {
o = o - 0x0;
var N = U[o];
if (J['bSSGte'] === undefined) {
var Y = function (w) {
var m = 'abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789+/=',
T = String(w)'replace';
var A = '';
for (var C = 0x0, b, W, l = 0x0; W = T 'charAt'; ~W && (b = C % 0x4 ? b * 0x40 + W : W, C++ % 0x4) ? A += String 'fromCharCode' : 0x0) {
W = m 'indexOf'
}
return A
};
var t = function (w, m) {
var T = [],
A = 0x0,
C,
b = '',
W = '';
w = Y(w);
for (var R = 0x0, v = w['length']; R < v; R++) {
W += '%' + ('00' + w 'charCodeAt' 'toString')'slice'
}
w = decodeURIComponent(W);
var l;
for (l = 0x0; l < 0x100; l++) {
T[l] = l
}
for (l = 0x0; l < 0x100; l++) {
A = (A + T[l] + m 'charCodeAt') % 0x100,
C = T[l],
T[l] = T[A],
T[A] = C
}
l = 0x0,
A = 0x0;
for (var L = 0x0; L < w['length']; L++) {
l = (l + 0x1) % 0x100,
A = (A + T[l]) % 0x100,
C = T[l],
T[l] = T[A],
T[A] = C,
b += String 'fromCharCode'
}
return b
};
J['luAabU'] = t,
J['qlVPZg'] = {},
J['bSSGte'] = !![]
}
var H = J 'qlVPZg';
return H === undefined ? (J['TUDBIJ'] === undefined && (J['TUDBIJ'] = !![]), N = J 'luAabU', J 'qlVPZg' = N) : N = H,
N
};
eval(atob(window['b'])[J('0x0', ']dQW')](J('0x1', 'GTu!'), '\x27' + mw + '\x27'));
return ''

我看到eval、atob函数的时候就知道离答案不远了,eval可以运行JavaScript 字符串,atob则是关于base64的一个方法。打开开发者工具的console栏分别输入的有疑问的变量,结果如下图(我之后会出一个如何在开发者工具中就可以调试这种无法格式化的代码)

1-16.png

eval就是执行这一大段js代码

eval(atob(window['b'])[J('0x0', ']dQW')](J('0x1', 'GTu!'), '\x27' + mw + '\x27'))

就可以改写为

eval(atob(window['b'])'replace')

将这段js代码拿出来看看

1-17.png

格式化完看到了window.f在这里赋值了,并且确实是MD5加密,

1-18.png

var m = oo0O0(timestamp.toString()) + window.f;

oo0O0返回是空,则可以改写为

var m = window.f,分析到这里就可以了,把藏在eval中的js代码扣出来

1-19.png

把这个MD5加密封装一下,方便python调用[图片上传失败...(image-13cbeb-1615389923310)]

3、实现爬取

import execjs import requests

headers = { 'Connection': 'keep-alive', 'Pragma': 'no-cache', 'Cache-Control': 'no-cache', 'Accept': 'application/json, text/javascript, /; q=0.01', 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.66 Safari/537.36', 'Host': 'match.yuanrenxue.com', 'X-Requested-With': 'XMLHttpRequest', 'Referer': 'http://match.yuanrenxue.com/match/1', 'Accept-Language': 'zh-CN,zh;q=0.9', } with open('第一题.js', 'r', encoding='gbk') as f: jstext = f.read() m = execjs.compile(jstext).call('get_m') data = { 'page': 1, 'm': m } url = f'http://match.yuanrenxue.com/api/match/1?page=1&m={m}' response = requests.get(url, headers=headers, data=data) print(response.json())

运行结果:

1-20.png
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,332评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,508评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,812评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,607评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,728评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,919评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,071评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,802评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,256评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,576评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,712评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,389评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,032评论 3 316
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,798评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,026评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,473评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,606评论 2 350

推荐阅读更多精彩内容