【JS 逆向百例】网洛者反爬练习平台第六题：JS 加密，环境模拟检测

声明

本文章中所有内容仅供学习交流，抓包内容、敏感网址、数据接口均已做脱敏处理，严禁用于商业用途和非法用途，否则由此产生的一切后果均与作者无关，若有侵权，请联系我立即删除！

逆向目标

目标：网洛者反反爬虫练习平台第六题：JS加密，环境模拟检测
链接：http://spider.wangluozhe.com/challenge/6
简介：同样是要求采集100页的全部数字，并计算所有数据加和。请注意！不要重复使用一个参数值，不要欺骗自己哦！

01.png

抓包分析

通过抓包分析，可以发现本题不像前面几题一样 Payload 中参数有变化，而是在 Request Headers 里有个 hexin-v 的，每次请求都会变化，如果有朋友做过某花顺财经爬虫的话，会发现这个参数在某花顺的站点里也大量使用，如下图所示：

02.png

03.png

查找加密

首先尝试直接搜索一下 hexin-v，只在 6.js 里有值，很明显这个 JS 是被混淆了的，无法定位，仔细观察一下，整个 6.js 为一个自执行函数（IIFE），传入的参数是7个数组，分别对应 n，t，r，e，a，u，c，如下所示：

!function (n, t, r, e, a, u, c) {
}(
    [],[],[],[],[],[],[]
);

6.js 在调用值的时候都是通过元素下标取值的，所以这个混淆也很简单，如果你想去还原的话，直接写个脚本将数组对应的值进行替换即可，当然在本例中比较简单，不用解混淆。

因为 hexin-v 的值在 Request Headers 里，所以我们可以通过 Hook 的方式，捕获到设置 header 的 hexin-v 值时就 debugger 住（注入 Hook 代码的方法K哥以前的文章有详细讲解，本文不再赘述）：

(function () {
    'use strict';
    var org = window.XMLHttpRequest.prototype.setRequestHeader;
    window.XMLHttpRequest.prototype.setRequestHeader = function (key, value) {
        if (key == 'hexin-v') {
            debugger;
        }
        return org.apply(this, arguments);
    };
})();

04.png

接下来就是跟栈了，往上跟一个就可以在 6.js 里看到 h 的值就是我们想要的值，h = ct.update()，ct.update() 实际上又是 x()，如下图所示：

05.png

继续跟进 x()，t 是我们想要的值，t = N()：

06.png

继续跟进 N()，et.encode(n) 就是最终值，可以看到有一些类似鼠标移动、点击等函数：

07.png

前面我们已经分析过，6.js 是个自执行方法，而且代码量也不是很多，所以我们这里直接定义一个全局变量，把这个 N 方法导出即可，就不再挨个方法扣了，伪代码如下：

// 定义全局变量
var Hexin;

!function (n, t, r, e, a, u, c) {
    // 省略 N 多代码
    function N() {
        S[T]++,
        S[f] = ot.serverTimeNow(),
        S[l] = ot.timeNow(),
        S[k] = zn,
        S[I] = it.getMouseMove(),
        S[_] = it.getMouseClick(),
        S[y] = it.getMouseWhell(),
        S[E] = it.getKeyDown(),
        S[A] = it.getClickPos().x,
        S[C] = it.getClickPos().y;
        var n = S.toBuffer();
        return et.encode(n)
    }
    // 将 N 方法赋值给全局变量
    Hexin = N
}(
    [],[],[],[],[],[],[]
);

// 自定义函数获取最终的 hexin-v 值
function getHexinV(){
    return Hexin()
}

环境补齐

经过如上改写后，我们在本地调试一下，会发现 window、document 之类的未定义，我们先按照以前的方法，直接定义为空，后续还会报错 getElementsByTagName is not a function，我们知道 getElementsByTagName 获取指定标签名的对象，属于 HTML DOM 的内容，我们本地 node 执行肯定是没有这个环境的。

这里我们介绍一种能够直接在 Node.js 创建 DOM 环境的方法，使用的是 jsdom 这个库，官方是这么介绍的：

jsdom 是许多 Web 标准的纯 JavaScript 实现，特别是 WHATWG DOM 和 HTML 标准，用于 Node.js。一般来说，该项目的目标是模拟足够多的 Web 浏览器子集，以用于测试和抓取真实的 Web 应用程序。最新版本的 jsdom 需要 Node.js v12 或更新版本。（低于 v17 的 jsdom 版本仍然适用于以前的 Node.js 版本，但不受支持。）具体的用法可以参考 jsdom 文档。

需要注意的是，jsdom 也依赖 canvas，所以也需要另外安装 canvas 这个库，HTML canvas 标签用于通过脚本（通常是 JavaScript）动态绘制图形，具体介绍和用法可以参考 canvas 文档。

我们在本地 JS 中添加以下代码后，就有了 DOM 环境，即可成功运行：

// var canvas = require("canvas");
var jsdom = require("jsdom");
var {JSDOM} = jsdom;
var dom = new JSDOM(`<!DOCTYPE html><p>Hello world</p>`);
window = dom.window;
document = window.document;
navigator = window.navigator;

配合 Python 代码，在请求头中，每次携带不同的 hexin-v，挨个计算每一页的数据，最终提交成功：

08.png

完整代码

GitHub 关注 K 哥爬虫，持续分享爬虫相关代码！欢迎 star ！https://github.com/kgepachong/

以下只演示部分关键代码，不能直接运行！ 完整代码仓库地址：https://github.com/kgepachong/crawler/

JavaScript 加密关键代码

/* ==================================
# @Time    : 2021-12-20
# @Author  : 微信公众号：K哥爬虫
# @FileName: challenge_6.js
# @Software: PyCharm
# ================================== */


var TOKEN_SERVER_TIME = 1611313000.340;
var Hexin;
var jsdom = require("jsdom");
var {JSDOM} = jsdom;
var dom = new JSDOM(`<!DOCTYPE html><p>Hello world</p>`);
window = dom.window;
document = window.document;
navigator = window.navigator;

!function(n, t, r, e, a, u, c) {
    !function() {
        function Gn() {}
        var Qn = [new a[23](n[20]), new e[3](f + l + d + p)];
        function Zn() {}
        var Jn = [new t[16](c[13]), new u[9](e[19])], qn = a[24][u[16]] || a[24].getElementsByTagName(st(r[19], r[20]))[a[25]], nt;
        !function(o) {}(nt || (nt = {}));
        var tt;
        !function(o) {}(tt || (tt = {}));
        var rt = function() {}(), et;
        RT = rt
        !function(o) {}(et || (et = {}));
        function at() {}
        var ot;
        !function(o) {}(ot || (ot = {}));
        var it;
        !function(o) {}(it || (it = {}));
        var ut;
        !function(s) {}(ut || (ut = {}));
        var ct;
        !function(o) {
            function x() {}
            function L() {}
            function M() {}
            o[a[105]] = M;
            
            function N() {
                S[T]++,
                S[f] = ot.serverTimeNow(),
                S[l] = ot.timeNow(),
                S[k] = zn,
                S[I] = it.getMouseMove(),
                S[_] = it.getMouseClick(),
                S[y] = it.getMouseWhell(),
                S[E] = it.getKeyDown(),
                S[A] = it.getClickPos().x,
                S[C] = it.getClickPos().y;
                var n = S.toBuffer();
                return et.encode(n)
            }
            Hexin = N
            o[r[81]] = x
        }(ct || (ct = {}));

        function st() {}
        var vt;
        !function(o) {}(vt || (vt = {}));
        var ft;
        !function(r) {}(ft || (ft = {}))
    }()
}(
    [],[],[],[],[],[],[]
);


function getHexinV(){
    return Hexin()
}

// 测试输出
// console.log(getHexinV())

Python 计算关键代码

# ==================================
# --*-- coding: utf-8 --*--
# @Time    : 2021-12-20
# @Author  : 微信公众号：K哥爬虫
# @FileName: challenge_6.py
# @Software: PyCharm
# ==================================


import execjs
import requests


challenge_api = "http://spider.wangluozhe.com/challenge/api/6"
headers = {
    "Content-Type": "application/x-www-form-urlencoded; charset=UTF-8",
    "Cookie": "cookie 换成你自己的！",
    "Host": "spider.wangluozhe.com",
    "Origin": "http://spider.wangluozhe.com",
    "Referer": "http://spider.wangluozhe.com/challenge/6",
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36",
    "X-Requested-With": "XMLHttpRequest"
}


def get_hexin_v():
    with open('challenge_6.js', 'r', encoding='utf-8') as f:
        wlz_js = execjs.compile(f.read())
    hexin_v = wlz_js.call("getHexinV")
    print("hexin-v: ", hexin_v)
    return hexin_v


def main():
    result = 0
    for page in range(1, 101):
        data = {
            "page": page,
            "count": 10,
        }
        headers["hexin-v"] = get_hexin_v()
        response = requests.post(url=challenge_api, headers=headers, data=data).json()
        for d in response["data"]:
            result += d["value"]
    print("结果为: ", result)


if __name__ == '__main__':
    main()

最后编辑于：2021.12.28 16:33:55

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 218,451评论 6赞 506
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 93,172评论 3赞 394
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 164,782评论 0赞 354
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,709评论 1赞 294
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,733评论 6赞 392
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,578评论 1赞 305
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,320评论 3赞 418
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,241评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,686评论 1赞 314
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,878评论 3赞 336
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,992评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,715评论 5赞 346
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,336评论 3赞 330
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,912评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 33,040评论 1赞 270
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,173评论 3赞 370
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,947评论 2赞 355