关注微信公众号:K哥爬虫,继续分享爬虫进阶、JS/安卓逆向等技术干货!

申明

本文章中所有内容仅供学习交换,抓包内容、敏感网址、数据接口均已做脱敏解决,严禁用于商业用途和非法用处,否则由此产生的所有结果均与作者无关,若有侵权,请分割我立刻删除!

逆向指标

  • 指标:网洛者反反爬虫练习平台第六题:JS加密,环境模拟检测
  • 链接:http://spider.wangluozhe.com/...
  • 简介:同样是要求采集100页的全副数字,并计算所有数据加和。请留神!不要重复使用一个参数值,不要坑骗本人哦!

抓包剖析

通过抓包剖析,能够发现本题不像后面几题一样 Payload 中参数有变动,而是在 Request Headers 里有个 hexin-v 的,每次申请都会变动,如果有敌人做过某花顺财经爬虫的话,会发现这个参数在某花顺的站点里也大量应用,如下图所示:

查找加密

首先尝试间接搜寻一下 hexin-v,只在 6.js 里有值,很显著这个 JS 是被混同了的,无奈定位,仔细观察一下,整个 6.js 为一个自执行函数(IIFE),传入的参数是7个数组,别离对应 n,t,r,e,a,u,c,如下所示:

!function (n, t, r, e, a, u, c) {}(    [],[],[],[],[],[],[]);

6.js 在调用值的时候都是通过元素下标取值的,所以这个混同也很简略,如果你想去还原的话,间接写个脚本将数组对应的值进行替换即可,当然在本例中比较简单,不必解混同。

因为 hexin-v 的值在 Request Headers 里,所以咱们能够通过 Hook 的形式,捕捉到设置 header 的 hexin-v 值时就 debugger 住(注入 Hook 代码的办法K哥以前的文章有具体解说,本文不再赘述):

(function () {    'use strict';    var org = window.XMLHttpRequest.prototype.setRequestHeader;    window.XMLHttpRequest.prototype.setRequestHeader = function (key, value) {        if (key == 'hexin-v') {            debugger;        }        return org.apply(this, arguments);    };})();

接下来就是跟栈了,往上跟一个就能够在 6.js 里看到 h 的值就是咱们想要的值,h = ct.update()ct.update() 实际上又是 x(),如下图所示:

持续跟进 x(),t 是咱们想要的值,t = N()

持续跟进 N()et.encode(n) 就是最终值,能够看到有一些相似鼠标挪动、点击等函数:

后面咱们曾经剖析过,6.js 是个自执行办法,而且代码量也不是很多,所以咱们这里间接定义一个全局变量,把这个 N 办法导出即可,就不再挨个办法扣了,伪代码如下:

// 定义全局变量var Hexin;!function (n, t, r, e, a, u, c) {    // 省略 N 多代码    function N() {        S[T]++,        S[f] = ot.serverTimeNow(),        S[l] = ot.timeNow(),        S[k] = zn,        S[I] = it.getMouseMove(),        S[_] = it.getMouseClick(),        S[y] = it.getMouseWhell(),        S[E] = it.getKeyDown(),        S[A] = it.getClickPos().x,        S[C] = it.getClickPos().y;        var n = S.toBuffer();        return et.encode(n)    }    // 将 N 办法赋值给全局变量    Hexin = N}(    [],[],[],[],[],[],[]);// 自定义函数获取最终的 hexin-v 值function getHexinV(){    return Hexin()}

环境补齐

通过如上改写后,咱们在本地调试一下,会发现 window、document 之类的未定义,咱们先依照以前的办法,间接定义为空,后续还会报错 getElementsByTagName is not a function,咱们晓得 getElementsByTagName 获取指定标签名的对象,属于 HTML DOM 的内容,咱们本地 node 执行必定是没有这个环境的。

这里咱们介绍一种可能间接在 Node.js 创立 DOM 环境的办法,应用的是 jsdom 这个库,官网是这么介绍的:

jsdom 是许多 Web 规范的纯 JavaScript 实现,特地是 WHATWG DOM 和 HTML 规范,用于 Node.js。一般来说,该项目标指标是模仿足够多的 Web 浏览器子集,以用于测试和抓取实在的 Web 应用程序。最新版本的 jsdom 须要 Node.js v12 或更新版本。(低于 v17 的 jsdom 版本依然实用于以前的 Node.js 版本,但不受反对。)具体的用法能够参考 jsdom 文档。

须要留神的是,jsdom 也依赖 canvas,所以也须要另外装置 canvas 这个库,HTML canvas 标签用于通过脚本(通常是 JavaScript)动静绘制图形,具体介绍和用法能够参考 canvas 文档。

咱们在本地 JS 中增加以下代码后,就有了 DOM 环境,即可胜利运行:

// var canvas = require("canvas");var jsdom = require("jsdom");var {JSDOM} = jsdom;var dom = new JSDOM(`<!DOCTYPE html><p>Hello world</p>`);window = dom.window;document = window.document;navigator = window.navigator;

配合 Python 代码,在申请头中,每次携带不同的 hexin-v,挨个计算每一页的数据,最终提交胜利:

残缺代码

GitHub 关注 K 哥爬虫,继续分享爬虫相干代码!欢送 star !https://github.com/kgepachong/

以下只演示局部要害代码,不能间接运行! 残缺代码仓库地址:https://github.com/kgepachong...

JavaScript 加密要害代码

/* ==================================# @Time    : 2021-12-20# @Author  : 微信公众号:K哥爬虫# @FileName: challenge_6.js# @Software: PyCharm# ================================== */var TOKEN_SERVER_TIME = 1611313000.340;var Hexin;var jsdom = require("jsdom");var {JSDOM} = jsdom;var dom = new JSDOM(`<!DOCTYPE html><p>Hello world</p>`);window = dom.window;document = window.document;navigator = window.navigator;!function(n, t, r, e, a, u, c) {    !function() {        function Gn() {}        var Qn = [new a[23](n[20]), new e[3](f + l + d + p)];        function Zn() {}        var Jn = [new t[16](c[13]), new u[9](e[19])], qn = a[24][u[16]] || a[24].getElementsByTagName(st(r[19], r[20]))[a[25]], nt;        !function(o) {}(nt || (nt = {}));        var tt;        !function(o) {}(tt || (tt = {}));        var rt = function() {}(), et;        RT = rt        !function(o) {}(et || (et = {}));        function at() {}        var ot;        !function(o) {}(ot || (ot = {}));        var it;        !function(o) {}(it || (it = {}));        var ut;        !function(s) {}(ut || (ut = {}));        var ct;        !function(o) {            function x() {}            function L() {}            function M() {}            o[a[105]] = M;                        function N() {                S[T]++,                S[f] = ot.serverTimeNow(),                S[l] = ot.timeNow(),                S[k] = zn,                S[I] = it.getMouseMove(),                S[_] = it.getMouseClick(),                S[y] = it.getMouseWhell(),                S[E] = it.getKeyDown(),                S[A] = it.getClickPos().x,                S[C] = it.getClickPos().y;                var n = S.toBuffer();                return et.encode(n)            }            Hexin = N            o[r[81]] = x        }(ct || (ct = {}));        function st() {}        var vt;        !function(o) {}(vt || (vt = {}));        var ft;        !function(r) {}(ft || (ft = {}))    }()}(    [],[],[],[],[],[],[]);function getHexinV(){    return Hexin()}// 测试输入// console.log(getHexinV())

Python 计算要害代码

# ==================================# --*-- coding: utf-8 --*--# @Time    : 2021-12-20# @Author  : 微信公众号:K哥爬虫# @FileName: challenge_6.py# @Software: PyCharm# ==================================import execjsimport requestschallenge_api = "http://spider.wangluozhe.com/challenge/api/6"headers = {    "Content-Type": "application/x-www-form-urlencoded; charset=UTF-8",    "Cookie": "cookie 换成你本人的!",    "Host": "spider.wangluozhe.com",    "Origin": "http://spider.wangluozhe.com",    "Referer": "http://spider.wangluozhe.com/challenge/6",    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36",    "X-Requested-With": "XMLHttpRequest"}def get_hexin_v():    with open('challenge_6.js', 'r', encoding='utf-8') as f:        wlz_js = execjs.compile(f.read())    hexin_v = wlz_js.call("getHexinV")    print("hexin-v: ", hexin_v)    return hexin_vdef main():    result = 0    for page in range(1, 101):        data = {            "page": page,            "count": 10,        }        headers["hexin-v"] = get_hexin_v()        response = requests.post(url=challenge_api, headers=headers, data=data).json()        for d in response["data"]:            result += d["value"]    print("后果为: ", result)if __name__ == '__main__':    main()