  • 指标:网洛者反反爬虫练习平台第七题:JSVMPZL 初体验
  • 链接:http://spider.wangluozhe.com/…
  • 简介:平台注册须要邀请码,站长在群里,可后盾回复交换群加群获取,或者间接加网站底部站长 QQ 获取。要求采集 100 页的全副数字,并计算所有数据加和。次要难点在于 vvv 大佬开发的 JS 混同框架:jsvmpzl


间接搜寻,或者跟栈,能够轻松找到加密入口,关上 F12 有两个反调试,一是有限 debugger,右键 Never pause here 即可,二是定时器,控制台输出 for (let i = 1; i < 99999; i++) window.clearInterval(i); 过掉即可。

跟进 y__(),就能够看到 jsvmpzl 混同的代码了,如果有做过猿人学平台的题,会发现此混同和猿人学第 18 题(https://match.yuanrenxue.com/…)是一样的,在 y__() 第一行下个断点,察看 __v_() 第一个参数 __[2][0] 你会发现无关 MD5 算法的一些特色,如下图所示:

那么咱们间接大胆猜想一下,是不是就是某个数据通过 MD5 之后就是 _signature 了呢?再持续调试一下,留神 arguments 的变动:

很显著这个 window.byted_acrawler(window.sign()) 应该就是生成 _signature 的语句,这个办法和某字节系的 _signature 生成的办法名称是一样的,间接在控制台输入一下能够拿到值,其中 window.sign() 是取的工夫戳:

咱们后面猜想是 MD5,间接验证一下,发现并不是的,即使是同一个工夫戳,通过 window.byted_acrawler() 后失去的值每次也都不一样:

Hook 要害办法

通过后面的剖析,既然规范的 MD5 不行,那有没有可能是魔改的 MD5 呢?首先找个 JavaScript 规范的 MD5 代码看一下,比方:http://pajhome.org.uk/crypt/m…

能够留神到,源码外面有很多 md5_ffmd5_ggmd5_hhmd5_ii 的办法,最初一个值都是固定的,那么有没有可能此题就是在规范 MD5 的根底上批改了一些默认值呢?所以咱们能够间接 Hook 这些要害办法,在控制台输入传入的值,来一一比照一下,看看默认值是否是一样的,为了不便察看,咱们还能够为输入语句加上色彩,Hook 代码如下:

let oldFF = _[2][0]['md5_ff'];
let oldGG = _[2][0]['md5_gg'];
let oldHH = _[2][0]['md5_hh'];
let oldII = _[2][0]['md5_ii'];

let color_white_red = "color: white; background: red;"
let color_white_grey = "color: white; background: grey;"
let color_white_darkcyan = "color: white; background: darkcyan;"
let color_white_green = "color: white; background: green;"
let color_white_orange = "color: white; background: orange;"

_[2][0]['md5_ff'] = function (a, b, c, d, e, f, g) {
    let result = oldFF(a, b, c, d, e, f, g);
    console.log("%c Function: %c md5_ff %c Result: %c %s %c Params: %c %s, %s, %s, %s, %s, %s, %s", color_white_red, color_white_grey, color_white_red, color_white_grey, result, color_white_red, color_white_grey, a, b, c, d, e, f, g)
    return result;

_[2][0]['md5_gg'] = function (a, b, c, d, e, f, g) {
    let result = oldGG(a, b, c, d, e, f, g);
    console.log("%c Function: %c md5_gg %c Result: %c %s %c Params: %c %s, %s, %s, %s, %s, %s, %s", color_white_red, color_white_darkcyan, color_white_red, color_white_darkcyan, result, color_white_red, color_white_darkcyan, a, b, c, d, e, f, g)
    return result;

_[2][0]['md5_hh'] = function (a, b, c, d, e, f, g) {
    let result = oldHH(a, b, c, d, e, f, g);
    console.log("%c Function: %c md5_hh %c Result: %c %s %c Params: %c %s, %s, %s, %s, %s, %s, %s", color_white_red, color_white_green, color_white_red, color_white_green, result, color_white_red, color_white_green, a, b, c, d, e, f, g)
    return result;

_[2][0]['md5_ii'] = function (a, b, c, d, e, f, g) {
    let result = oldII(a, b, c, d, e, f, g);
    console.log("%c Function: %c md5_ii %c Result: %c %s %c Params: %c %s, %s, %s, %s, %s, %s, %s", color_white_red, color_white_orange, color_white_red, color_white_orange, result, color_white_red, color_white_orange, a, b, c, d, e, f, g)
    return result;

Hook 代码写得比拟死板,相熟 JS 的大佬可本人优化一下,留神注入代码的机会,革除定时器后,断点运行到 y__() 办法后再注入,而后勾销断点,始终下一步,就能够在控制台看到输入的参数了,如下图所示:

与默认参数进行比照,能够发现 md5_hh() 里有两个默认参数被批改了:

默认的 -722521979 改成了 -72252193976029189 改成了 76029185,本地代码批改一下即可:

function getSignature() {return hex_md5(Date.parse(Date()).toString())


Python 调用代码:

# ==================================
# --*-- coding: utf-8 --*--
# @Time    : 2021-12-23
# @Author  : 微信公众号:K 哥爬虫
# @FileName: challenge_7.py
# @Software: PyCharm
# ==================================

import time
import execjs
import requests

challenge_api = "http://spider.wangluozhe.com/challenge/api/7"
headers = {
    "Cookie": "Cookie 替换成你的",
    "Host": "spider.wangluozhe.com",
    "Origin": "http://spider.wangluozhe.com",
    "Referer": "http://spider.wangluozhe.com/challenge/7",
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36",
    "X-Requested-With": "XMLHttpRequest"

def get_signature():
    now = str(int(time.time())) + "000"
    with open('challenge_7.js', 'r', encoding='utf-8') as f:
        wlz_js = execjs.compile(f.read())
    # signature = wlz_js.call("getSignature")
    signature = wlz_js.call("hex_md5", now)
    print("signature:", signature)
    return signature

def main():
    result = 0
    for page in range(1, 101):
        data = {
            "page": page,
            "count": 10,
            "_signature": get_signature()}
        response = requests.post(url=challenge_api, headers=headers, data=data).json()
        for d in response["data"]:
            result += d["value"]
    print("后果为:", result)

if __name__ == '__main__':

这里还有一点小细节,如果是 Python 生成工夫戳传入 JS 的 hex_md5 办法的话,要保障工夫戳的最初三位为 0,不然校验通不过,通常的写法是 str(int(time.time() * 1000)),这里要改一下:str(int(time.time())) + "000",不必 Python 的话,也能够在 JS 里写个办法间接返回 hex_md5(Date.parse(Date()).toString()) 也行。

还有一个问题就是如果你找的 MD5 代码不标准,精确来说是和题目应用的 MD5 代码不太一样的话,有可能本地要改的中央就不止这两处了,所以尽量找一个办法名都一样的 JS,能省不少事儿。

日志断点 / 插桩调试

除了 Hook 以外,咱们还能够通过插桩调试的形式,将整个生成 _signature 的流程、波及到的参数、生成的值,都通过日志的模式打印进去,逆向剖析其逻辑。PS:插桩,即日志断点,鼠标右键抉择 Add logpoint 即可增加一个日志断点,相当于 console.log(),此性能是 Chrome 73 版本新增的。

  • Add breakpoint:增加一般断点;
  • Add conditional breakpoint:增加条件断点,满足条件才断下;
  • Add logpoint:增加日志断点;
  • Never pause here:永不在此处断下;
  • Add script to ignore list:网站的局部 JS,比方 jquery.min.js 之类的库文件,咱们单步调试的时候并不想进入到该文件中,那么能够将此类文件右键增加疏忽掉。


  • 第 605 行,arguments 为以后传入函数的参数值;
  • 第 141 行,___.join(vV_) 为以后调用的办法名称,也会输入办法中的参数名称;
  • 第 591 行,__V(_, ___(u_), 0, 0, _U__).apply(void 0, y__(v___)) 为以后办法执行结束的后果。


除了这三个中央的日志断点以外,倡议还能够在第 606 行打个断点,这样每次执行一个办法就断下,本地就能够跟着同步调试,挨个比照传入的参数和失去的后果,不至于一下子输入的货色太多,不不便查找。

第一步,gnature = window.byted_acrawler(window.sign())

下一步,sign 办法,取工夫戳:

下一步,调用 hex_md5() 办法:

从这里就能够开始本地同步调试了,本地 MD5 下断点调试,能够看到失去的值不一样:

下一步,调用 str2binl() 办法,和本地失去的值是一样的:

下一步,调用 core_md5() 办法,失去的值和本地就不一样了,这里大抵能够确定此办法外部与规范算法有差异了:

下一步,调用 md5_ff() 办法,失去的值是一样的:

以此类推,最终会找到两个不一样的中央,即 md5_hh() 两个默认参数被批改了。

-722521979 被改成了 -722521939

76029189 被改成了 76029185

