乐趣区

关于python:JS-逆向百例某网站加速乐-Cookie-混淆逆向详解

申明

本文章中所有内容仅供学习交换,抓包内容、敏感网址、数据接口均已做脱敏解决,严禁用于商业用途和非法用处,否则由此产生的所有结果均与作者无关,若有侵权,请分割我立刻删除!

逆向指标

  • 指标:减速乐加密逆向
  • 网站:aHR0cHM6Ly93d3cubXBzLmdvdi5jbi9pbmRleC5odG1s
  • 逆向难点:OB 混同、动静加密算法、多层 Cookie 获取

减速乐

减速乐是晓得创宇推出的一款网站 CDN 减速、网站平安防护平台。

减速乐的特点是拜访网站个别有三次申请:

  1. 第一次申请网站,网站返回的响应状态码为 521,响应返回的为通过 AAEncode 混同的 JS 代码;
  2. 第二次申请网站,网站同样返回的响应状态码为 521,响应返回的为通过 OB 混同的 JS 代码;
  3. 第三次申请网站,网站返回的响应状态码 200,即可失常拜访到网页内容。

逆向思路

依据咱们下面讲的减速乐的特点,咱们想要获取到实在的 HTML 页面,须要通过以下三个步骤:

  1. 第一次申请网站,服务器返回的 Set-Cookie 中携带 jsluid_s 参数,将获取到的响应内容解密拿到第一次 jsl_clearance_s 参数的值;
  2. 携带第一次申请网站获取到的 Cookie 值再次拜访网站,将获取到的响应内容解混同逆向拿到第二次 jsl_clearance_s 参数的值;
  3. 应用携带 jsluid_s 和 jsl_clearance_s 参数的 Cookie 再次拜访网站,获取到实在的 HTML 页面内容,继而采集数据。

抓包剖析

进入网站,关上开发者人员工具进行抓包,在 Network 中咱们能够看到,申请页面产生了三次响应 index.html,且前两次返回状态码为 521,合乎减速乐的特点:

第一层 Cookie 获取

间接查看 response 显示无响应内容,咱们通过 Fiddler 对网站进行抓包,能够看到第一个 index.html 返回的响应内容通过 AAEncode 加密,大抵内容如下,能够看到一堆颜表情符号,还挺有意思的:

<script>
    document.cookie=('_')+('_')+('j')+('s')+('l')+('_')+('c')+('l')+('e')+('a')+('r')+('a')+('n')+('c')+('e')+('_')+('s')+('=')+(-~[]+'')+((1+[2])/[2]+'')+(([2]+0>>2)+'')+((2<<2)+'')+(-~(8)+'')+(~~{}+'')+(6+'')+(7+'')+(~~[]+'')+((1<<2)+'')+('.')+((+true)+'')+(~~{}+'')+(9+'')+('|')+('-')+(+!+[]+'')+('|')+(1+6+'')+('n')+((1<<2)+'')+('k')+('X')+((2)*[4]+'')+('R')+('w')+('z')+('c')+(1+7+'')+('w')+('T')+('j')+('r')+('b')+('H')+('m')+('W')+('H')+('j')+([3]*(3)+'')+('G')+('X')+('C')+('t')+('I')+('%')+(-~[2]+'')+('D')+(';')+('m')+('a')+('x')+('-')+('a')+('g')+('e')+('=')+(3+'')+(3+3+'')+(~~{}+'')+(~~[]+'')+(';')+('p')+('a')+('t')+('h')+('=')+('/');location.href=location.pathname+location.search
</script>

document.cookie 里的颜表情串实际上是第一次 __jsl_clearance_s 的值,能够间接通过正则提取到加密内容后,应用 execjs.eval() 办法即可失去解密后的值:

import re
import execjs


AAEncode_text = """以上内容"""
content_first = re.findall('cookie=(.*?);location', AAEncode_text)[0]
jsl_clearance_s = execjs.eval(content_first).split(';')[0]
print(jsl_clearance_s)
# __jsl_clearance_s=1658906704.109|-1|7n4kX8Rwzc8wTjrbHmWHj9GXCtI%3D

第二层 Cookie 获取

抓包到的第二个 index.html 返回的是通过 OB 混同的 JS 文件,咱们须要对其进行调试剖析,然而间接在网页中通过 search 搜寻很难找到该 JS 文件的地位,这里举荐两种形式对其进行定位:

1. 文件替换

右键点击抓包到的第二个状态码为 521 的 index.html 文件,而后依照以下形式将其保留到本地:

保留到本地后会发现 JS 文件被压缩了不利于察看,能够通过以下网站中的 JS 格式化工具将其格式化:https://spidertools.cn/#/form…,将格式化后的代码粘贴到编辑器中进行解决,可能须要一些微调,例如首尾 Script 标签前后会多出空格,在 < script > 后增加 debugger; 如下所示:

<script>
debugger;
var _0x1c58 = ['wpDCsRDCuA==', 'AWc8w7E=', 'w6llwpPCqA==', 'w61/wow7', 

最初通过 Fiddler 对其替换,点击 Add Rule 增加新的规定,如以下步骤即可实现替换:

以上操作实现后,开启 Fiddler 抓包(F12 左下角显示 Capturing 即抓包状态),革除网页缓存,刷新网页,会发现胜利断住,即定位到了 JS 文件的地位,可断点调试:

2. Hook Cookie 值

因为咱们获取到的 JS 文件生成了 Cookie,其中蕴含 jsluid_s 和 jsl_clearance_s 参数的值,所以咱们无妨间接 Hook Cookie 也能断到 JS 文件的地位,对 Hook 办法不理解的能够看看 K 哥往期的文章,以下是 Hook 代码:

(function () {
    'use strict';
    var org = document.cookie.__lookupSetter__('cookie');
    document.__defineSetter__('cookie', function (cookie) {if (cookie.indexOf('__jsl_clearance_s') != -1) {debugger;}
        org = cookie;
    });
    document.__defineGetter__('cookie', function () {return org;});
})();

Hook 注入的形式有很多种,这里通过 Fiddler 中的插件进行注入,该插件在 K 哥爬虫公众号中发送【Fiddler 插件】即可获取:

同样,设置实现后开启抓包,革除网页缓存,刷新网页,页面也能被顺利断住,上半局部就是咱们通过 Hook 形式注入的代码段,显示出了 Cookie 中 __jsl_clearance_s 关键字的值,上面框起来的局部格式化后会发现就是之前通过 OB 混同的 JS 文件内容:

调试剖析 JS 文件

通过 Hook 之后,往前跟栈就能找到加密地位,咱们晓得 JavaScript 中个别应用 document.cookie 属性来创立、读取、及删除 cookie,通过剖析 JS 文件中的一些参数是在动静变换的,所以咱们应用本地替换的形式固定一套下来,而后在该 JS 文件中通过 CTRL + F 搜寻 document,只有一个,在第 558 行打断点调试,选中 _0x2a9a('0xdb', 'WGP(') + 'ie' 后鼠标悬停会发现这里就是 cookie 通过混同后的款式:

将等号前面的内容全副选中,鼠标悬停在下面能够发现,这里生成了 Cookie 中 __jsl_clearance_s 参数的值:

至此,咱们晓得了 Cookie 生成的地位,接下来就须要理解其加密逻辑和加密办法,而后通过 python 对其进行复现了,document 局部残缺的代码如下:

document[_0x2a9a('0xdb', 'WGP(') + 'ie'] = _0x2228a0[_0x2a9a('0x52', '$hOV') + 'W'](_0x2228a0[_0x2a9a('0x3', '*hjw') + 'W'](_0x2228a0[_0x2a9a('0x10b', 'rV*F') + 'W'](_0x60274b['tn'] + '=' + _0x732635[0x0], _0x2228a0[_0x2a9a('0x3d', 'QRZ0') + 'q']), _0x60274b['vt']), _0x2228a0[_0x2a9a('0x112', ']A89') + 'x']);

OB 混同相干内容能够观看 K 哥往期文章,这里等号前面的内容比拟繁杂,其实咱们想要获取的是 jsl_clearance_s 参数的值,通过调试能够看到其值由 0x60274b['tn'] + '=' + _0x732635[0x0] 生成:

由上可知 0x60274b['tn'] 对应的局部是 __jsl_clearance_s,而其值是 0x732635[0x0],因而咱们须要进一步跟踪 0x732635 生成的地位,通过搜寻,在第 538 行能够找到其定义生成的地位,打断点调试能够看到,0x732635[0x0] 其实就是取了 0x732635 数组中的第一个地位的值:

咱们来进一步剖析 0x732635 前面代码各自的含意,_0x14e035(_0x60274b['ct'])取的是 go 函数传入的字典中 ct 参数的值:

go({"bts": ["1658906704.293|0|YYj", "Jm5cKs%2B1v1GqTYAtpQjthM%3D"],
    "chars": "vUzQIgamgWnnFOJyKwXiGK",
    "ct": "690f55a681f304c95b35941b20538480",
    "ha": "md5",
    "tn": "__jsl_clearance_s",
    "vt": "3600",
    "wt": "1500"
})

剖析可知将 _0x60274b[_0x2a9a('0xf9', 'uUBi')] 数组中的值依照某种规定进行拼接就是 __jsl_clearance_s 参数的值,并且 _0x2a9a('0xf9', 'uUBi') 对应字典中 bts 的值:

接下来先进一步跟踪 _0x14e035,能够发现其是个函数体,第 533 行 return 后的返回值就是 __jsl_clearance_s 参数的值:

在第 532 行打断点调试,能晓得 hash 后 _0x2a7ea9 为 __jsl_clearance_s 参数的值:

hash(_0x2a7ea9) 的值为 _0x2a7ea9 通过加密后的后果,在本例中,加密后果由 0-9 和 a-f 组成的 32 位字符串,很显著的 MD5 加密特色,找个在线 MD5 加密进行验证,发现是统一的,这里加密的办法即 hash 办法不全是 MD5,多刷新几次发现会变动,实际上这个 hash 办法与原来调用 go 函数传入的字典中 ha 的值绝对应,ha 即加密算法的类型,一共有 md5、sha1、sha256 三种,所以咱们在本地解决的时候,要同时有这三种加密算法,通过 ha 的值来匹配不同算法。

进一步察看这里还有个 for 循环,剖析发现每次循环 hash(_0x2a7ea9) 的值是动态变化的,起因是 _0x2a7ea9 的值是在动态变化的, _0x2a7ea9 中只有两头两个字母在变动,不认真看都看不出来:

跟进 _ 0x2a7ea9 生成的地位,剖析可知 _0x2a7ea9 参数的值是由 0x5e5712 数组的第一个值加上两个字母再加上该数组第二个值组成的后果:

两头两个字母是将底下这段写了两次生成的,即 _0x60274b['chars']['substr'][1],取字典中 chars 参数的一个字母,取了两次,这里通过 for 循环在一直取这两个值,直到其值加密后与 _0x56cbce(即 ct)的值相等,则作为返回值传递给 __jsl_clearance_s 参数:

_0x60274b[_0x2a9a('0x45', 'XXkw') + 's'][_0x2a9a('0x5a', 'ZN)]') + 'tr'](_0x8164, 0x1)

0x56cbce 为 ct 的值:

最后面 0x2228a0[_0x2a9a('0x6d', 'U0Y3') + 's'] 是个办法,咱们进一步跟进过来,看这个形式外面实现了什么样的逻辑:

其内容如下,能够看到这个办法返回的值是两个相等的参数:

_0x560b67[_0x2a9a('0x15', 'NwFy') + 's'] = function(_0x4573a2, _0x3855be) {return _0x4573a2 == _0x3855be;};

模仿执行

综上所述,_0x14e035 函数中的逻辑就是判断 _0x2a7ea9 的值通过 hash 办法加密后的值,是否与 ct 的值相等,若相等则将返回值传递给 __jsl_clearance_s 参数,循环完后还未有胜利匹配的值则会执行第 509 行提醒失败,传入参数中 ha 的值是在变动的,即加密算法也是在变动的,有三种加密形式 SHA1SHA256MD5,咱们能够扣下三种 hash 办法,也能够间接应用 crypto-js 库来实现:

var CryptoJS = require('crypto-js');


function hash(type, value){if(type == 'md5'){return CryptoJS.MD5(value).toString();}
    if(type == 'sha1'){return CryptoJS.SHA1(value).toString();}
    if(type == 'sha256'){return CryptoJS.SHA256(value).toString();}
}


var _0x2228a0 = {"mLZyz" : function(_0x435347, _0x8098d) {return _0x435347 < _0x8098d;},
    "SsARo" : function(_0x286fd4, _0x10b2a6) {return _0x286fd4 + _0x10b2a6;},
    "jfMAx" : function(_0x6b4da, _0x19c099) {return _0x6b4da + _0x19c099;},
    "HWzBW" : function(_0x3b9d7f, _0x232017) {return _0x3b9d7f + _0x232017;},
    "DRnYs" : function(_0x4573a2, _0x3855be) {return _0x4573a2 == _0x3855be;},
    "ZJMqu" : function(_0x3af043, _0x1dbbb7) {return _0x3af043 - _0x1dbbb7;},
};


function cookies(_0x60274b){var _0x34d7a8 = new Date();
    function _0x14e035(_0x56cbce, _0x5e5712) {var _0x2d0a43 = _0x60274b['chars']['length'];
    for (var _0x212ce4 = 0x0; _0x212ce4 < _0x2d0a43; _0x212ce4++) {for (var _0x8164 = 0x0; _0x2228a0["mLZyz"](_0x8164, _0x2d0a43); _0x8164++) {var _0x2a7ea9 = _0x5e5712[0] + _0x60274b["chars"]["substr"](_0x212ce4, 1) + _0x60274b["chars"]["substr"](_0x8164, 1) + _0x5e5712[1];
            if (_0x2228a0["DRnYs"](hash(_0x60274b['ha'], _0x2a7ea9), _0x56cbce)) {return [_0x2a7ea9, _0x2228a0["ZJMqu"](new Date(), _0x34d7a8)];
            }
        }
    }
    }
    var _0x732635 = _0x14e035(_0x60274b['ct'], _0x60274b['bts']);
    return {'__jsl_clearance_s' : _0x732635[0]};
}

// console.log(cookies({//     "bts": ["1658906704.293|0|YYj", "Jm5cKs%2B1v1GqTYAtpQjthM%3D"],
//     "chars": "vUzQIgamgWnnFOJyKwXiGK",
//     "ct": "690f55a681f304c95b35941b20538480",
//     "ha": "md5",
//     "tn": "__jsl_clearance_s",
//     "vt": "3600",
//     "wt": "1500"
// }))

// __jsl_clearance_s: '1658906704.293|0|YYjzaJm5cKs%2B1v1GqTYAtpQjthM%3D'

残缺代码

bilibili 关注 K 哥爬虫,小助理手把手视频教学:https://space.bilibili.com/16…

GitHub 关注 K 哥爬虫,继续分享爬虫相干代码!欢送 star!https://github.com/kgepachong/

以下只演示局部要害代码,不能间接运行!残缺代码仓库地址:https://github.com/kgepachong…

# =======================
# --*-- coding: utf-8 --*--
# @Time    : 2022/7/27
# @Author  : 微信公众号:K 哥爬虫
# @FileName: jsl.py
# @Software: PyCharm
# =======================


import json
import re
import requests
import execjs


cookies = {}
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36"
}
url = "脱敏解决,残缺代码关注 https://github.com/kgepachong/crawler/"


def get_first_cookie():
    global cookies
    resp_first = requests.get(url=url, headers=headers)
    # 获取 cookie 值 __jsluid_s
    cookies.update(resp_first.cookies)
    # 获取第一层响应内容, AAEncode 加密
    content_first = re.findall('cookie=(.*?);location', resp_first.text)[0]
    jsl_clearance_s = execjs.eval(content_first).split(';')[0]
    # 获取 cookie 值 __jsl_clearance_s
    cookies['__jsl_clearance_s'] = jsl_clearance_s.split("=")[1]


def get_second_cookie():
    global cookies
    # 通过携带 jsluid_s 和 jsl_clearance_s 值的 cookie 获取第二层响应内容
    resp_second = requests.get(url=url, headers=headers, cookies=cookies)
    # 获取 go 字典参数
    go_params = re.findall(';go\((.*?)\)</script>', resp_second.text)[0]
    params = json.loads(go_params)
    return params


def get_third_cookie():
    with open('jsl.js', 'r', encoding='utf-8') as f:
        jsl_js = f.read()
    params = get_second_cookie()
    # 传入字典
    third_cookie = execjs.compile(jsl_js).call('cookies', params)
    cookies.update(third_cookie)


def main():
    get_first_cookie()
    get_third_cookie()
    resp_third = requests.get(url=url, headers=headers, cookies=cookies)
    resp_third.encoding = 'utf-8'
      print(resp_third.text)


if __name__ == '__main__':
    main()

退出移动版