关于爬虫:2022小红书app爬虫思路

jiezi

2 年前

应用传统的 rpa 去操作 app，而后抓包获取数据的效率很烂。咱们心愿通过间接调用 app 函数的形式实现小红书 app 爬虫

首先咱们通过 Android Studio 创立一个模拟器，装置好 Frida Server 并运行，而后将最新的小红书 app 装置到模拟器中。
运行小红书 app，运行 objection[https://github.com/sensepost/…]
在 objection 中 hook URL 对象
察看 URL 的调用栈
应用 JADX 关上小红书 APK，剖析调用栈中的可疑函数
编写 frida 脚本进行试验
封装 python 调用 frida rpc 实现接口的实时调用

此办法防止了 ssl 绑定之类的问题，也解决了头部小红书 shield 计算等问题，因为咱们调用的函数在 shield 的后面，它会被主动增加到 header 中。

退出移动版