乐趣区

关于爬虫:2022小红书app爬虫思路

背景

应用传统的 rpa 去操作 app,而后抓包获取数据的效率很烂。咱们心愿通过间接调用 app 函数的形式实现小红书 app 爬虫

思路

  1. 首先咱们通过 Android Studio 创立一个模拟器,装置好 Frida Server 并运行,而后将最新的小红书 app 装置到模拟器中。
  2. 运行小红书 app,运行 objection[https://github.com/sensepost/…]
  3. 在 objection 中 hook URL 对象
  4. 察看 URL 的调用栈
  5. 应用 JADX 关上小红书 APK,剖析调用栈中的可疑函数
  6. 编写 frida 脚本进行试验
  7. 封装 python 调用 frida rpc 实现接口的实时调用

成果

总结

此办法防止了 ssl 绑定之类的问题,也解决了头部小红书 shield 计算等问题,因为咱们调用的函数在 shield 的后面,它会被主动增加到 header 中。

退出移动版