关于爬虫:闲鱼app数据实时采集探索实验

48次阅读

共计 420 个字符,预计需要花费 2 分钟才能阅读完成。

前言

本文章分享一下最近钻研闲鱼 app 商品数据采集。

技术栈

  1. Python
  2. Frida
  3. JADX
  4. Objection
  5. Android Studio

思路

  1. 应用 Android Studio 创立 x86 模拟器并运行,装置闲鱼和 frida
  2. 应用 Objection hook URL 类,打印调用栈剖析出要害函数
  3. 应用 JADX 关上 APK 剖析要害函数的参数
  4. 应用 firda 结构参数调用要害函数
  5. python 获取来自 frida 脚本的回调写入 es 数据库,依照小时分片
  6. 裸露接口实现任意关键词的实时查问

成果

能够看出闲鱼每秒大略有 30-40 条新数据产生,咱们的申请速度为每 5s 一次,刷新速度甚至低于人工操作 app 时候的频率,不会对服务器造成任何影响,咱们把他们写入咱们本人的数据库,便能够实现实时剖析。

总结

  1. 通过这次试验,我学会了应用 frida 去获取 app 的数据,不须要毁坏 app 自身的任何货色,也不须要进行 http 抓包,间接 hook 函数即可实现,十分敌对
  2. 从技术角度讲,这样的思路能够搞定所有 app。
正文完
 0