关于大数据:抖音爬虫教程一文讲透原理

67次阅读

共计 2827 个字符,预计需要花费 8 分钟才能阅读完成。

申明: 本文只做技术钻研,请勿用于任何非法用处。

最近有不少小伙伴投入短视频赛道,也呈现不少第三方数据商,为大家提供抖音爬虫数据。
小伙伴们有没有好奇过,这些数据是如何获取的,一般技术小白是否也领有本人的抖音爬虫呢?
本文会全面解密抖音爬虫的幕后原理,不须要任何编程常识,还请急躁浏览。

1. 什么是 HTTP 申请

在制作爬虫前,首先须要理解,爬虫数据是怎么取得的。
以抖音 APP 为例,咱们从抖音上看视频,和咱们从浏览器上拜访网站原理是一样的。都是通过规范的 HTTP 申请来交互。
那么什么是 HTTP 申请呢?

HTTP 申请其实非常简单,能够了解为规定好格局的一组文字音讯。申请音讯中个别蕴含三样货色:

  1. 申请网址 (URL),例如抖音 APP 后盾网址
  2. 你要做的事件 (申请参数),例如是浏览,点赞还是上传视频等
  3. 你的身份信息 (Cookie) 和校验信息 (Token),表明你是谁,你申请非法吗

抖音服务器收到 HTTP 申请后,会先验证合法性,而后依照你的要求,配合你的身份和地理位置等,给你回复规定格局的文本音讯。

2. 抖音 HTTP 申请流程

咱们以安卓 10.6 版首页举荐视频为例,来看一个实在的抖音申请流程:

上图是通过抓包软件抓取的首页举荐视频申请数据。能够看出,当你一关上抖音,APP 就会主动向抖音服务器发送一条 HTTP 申请音讯。
图中蓝色箭头能够看出,申请是向 aweme-hl.snssdk.com/aweme/v2/fe… 这个网址发送的 (URL)。
黄色箭头标出该 HTTP 申请蕴含了地理位置信息 (申请参数),以及身份信息 (Cookie)。
抖音服务器收到申请后,就晓得你是谁,你在哪里,你要干什么。而后会将红色箭头中的视频举荐数据回复给你。
点开回复数据,能够看到其中蕴含了视频 ID,题目,形容,点赞量,评论等多种信息。

有的读者可能留神到一串 \350\241\250\346\203\205 这样奇怪的数字,这其实是一种叫 UTF-8 的编码方式。
能够简略了解为每三组 \xxx 组成一个中文字符。比方下面这串数字翻译过去就是 表情 两个字。

抖音 APP 通过读取回复音讯,就晓得该给咱们展现哪些视频了。
但此时并没有完结,APP 还要依据返回的视频 ID,额定做两次 HTTP 申请,以取得须要展现的视频数据和缩略图信息,这样能力真正给咱们展现首页举荐视频。

3. HTTP 包到底长什么样?

小伙伴们读到这里,应该明确整个抖音数据的申请流程了。俗话说纸上得来终觉浅,咱们就以抖音点赞为例,手把手教大家怎么抓取和查看一个实在的 HTTP 申请包。

1. 下载抓包软件

首先,须要下载 HttpCanary 抓包软件,能够从 Google Play 或者 Apkpure 里下载。装置实现后,重启手机,就能够开始抓包了。

2. 抓取点赞申请包

先关上抖音 APP,再关上 HttpCanary,开始抓取抖音数据。如下图所示:

轻易找个视频点赞,能够看到 HttpCanary 在不停的抓包。点开 HttpCanary,找带有 /aweme/v1/commit 字样的申请包:

3. 查看 HTTP 申请包

点开申请包,能够看到,这其实是一个一般 HTTP 报文,红线局部示意须要点赞的视频 ID。

申请信息中除了蕴含视频 ID 外,还蕴含了你的身份信息,这样抖音才晓得这个视频是谁在点赞。

而后 APP 通过查看回复音讯,判断点赞申请是否胜利,如果胜利,就能够将视频边上的小红心点亮了。

通过点赞数据包,咱们能够分明看到,抖音所有浏览,点赞,评论,公布视频等,其实都是通过一个个 HTTP 实现的。

4. 亲手做一个主动点赞爬虫

讲了那么多 HTTP 申请原理,对于一般小白来说,咱们怎样才能做一个属于本人的爬虫呢?
其实很简略,只有照猫画虎,复制抖音 HTTP 申请,再原样发送就能够。
比方我想获取举荐视频,只有复制抖音举荐视频的 HTTP 申请,再原样发送就能够拿到举荐数据了。
本节咱们就以上文中的点赞数据为例,请大家亲手做一个主动点赞的爬虫。
让咱们先回到抖音,把方才那个视频的点赞勾销,这样能力看到爬虫的最终成果。

复制数据包

进入 HttpCanary,找到方才的点赞包,点击右上角分享按钮,并抉择 分享 cURL,如下图所示:

粘贴数据包

复制实现后,HttpCanary 会提醒检测到一个 cURL 申请,抉择执行即可。

第一个主动点赞爬虫

能够看到,HttpCanary 发送了截然不同的点赞申请给抖音。点开查看回复数据,如果和上文的返回值一样,就表明你的点赞爬虫实现啦。

此时回到抖音 APP,查看我喜爱的视频,就能够看到方才勾销点赞的视频又回来了。

5. 做一个更全能的爬虫

通过方才的练习,能够看到,只有咱们能原样复制抖音数据包,就能够拿到所有想要的数据。
例如,复制首页视频申请,咱们就能拿到举荐视频的题目,阐明,点赞数量,评论数量等各种各样的数据。
小伙伴们兴许有疑难,咱们怎样才能收集全副抖音数据呢?鉴于目前抖音的火爆水平,想要全副收集完其实不太可能,也没有必要。
聪慧的小伙伴肯定想到了,咱们只有向抖音不停发送上划申请,就能够收集很多首页举荐数据了。
如果你想做的更全能一些,还能够复制查看单用户视频的申请,把所有热门账号的视频数据都采集下来,就根本能代替第三方数据商了。
此外,你还能够批改 HTTP 申请,比方在首页申请中批改不同的地理位置,就能够看到不同地区的举荐视频和同城视频了。

6. 抖音守护神

看到这里,置信很多小伙伴曾经蠢蠢欲动,筹备大干一番了。然而别急,程序员小哥哥们可不会轻易让你们未遂。如果大家能随便点赞评论的话,抖音生态系统早就被玩坏了。
那么难点在哪里呢?咱们还是回到方才的申请包上,认真看下图:

其实抖音每一次 HTTP 申请,都会带上 x-khronos 和 x-gorgon 这两个参数。抖音会在每次申请中校验这两个参数,如果校验不通过,那么申请就有效啦。
这两个参数都干了什么呢?
第一个 x-khronos,是标识申请工夫,采纳 Unix 工夫格局。比方 1586446631,示意离 1970 年 1 月 1 日 0 点 0 分过来 1586446631 秒,也就是 2020 年 4 月 9 日 23 点 37 分。如果抖音收到的申请工夫离理论工夫太远,就晓得这个申请曾经生效。
第二个 x-gorgon,用来校验申请合法性。如果你在申请中篡改了任何数据,比方篡改了点赞 ID,或者身份信息 (Cookie),这个申请都会被抖音查出是伪造的,就能无效避免用户乱刷数据了。
好奇宝宝们肯定会问,这个 x-gorgon 是怎么算进去的呢?实践上和法律上来说,只有抖音小哥哥们才晓得。不过个别状况,都是通过申请工夫,申请 URL 和 Cookie 等信息综合计算得出的(以上纯属瞎猜,请恪守当地法律)。

7. 总结

简略一句话概括,只须要复制抖音 HTTP 申请,并实现 x-gorgon 校验,实践上你就能够做一个全能的抖音爬虫。不过再次揭示小伙伴们,肯定要谨遵当地法律,也不要滥用爬虫给平台造成累赘。

TiToData:业余的短视频、直播数据接口服务平台,网址:TiToData

笼罩支流平台:抖音,快手,小红书,TikTok,YouTube

正文完
 0