关于大数据:抖音爬虫教程从0到1环境配置

3次阅读

共计 1304 个字符,预计需要花费 4 分钟才能阅读完成。

前言

该系列内容次要介绍抖音爬虫的相干过程。因为科研须要,所以抉择爬取抖音的视频数据,包含点赞等。爬取思路是首先爬取用户,而后依据用户爬取其对应公布的视频数据。这一个博客我将介绍环境配置。


一、抓包软件

1. 抓包软件抉择

这里应用的抓包软件是:Fiddle,因为最新版本的 Fiddle 比拟奇怪,所以我还是抉择应用老版本的 Fiddle(5.0版本)。

2. 抓包软件配置

2.1. 装置

这里没有什么须要留神的

2.2. 配置

  • 这是初始界面,抉择不更新
  • 这是能用到的两个次要的工具按钮
  • 开始配置

点击 Tools -> Options,就能够看到 Options 的主面板

在 Options 的主面板中,点击 Https,设置捕捉 HTTPS 的包等,详见下图

点击Actions -> Trust Root Certificate,为电脑装置证书:


– 点击 Yes


这样就在电脑端装好了证书


  • 配置容许近程电脑连贯(这样就能够抓手机的包了)

在 Options 的主面板中,点击 Connections,设置连贯规定等。包含端口号的设定,肯定要记得选中 容许近程电脑连贯,咱们就能够应用这个作为手机的代理,从而抓取手机的包了。

  • 前面的话应用 默认的配置 就能够了

二、手机设置

1. 抖音版本抉择

试了好多版本的抖音,发现 6.3.0 版本的最好抓包,所以我就应用了 6.3.0 版本 的抖音,大家如果需要的话能够关注公众号获取 安装包

  • 装置好抖音之后,记得不要更新,也能够把利用市场的自动更新禁掉。

2. 配置手机网络

2.1. 保障手机和电脑在同一个局域网内

应用同一个路由器下的网络就行,学校内网应该也是能够的,或者没有路由器的话,用另一个手机开热点给它俩连也能够

2.2. 设置手机代理

  • 首先查看电脑的 ip
  • 设置手机代理



这个时候手机代理就设置好了,如果以上步骤都没有问题的话,这个时候应该曾经能够联网了,能够用手机上一下百度,测试一个,如果不能够联网,检查一下你的手机网络代理设置是不是正确的:(电脑 ip 正确不,后面设置的 Fiddle 的 Options 外面的 Connetions 外面的端口是不是和手机上设置的一样),如果没问题,倡议重启一下手机,我的手机连不上网的时候重启一下就好了,而后连贯网络,而后就能够上网了。

  • 装置证书

因为要爬 HTTPS 的包,所以须要装置证书,后面曾经晓得了你的电脑的 ip 地址,还有 fiddle 中设置的端口号,在手机浏览器中输出:http:// 电脑 ip: 端口号 ,例如你的电脑的 ip 是 192.168.0.1,设置的端口号是:8888,那么你就要输出:http://192.168.0.1:8888
如果上一步你的代理设置胜利了,那么就会呈现这个页面:
点击下载证书,而后装置,过程如下:

到这里手机就装置好证书了,这个时候关上抖音,咱们能够看到 Fiddle 曾经能够抓到抖音的数据包了

下面的图就是抖音某用户公布的视频的抓包,咱们能够通过剖析申请头以及对应的响应获取咱们想要的数据了。

——————————————————————————————————————————

TiToData:业余的短视频、直播数据接口服务平台。

更多信息请分割:TiToData

笼罩支流平台:抖音,快手,小红书,TikTok,YouTube

正文完
 0