抖音爬虫教程,从 0 到 1,获取抖音用户数据
前言
因为最终目标是要抓取抖音视频数据,而通过抓包发现申请抖音的视频数据都须要对应用户的 sec_id,这个加密的 id 的生成过程咱们是不晓得的,然而咱们能够从抖音用户的数据包中看到对应的 sec_id,而且这个加密的 id 不会变的,所以我能够先爬取用户的数据,但通过用户的关注列表以及粉丝列表获取其余用户的 sec_id,晓得了用户的数据,咱们就能够爬取用户的视频数据了。这一篇文章我将介绍抖音用户数据爬取。
一、剖析用户申请包
如果你曾经配置好环境(手机上安装好了抖音 app 并且抓包软件等也都配置好了),就能够开心食用下文,否则请查看 环境配置 而后再持续本文。
1. 剖析用户数据
关上抖音,进入抖音发布者集体页面:(点击右方发布者头像进入发布者集体页面)
这个时候咱们查看 fiddle 抓到的包,咱们发现对应的数据的申请地址都是蕴含“aweme”款式的 url,fiddle 右上角就是咱们的申请数据,右下角就是对应的响应数据:
因为我的爬取思路是依据用户的关注列表爬取关注列表的关注列表,所以我不太关注用户自身的数据,我更感兴趣的是用户的关注列表数据以及粉丝数据,那 怎么看用户的关注列表 呢?
这样咱们就能够看到用户的关注列表了,那么对应的抓包软件抓到的包是什么呢:
从图中咱们能够看到 follower 就是用户的粉丝数据,following 就是用户关注的用户。对应的申请头和响应数据如下图所示:
1.1. 申请头剖析
咱们首先剖析申请数据:
申请数据包含对应的 url(也就是 api),对应的header 数据,其中 headers 外面有Host、Connection、Cookie、Accept-Encoding、X-SS-QUERIES、X-SS-REQ-TICKET、X-Tt-Token、sdk-version、User-Agent、X-Khronos、X-Gorgon、X-Pods
- 咱们首先介绍对应的 url
api = "https://api.amemv.com/aweme/v1/user/follower/list/?" \ # url
"user_id={}" \ # user_id 能够在用户关注列表中搞到
"&max_time={}" \ # 以后工夫戳
"&count=20&offset=0&source_type=1&address_book_access=2&gps_access=2" \ # 不重要
"&ts={}" \ # 以后工夫戳
"&js_sdk_version=1.16.3.5&app_type=normal&manifest_version_code=630" \ # 不重要
"&_rticket={}" \ # 以后工夫戳
"&ac=wifi&device_id=47012747444&iid=1846815477740845" \ # 不重要
"&os_version=8.0.0&channel=wandoujia_aweme1&version_code=630" \ # 不重要
"&device_type=HUAWEI%20NXT-AL10&language=zh&resolution=1080*1812&openudid=b202a24eb8c1538a" \ # 不重要
"&update_version_code=6302&app_name=aweme&version_name=6.3.0&os_api=26&device_brand=HUAWEI&ssmix=a" \ # 不重要
"&device_platform=android&dpi=480&aid=1128" \ # 不重要
"&sec_user_id={}"\ # 加密的 uid 能够在用户关注列表中搞到
".format(user_id, max_time, ts, _rticket, sec_user_id)
依据下面的 api,咱们发现 大部分的数据咱们是能够结构的 ,只有user_id 以及加密的 sec_user_id 咱们无奈本人结构,然而咱们能够 通过用户的关注列表 中获取到它关注的所有的用户的 user_id 和 sec_user_id,所以咱们 只须要 晓得一个用户的 user_id 和 sec_user_id,咱们就能够获取和他关联的用户以及和他关联的用户的用户的 user_id 和 sec_user_id。
- 上面咱们剖析对应的申请头:
Host: api.amemv.com # 对应的 host 不变
Connection: keep-alive # 不变,不重要
Cookie: "cookies" # 重要,不变,你本人的 cookie,能够在 fiddle 中看到
Accept-Encoding: gzip # 不变
X-SS-REQ-TICKET: 1606999477776 # 以后的工夫戳,咱们能够本人结构
X-Tt-Token: 003ea17385e4...23bbe199e41467-1.0.0 # 你本人的 token,重要,不变,能够在 fiddle 中看到
sdk-version: 1 # 不变
User-Agent: com.ss.a....0.2991.0) # 重要,你本人的 ua,能够在 fiddle 中看到
X-Khronos: 1606999477 # 以后工夫戳
X-Gorgon: 03006cc00000d7464322a76ab998c12eef987b81af552788dabd # 重要,我前面会讲怎么获取
X-Pods: # 不重要,能够不要它
通过剖析申请头,咱们发现大部分数据是不变的,而且咱们都能够通过 Fiddle 取得,惟一不能取得的或者说会产生扭转的是:X-Gorgon,通过反编译抖音 APK,咱们发现它是依据申请的 url 和 cookies 和 token 等 生成的。
这里贴一下对应的申请 X -Gorgon 的代码:
假如咱们曾经晓得了咱们本人的 cookies 和 token 以及咱们申请的 url 那么咱们能够获取到对应的 X -Gorgon:
# 获取以后工夫戳:ts = str(time.time()).split(".")[0]
_rticket = str(time.time() * 1000).split(".")[0]
max_time = ts
user_id = "96244072243"
sec_user_id = "MS4wLjABAAAAtk0pVzYt82o_R5jUjN4FEpRlautyPFGSgioxrH-jfvg"
# 上面填写你本人的 cookies 和 token
cookies = "你本人的 cookies"
token = "你本人的 token"
# 结构申请的 url
url= "https://api.amemv.com/aweme/v1/user/follower/list/?" \
"user_id={}" \
"&max_time={}" \
"&count=20&offset=0&source_type=1&address_book_access=2&gps_access=2" \
"&ts={}" \
"&js_sdk_version=1.16.3.5&app_type=normal&manifest_version_code=630" \
"&_rticket={}" \
"&ac=wifi&device_id=47012747444&iid=1846815477740845" \
"&os_version=8.0.0&channel=wandoujia_aweme1&version_code=630" \
"&device_type=HUAWEI%20NXT-AL10&language=zh&resolution=1080*1812&openudid=b202a24eb8c1538a" \
"&update_version_code=6302&app_name=aweme&version_name=6.3.0&os_api=26&device_brand=HUAWEI&ssmix=a" \
"&device_platform=android&dpi=480&aid=1128" \
"&sec_user_id={}".format(user_id, max_time, ts, _rticket, sec_user_id)
# 发动申请获取 X -Gorgon
headers = {
"dou-url": url, # 填写对应的申请的 api
"dou-cookies": cookies, # 填写你的 cookies
"dou-token": token, # 填写你的 token
"dou-queries": "" # 填写你的申请的 queries(没有的话,就填空置:“”)}
res = requests.get("http://8.131.59.252:8080", headers=headers)
if res.status_code==200:
res_gorgon = json.loads(res.text)
if res_gorgon.get("status") == 0:
gorgon = res_gorgon.get("X-gorgon")
else:
print("param error when get gorgon")
return
else:
print("request error when get gorgon")
return
print("gorgon:" + gorgon) # 这就是你的 gorgon 了
- 通过获取的 X -Gorgon 发动申请获取响应数据,即用户的关注列表:
# 从新结构申请头:headers = {
"Host": "api.amemv.com",
"Connection": "keep-alive",
"Cookie": cookies, # 你本人的 Cookies
"Accept-Encoding": "gzip",
"X-SS-REQ-TICKET": _rticket, # 以后工夫戳,下面的代码片曾经生成了
"X-Tt-Token": "0095a45e5cc.....c42c97e37d7350", # 你本人的 token
"sdk-version": "1",
"User-Agent": "你本人的 user-agent",
"X-Khronos": ts, # 以后工夫戳,下面的代码片曾经生成了
"X-Gorgon": gorgon # X-gorgon,下面的代码片曾经生成了
}
# 发动申请
result = doGetGzip(url, headers) # 这是我本人写的函数,在上面的代码片中
print(result)
- doGetGzip 函数
def doGetGzip(url, headers):
req = request.Request(url)
for key in headers:
req.add_header(key, headers[key])
with request.urlopen(req) as f:
data = f.read()
return gzip.decompress(data).decode()
2. 剖析响应数据获取用户数据
2.1. 响应数据格式:
响应的数据的格局是 json 的,所以个别咱们都将响应的数据转换成 json 进行解决,通过 fiddle 抓包咱们能够看到响应数据次要包含上面几个局部,而关注的用户的信息都在“followers”外面。其余的字段次要用于翻页,因为一次申请只返回 20 条数据,响应数据的其余字段:has_more 示意的是是不是有更的数据,max_time 就是下一页数据的游标,咱们次要关注 follower 里的数据。
上面咱们能够看到 followers 外面有 20 条数据,每一条数据外面就是一个用户的信息
上面就是具体的每一个用户的字段:
用户字段有很多,大多数对我来说都没有用,我只关注 user_id 和 对应的 sec_uid,当然如果能够看本人的需要获取更多的数据,从上图咱们发现咱们能够获取到,因而我的目标就达到了,这样我就能够把它们存下来,上面再通过它俩申请这个用户关注的用户的这两个信息,下一篇文章我将次要介绍一下如何爬取视频信息。
以上就是获取抖音用户的全部内容了,前面我会具体解说怎么抓取视频数据等,码字不易,还请点赞关注,有任何问题请留言。
——————————————————————————————————————————
TiToData:业余的短视频、直播数据接口服务平台。
更多信息请分割:TiToData
笼罩支流平台:抖音,快手,小红书,TikTok,YouTube