置信很多做自然语言解决、数据分析的小伙伴们都接触过豆瓣评论数据集。
最近 《脱口秀大会5》 比拟火,所以我就抓去了一份《脱5》的豆瓣短评数据集,样例如下表所示:
{ "comment_time": "2022-11-02 22:37:41", "comment_score": "很差", "comment_vote": "21", "comment_content": "\"不敢说所有,至多有一部分人初心变了。不好笑不要赖观众,心理都放在稿子和段子上了吗,那广告接得,秀走得,不好笑也失常啊。\"", "comment_username": "江湖谝子"}
其中,
comment_score
示意豆瓣评分,总共五颗星,对应总分为 10分。每一颗星对应2分。
不同星数对应的中文形容为:{'力荐': 5, '举荐': 4, '还行': 3, '较差': 2, '很差': 1}
comment_vote
代表的是有多少人同意这条短评。
其实,豆瓣网站有严格的数据获取限度,用户仅仅能拜访最热门的短评数据集共计 600
条。而后再进行翻页,网站零碎则会禁止。
同时豆瓣也仅提供 200
条最新的短评。依据这些数据,我做了一个加权统计,《脱5》的豆瓣加权平均分仅仅有3.3分。口碑大大滑坡。
我还对《脱5》的豆瓣评论做了具体的数据分析,感兴趣能够看看。数据集以 json 格局给出。有须要的小伙伴能够关注上面公众号自取。
步骤如下:
- 1 关注微信gong---zhong号JioNLP
- 2 回复【脱口秀大会5】获取下载链接
- 3 该数据集是收费的
如何在程序中加载
如果有编程教训,能够用python进行操作
1 装置 jionlp 工具包
$ pip install jionlp
2 编写以下代码执行
import jionlp as jiocomment_list = jio.read_file_by_line(/path/to/short_comment_has_watched_highest_tuokouxiudahui5.txt) # 解压后替换为下载门路
数据将定期更新,将来也会依据国务院的行政区划调整进行从新抓取。
我曾经把数据集公开出来,能够扫码关注微信gong---zong号JioNLP,回复脱口秀大会5获取。
JioNLP 是一个专一开掘并剖析互联网数据的gong---zhong号,还想要什么数据集?来看看这里有没有你想要的数据吧。
本文由mdnice多平台公布
本文由mdnice多平台公布