关于数据挖掘:豆瓣评论数据集分享脱口秀大会5

置信很多做自然语言解决、数据分析的小伙伴们都接触过豆瓣评论数据集。

最近 《脱口秀大会5》 比拟火，所以我就抓去了一份《脱5》的豆瓣短评数据集，样例如下表所示：

{
  "comment_time": "2022-11-02 22:37:41", 
  "comment_score": "很差", 
  "comment_vote": "21", 
  "comment_content": "\"不敢说所有，至多有一部分人初心变了。不好笑不要赖观众，心理都放在稿子和段子上了吗，那广告接得，秀走得，不好笑也失常啊。\"", 
  "comment_username": "江湖谝子"
}

其中，comment_score示意豆瓣评分，总共五颗星，对应总分为 10分。每一颗星对应2分。
不同星数对应的中文形容为：
```
{
'力荐': 5, 
'举荐': 4, 
'还行': 3, 
'较差': 2, 
'很差': 1
}
```
comment_vote 代表的是有多少人同意这条短评。

其实，豆瓣网站有严格的数据获取限度，用户仅仅能拜访最热门的短评数据集共计 600 条。而后再进行翻页，网站零碎则会禁止。

同时豆瓣也仅提供 200 条最新的短评。依据这些数据，我做了一个加权统计，《脱5》的豆瓣加权平均分仅仅有3.3分。口碑大大滑坡。

我还对《脱5》的豆瓣评论做了具体的数据分析，感兴趣能够看看。数据集以 json 格局给出。有须要的小伙伴能够关注上面公众号自取。

步骤如下：

1 关注微信gong—zhong号JioNLP
2 回复【脱口秀大会5】获取下载链接
3 该数据集是收费的

如何在程序中加载

如果有编程教训，能够用python进行操作

1 装置 jionlp 工具包
```
$ pip install jionlp
```

2 编写以下代码执行

import jionlp as jio
comment_list = jio.read_file_by_line(/path/to/short_comment_has_watched_highest_tuokouxiudahui5.txt)  # 解压后替换为下载门路

数据将定期更新，将来也会依据国务院的行政区划调整进行从新抓取。

我曾经把数据集公开出来，能够扫码关注微信gong—zong号JioNLP，回复脱口秀大会5获取。

JioNLP 是一个专一开掘并剖析互联网数据的gong—zhong号，还想要什么数据集？来看看这里有没有你想要的数据吧。

本文由mdnice多平台公布

关于数据挖掘:豆瓣评论数据集分享脱口秀大会5

步骤如下：

如何在程序中加载

评论

发表回复取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

关于数据挖掘:豆瓣评论数据集分享脱口秀大会5

步骤如下：

如何在程序中加载

评论

发表回复 取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

发表回复取消回复