隐秘的角落开播之后就没下过热搜

48次阅读

共计 2332 个字符，预计需要花费 6 分钟才能阅读完成。

不会吧、不会吧，不会还有朋友没看《隐秘的角落》吧，如果没有断网的话，最近朋友圈、微博等都应该被这部只有十二集的国产网剧刷屏了。开播初豆瓣评分就已经达到 9.0，甚至一度窜到 9.2，要知道国产电视剧过 9 分的都寥寥无几，更何况还只是一部网剧，可能绝大部分人与这部剧本无缘，但是选择看剧的契机也正是这超高的评分。

经过朋友圈和微博的强烈安利，又在高评分的诱惑下，和家人一天刷完了这部神剧，看完这部剧主要有两个感受:

全员演技都在线
细~ 真的细、细到爆炸

平时看电视剧不多，国产剧就更少了，最大的一个感受就是有些演技真的是太尬了，一集电视剧四五十分钟，快进三十分钟？这部剧从小演员到专业演员，没有所谓的流量，至少所有人演技都在线，这也是我能坚持追剧的保障。

如果说演技是追剧的保障，那细节就应该是二刷的引子，追过剧之后我姐还在和我说一些小细节，比如录音笔的彩蛋呀、笛卡尔的梗呀，看剧时可能会感叹演技真不错，但值得回味的还是剧中的细节、伏笔，也是这些可能会吸引你去二刷。

每天靠微博热搜续命的我发现从这部剧上映到结局就没有下过热搜，这篇文章就通过 Python 可视化分析一下每天登上热搜的关键词，问题是微博只有实时热搜的榜单，而我们想获取的是这一段时间内的，万能百度后发现一个 ” 热搜神器 ” 满足需求，但缺点每条热搜可爬取的相关信息有些少。

审查之后发现网页有几个特征：

每个网页的网址不发生改变
网页内容以 json 形式存储
网页的请求方式为 POST
Form 表单中，只有一个 date 发生改变

分析之后很容易得出，网站是通过控制 Form 表单中 date 的内容进而控制每天的热搜内容，那么爬虫的方式就很明确了，requests+json 就足以应对，爬虫比较简单，就贴出一小部分代码，完整代码文末给出获取方式。

html = requests.post(url=url,headers=headers,data=form_data)
content = html.content.decode("utf-8")
datas = json.loads(content)

因为我们本意是只分析与《隐秘的角落》相关的热搜关键词，所以 Duck 不必保留所有的爬取内容，可以通过一些特有的关键词过滤，比如这部剧的名字、人物、热词，典型代表就是爬山梗。

我设定的时间区间为 6.19-6.26 共 8 天，最后爬取到与这部剧有关的热搜有 87 条：

通过观察爬取得到的数据会发现里面有一些重复的内容，但具体原因不明，这里对数据进行去重：

data.drop_duplicates(subset=None,keep='first',inplace=True)
data = data.reset_index(drop=True)

难免也会有些无关内容，样本数也不是很多，所以我们主观上确认一下热搜关键词，然后将无关内容删去即可，经过处理最后数据集剩下 64 条数据，也就是平均每天八条热搜。

先来看看这几天热度最高的 10 条热搜：

热度最高的是爬山梗，不知道会不会有景区用这个梗上一波热度！前十中秦昊自己就占了四个词条，再加上伊能静上 ” 姐姐 ”，快成热搜特邀嘉宾了。在这之前秦昊主演的悬疑剧《无证之罪》也引起了一波热度，编剧正是本剧原著作者紫金陈，拍手叫好。

看一下这段时间热搜数量的趋势是怎样的：

在剧播出之初反响并不是很大，毕竟什么剧前期不论好坏，制作方都会先买一波热度，但到了中后期热搜词条的数量是越来越多的，在 25 号结局的前一天迎来高峰期，一天就有 19 条热搜。

pyecharts 绘制曲线图时可以通过 Line 中的下面这个参数来设定阴影区间：

line.set_series_opts(
        markarea_opts=opts.MarkAreaOpts(data=[opts.MarkAreaItem(name="高峰期", x=("2020-06-24","2020-06-26"))]
        )

与热搜次数相匹配的热度如何？

每天的热度与热搜次数很符合正相关，热搜次数越多热度也会越高，25 号整天的热搜点击量共有 2400 多万，结局当天的点击量也有 2100 多万，热度也不小。

我们都知道如果一个热搜词条点击量越高排名就越靠前，排名越靠前会影响点击量越来越高，所以如果热搜次数和点击量能有着正相关的关系，那么可以推出这些热搜大部分的排名都比较高。

用饼图的比例显示来验证一下上面的推论：

历史最高排名达到前十的占比就有 62%，前二十就已经达到了 84%，所以与这部剧相关的热搜词条绝大部分的排名都是比较靠前的，这也正是热度高的一个很重要的原因。

前面我们通过关键词来过滤相关词条，那么有哪些关键词搜索次数较高呢？

剧名的搜索次数为 26 次，占比最多，大约有四成，这应该是理所当然的，毕竟剧比演员火才能体现出一部剧是真的不错，人比剧火就显着比较尴尬啦，人物 ” 朱朝阳 ” 的搜索次数 9 次，我对这个人物设定真的是惊了，感觉其他人对朱朝阳来说就和陪玩一样，不亏是考年级第一的孩子，都说原著的人物比剧里的还叼，不敢想象。

最后贴一幅权重词云图：

可以看到出现次数较多的关键词占权重也会比较大，比较突出的就是剧名、人物、演员还有小白船，记得小学六一儿童节的时候总会有班级表演这个歌舞的，看完这个剧真的全毁了，而且总是不自觉就会哼出来。

都说《隐秘的角落》是中国电视剧的曙光，但怕的就是模子已经给出来了，照着画也是件难事，如果中国影视业不改掉 ” 演员 > 导演 > 编剧 ” 这样的关系链真的很难翻身，毕竟就艺术而言，还是编剧更贴切一些，至少这部剧是值得一看的，安利一下还没看过的伙伴，个人觉得节奏偏慢，习惯快节奏的伙伴需要耐心些。

公众号【奶糖猫】后台回复 ”Kids” 可获取源码和数据供参考

正文完

python

发表至： python

2020-06-28

0

关于python:自动化办公手机号码提取器使用正则表达式轻松提取文本文件中的手机号码

关于python:Python-为什么没有-main-函数为什么我不推荐写-main-函数

关于python:Django笔记四十之运行Django环境的python脚本

关于python:Python代码阅读第31篇将一个列表分割成指定大小的小列表

Golang-限流器的使用和实现

隐秘的角落开播之后就没下过热搜

搜索量 Top10

热搜次数趋势

热度趋势

排名区间占比

关键词词频统计

词云图

Just My Socks（注册教程内含优惠码）

隐秘的角落开播之后就没下过热搜

搜索量 Top10

热搜次数趋势

热度趋势

排名区间占比

关键词词频统计

词云图

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）