原文链接：http://tecdat.cn/?p=26131

纪录片可能实在、详尽地反映一个地区的风貌，展现经济倒退和社会提高。2018年，纪录片倒退迅猛，呈现了几部大热作品，加之BBC纪录片造假的舆论导向，让人们对纪录片更加关注。本文所用的纪录片数据来自哔哩哔哩网站，是目前支流视频网站上最丰盛、最靠近的数据起源。

数字特色和文本特色相结合，剖析影响播放量的因素。采纳回归树模型剖析自变量对播放量的影响。

纪录片播放量散布

视频播放量是测验视频品质和视频热度的一个直观媒介。内容品质高、话题性强的视频天然会引起宽泛关注。对于没有与平台签约的UP主来说，通过视频创作激励打算和处分机制（充值打算），播放量与他们的支出间接挂钩。探讨影响纪录片播放量的因素，有助于更好地了解如何进步纪录片视频的关注度，以及如何更好地创作出令人愉悦的自制微纪录片。

纪录片的播放量与它的内容主题无关，有些主题很受欢迎，有些则很小众。不同的人有不同的趣味点，会体现在弹幕、金币、分享等指标上，所以不同类别下的纪录片散布也会有所不同。

为了便于察看，图中只显示了播放量低于7000的纪录片。从图中能够看出，四类纪录片的播放量散布存在显著差别，人文●历史类纪录片的播放量总体上高于其余三类，且呈右偏态（数据集中的所有定量变量都是右偏态的）。军事类和社会食品类纪录片的散布则比拟靠近。游览类纪录片的散布比拟靠近，总的来说，四类纪录片的播放量差别很大，因而不能用同一个模型进行剖析。有必要对参数进行辨别，并对每个类别下的纪录片进行不同的剖析。

纪录片高频词特点

以下是对各个纪实分类下的文本的词频特色的剖析。哔哩哔哩网站上最相干的纪录片细分类别是社会和游览类，该类别的纪录片文本的高频词比拟生活化。下图是对该细分畛域的纪录片视频文本进行细分过滤后失去的高频词的词频图。

图中显示了社会和游览纪录片文本中的12个高频词。其中，"游览 "以11次排名第一，与 "游览 "相干的 "游览 "和 "游览摄影 "别离排名第4和第6位。"食品 "以1111次排名第二，与 "食品 "相干的 "食品 "排名第11。"人文 "以607次排名第五，而与之相干的 "纪录片 "则排名第八。

此外，"中国"、"日本 "和 "世界 "的呈现频率也很高。文字是由UP主编辑的，目标是让用户更好地了解视频内容，国家类高频词的呈现表明，纪录片内容产生的国家是观众决定是否观看视频的重要决定。

词频剖析显示了高频词在纪录片中的散布状况，但不能仅依据词频给出纪录片的抉择倡议。

播放量的影响因素剖析

接下来，咱们钻研变量对播放量的影响。回归树模型被用来确定自变量对播放量的影响水平。

对回归树进行模仿，在RMSE折线图的拐点处确定最优的树深为7，叶子节点的最小样本数设为25，分支节点的最小数量设为50。

进行十折穿插验证，建设回归树，下图为回归树的模型构造。

在图中，察看叶子节点的框线图能够发现，大部分纪录片的播放量都很低，这些纪录片位于树状图的左侧，其判断变量是评论数和弹幕数。树状图的最左边的叶子节点划分了具备高播放量的纪录片，其判断变量是评论数和弹出窗口数，其次是相邻的右边叶子节点，其父节点有评论数、弹出窗口数和硬币数的分类变量。因而，与播放次数密切相关的变量是弹幕数、评论数和金币数，它们对高播放次数的影响更大。从右侧的叶子节点能够看出，如果评论数、弹幕数和金币数越高，那么播放量也就越高。在建设回归树模型时，自变量的重要性顺次为：评论数（44）、弹幕数（18）、金币数（17）、分享数（8）、粉丝数（6）、珍藏数（6）和提交数（1）。最重要的变量是观众与纪录片视频和UP主之间的互动水平，UP主在制作视频和抉择能产生强烈互动的内容资料时，能够思考到这一点。然而，这一点比拟主观，没有量化的调整计划，也无法控制，无奈确认所选的主题素材是否会带来高数量的评论和弹幕。

本文章中的所有信息（包含但不限于剖析、预测、倡议、数据、图表等内容）仅供参考，__拓端数据（__tecdat__）__不因文章的全副或局部内容产生的或因本文章而引致的任何损失承当任何责任。

最受欢迎的见解

1.从决策树模型看员工为什么到职

2.R语言基于树的办法：决策树，随机森林

3.python中应用scikit-learn和pandas决策树

4.机器学习：在SAS中运行随机森林数据分析报告

5.R语言用随机森林和文本开掘进步航空公司客户满意度

6.机器学习助推快时尚精准销售工夫序列

7.用机器学习辨认一直变动的股市情况——隐马尔可夫模型的利用

8.python机器学习：举荐零碎实现（以矩阵合成来协同过滤）

9.python中用pytorch机器学习分类预测银行客户散失