关于数据挖掘:网络社群发现算法挖掘bilibili视频流量数据可视化附代码数据

35次阅读

共计 1726 个字符,预计需要花费 5 分钟才能阅读完成。

原文链接:https://tecdat.cn/?p=19006

最近咱们被客户要求撰写对于 bilibili 视频流量数据的钻研报告,包含一些图形和统计输入。

最新钻研表明,中国有超过 7 亿人在观看在线视频内容。Bilibili,被称为哔哩哔哩或简称为 B 站,是中国大陆第二个弹幕视频网站,最大的年轻人潮流文化娱乐社区,截至 2020 年 3 月 31 日的第一季度它曾经领有超过 1.7 亿的月度用户, 反映了许多人认为的该行业令人目迷五色的将来

第 1 节

热门话题和分区

B 站用户日渐成熟,二次元、和游戏成为支流分区;视频量排名前三的别离是生存类、游戏类。其中动画类的分区大多和鬼畜、动漫热门话题相干,这是 B 站的特色。


图表 1


电子竞技和游戏区的相干的热点话题是游戏讲解,蕴含讲解、实况等关键词。能够认为“电竞”、“短片”(动画)这几个分区是 B 站的强项,肯定要重点关注。
“短片·一分钟”(动画区的子分区)话题为第三话题,意味着乏味的短片广泛会受到欢送。咱们看到最近大品牌也有在动画区做短片了。
“西方”、“翻唱”这些特色小分区话题也值得关注。

第 2 节

视频播放量和分区、话题

咱们依据播放量总共分为 <332,332-925,925-2176,2176-6171,>61715 个区间。


图表 2


播放量整体还是大量的吞没视频,播放量小于 332 的达到了整体视频的 45.6%,而播放量 6171 以上的只占到 6.9%,依照“二八准则”,视频达到 2176 以上的播放量即达到 B 站视频理论效用的界线。
能够看到游戏分区的视频播放量差别显著,网络游戏在播放量小于 925 的区间最多,电子竞技在小于 332 的区间最多,播放量越高的区间,呈现越少。同时能够看到高播放量的游戏视频大多在混剪视频话题下。生存”和“游戏”两个区遥遥领先,占了大多数的流量,其它各区造成长尾。“生存”这个区占比如此之高,也是因为随着 B 站内容逐步大众化,它外面已经的小类变成了大类,比方“美食”、“搞笑”这样的子分区实际上是大类。

第 3 节

从关联网络中发现 Up 主社团


发表弹幕、投币、评论等,自身就有一种实时互动,实现着实实在在的、间接的互动。网站会依据用户的点击量进行视频举荐,参加热烈探讨的视频会呈现在主页,受众能最快工夫地看到页面。


图表 3


通过这些信息,咱们能够用网络社群发现算法开掘发现受欢迎的视频 up 主类型。
通过对于以后时间段热门排名 TOP100 中弹幕进行剖析,将数据进行可视化解决,失去最热词汇,既能够晓得在这一时间段网络舆论风行的大体趋势,把握用户心里态度,增强受众的互动反馈。还能够激发用户对于弹幕文化的摸索的趣味。使得用户放弃新鲜度,缩短软件寿命。
能够看出基本上播放量根本是长尾数据,有大量的小数值的数据,然而整体的平均值受极值的影响较大。
从案例后果来看,所有的 B 站 up 主被大抵分为 4 个类别。类别 1:该局部 up 主珍藏数高于平均值,受到观众的青睐,但评论和投币较低,仍有后劲;该类别大部分为业余 up 主,处于成长期。类别 2:该局部播放量占了 30%,是高播放量群体;与观众的互动良好;珍藏、投币和分享高;该类 up 主粉丝数目也大部分超过十万,可能提供高质量且稳固的视频稿件,为该分区的高价值 up 主群体。类别 3:该类别的弹幕高于平均值,证实与观众的互动率高;评论、珍藏良好。类别 4:该局部 up 主评论数高于平均值,证实话题性也较高,但弹幕和投币、珍藏较低,阐明须要进步视频稿件的品质,创作合乎观众口味的视频。

本文章中的所有信息(包含但不限于剖析、预测、倡议、数据、图表等内容)仅供参考,拓端数据(tecdat)不因文章的全副或局部内容产生的或因本文章而引致的任何损失承当任何责任。


点击文末 “浏览原文”

获取全文残缺代码数据资料。

本文选自《bilibili 视频流量数据潜望镜》。

点击题目查阅往期内容

数据察看“双十一”网购新常态数据解锁职场女性后劲数据视域下图书馆话题情感剖析游记数据感知游览目的地形象
数据类岗位需要的数据面数据度量生产贷款—消费者的思考因素
已迁离北京外来人口的数据画像数据探析期刊文章钻研热点
疫情下的新闻数据察看
疫情下的在线教学数据观
机票折扣数据解密
数据把握电影市场需求
把握出租车行驶的数据脉搏
共享汽车数据印象
解读出租房市场的数据明码

正文完
 0