关于模型:文本挖掘LDA模型对公号文章主题分析案例报告

46次阅读

共计 4117 个字符,预计需要花费 11 分钟才能阅读完成。

原文链接:http://tecdat.cn/?p=2175/

 

案例 1 

早在 1995 年比尔·盖茨就在《将来之路》里说过:将来没有配套智能家居的房子,就是毛坯房。当你还在纠结“人工智能”安利值不值得吃,最近不少敌人家里又呈现智能门锁,相比传统门锁来说,到底能有多智能?

早在 1995 年比尔·盖茨就在《将来之路》里说过:将来没有配套智能家居的房子,就是毛坯房。当初人们生存越来越便捷,人们也更加偏向于智能化家居,当你还在纠结“人工智能”安利值不值得吃,最近不少敌人家里又呈现智能门锁,相比传统门锁来说,到底能有多智能?

tecdat 钻研人员对各大电商平台海量用户的评估数据进行剖析,得出智能门锁剁手攻略。

1
=

语义透镜

顾客满意度和关注点

咱们对于评估数据进行 LDA 建模,就是从语料库中挖掘出不同主题并进行剖析,换言之,LDA 提供了一种较为不便地量化钻研主题的机器学习办法。

咱们应用最大似然预计进行最优化主题个数的选取。当主题个数定为 20 的时候,似然估计数最大,即留言板数据分为 20 个主题的可能性比拟大。将模型生成的 20 个主题中的高频词取出。

图表 1

依据各个主题的高频关键词,大略能够将顾客关注点分成 5 个局部:商家品牌、价格品质、客服徒弟、应用便捷性和包装物流。从上图,咱们发现用户关注的点次要集中在客服对商品问题的急躁解答,徒弟对门锁装置的领导以及包装和物流上。

咱们也发现不少顾客的评论反映出智能门锁的便捷性 (e.g. 不必带钥匙) 和先进(e.g. 指纹识别度高)。同时咱们没有发现安全性相干的高频词汇。

2
=

顾客埋怨

品质、客服服务和物流

接下来,咱们对不同价格和主题的顾客埋怨率进行比拟。

图表 2

从价格方面咱们发现价格低于 2000 的智能门锁购买量最多,同时埋怨率也较高,依据关注点来看,顾客埋怨点次要集中在商品质量和客服的急躁水平。购买量位于第二的价格是高于 4000 的区间,整体埋怨率最低。购买量位于第三的是 2000-3000 区间,该区间顾客埋怨点次要集中在商家品牌与物流。最初是 3000-4000 区间,该区间顾客埋怨点次要集中在价格品质与物流。同时反映出顾客对智能门锁价格有较高心理预期,次要埋怨点在品质、客服服务和物流上。

3
=

自营非自营

价格和满意度

图表 3

从左图能够看出自营和非自营商品在顾客满意度上相差不大,非自营商品的满意度要略高于自营商品。同时能够看到大于 4000 区间的顾客满意度最高,且都是非自营商品。

从右图中,咱们能够看到满意度对于价格的回归预测后果。图中红线示意的是自营商品,在 3000 以下的区间,价格越高,满意度反而降落,高于 3000 的区间中,价格越高,满意度越高。在非自营商品中,3000 以下的价格区间中,价格和满意度关系不显著,高于 3000 的价格区间中,价格越高,满意度越高。

从前文中,咱们发现价格低于 3000 的商品埋怨率最低的点在于便捷和应用高效,因而给人的感觉性价高,满意度较高,而价格靠近 3000 时,顾客对客服、物流、品质等预期更高,因而容易成为埋怨的重灾区。当价格靠近和高于 4000 时,商品的品牌、品质往往又失去保障,因而满意度又回升。

案例 2 

随着网民规模的不断扩大,互联网不仅是传统媒体和生存形式的补充,也是民心凸显的地带。领导干部参加网络问政的制度化正在成为一种发展趋势,这种趋势与互联网倒退的时代需要是分不开的。

人民网《中央领导留言板》是备受百姓注目的民生栏目, 也是人民网品牌栏目, 被称为“社情民意的集散地、亲民爱民的回音壁”。

基于以上背景,tecdat 钻研人员对北京留言板外面的留言数据进行剖析,摸索网民们在呐喊什么。

1

数量与情感

朝阳区大众最沉闷

图表

从上图能够看出不同地区留言板的情感偏向散布,总的来说,负面情感留言数目和踊跃情感相差不多,负面情感留言较多,占比 46%,踊跃情感留言占比 42%,中立情感的留言占比 11%。

从地区来看,沉闷在各大媒体的“朝阳区大众”留言数目也是最多的,其次是海淀区,昌平区。因而,从情感散布来看大部分留言还是在反馈存在的问题,而不是一味赞美或者灌水。

2

主题剖析

当地户口问题呼声最高

接下来,咱们对于语料进行 LDA 建模,就是从语料库中挖掘出不同主题并进行剖析,换言之,LDA 提供了一种较为不便地量化钻研主题的机器学习办法。

咱们应用最大似然预计进行最优化主题个数的选取。当主题个数定为 20 的时候,似然估计数最大,即留言板数据分为 20 个主题的可能性比拟大。将模型生成的 20 个主题中的前五个高频词取出,如下表所示。

图表

而后咱们将占比最高的前六个主题与它们的情感偏向进行剖析。

图表

从上图能够看出大家对于 6 大主题的探讨:

主题 1 反馈孩子,当地户口办理的问题是最多的,反馈了当地落户北京相干的难题(e.g. 父母在京工作 20 多年,儿女上学却因户口问题不能进入好的高校就读)。

主题 2 是反馈环境革新及棚户革新(e.g. 棚户屋宇破旧、墙面湿润、上下水管道老化腐烂景象重大常常造成跑冒滴漏,遇到雨雪天气,路线积水、泥泞不堪,大院居民尤其是老人小孩出行十分不便)。

主题 3 是反馈高考和医保(e.g. 外地人衷心的心愿政府能关注一下孩子在北京的高考问题)。

主题 4 是汽车摇号政策(e.g. 现行的摇号计划是不可行, 治标不治本. 有的摇号是一个人摇不上, 全家人都出动; 有的是想买车基本摇不号; 有的是不想买车就摇上了)。

主题 5 是反馈工资和租房问题(e.g. 我是当地退休老师。因为孩子在北京工作,故到北京帮忙孩子操持家务,以反对孩子工作。因为北京房价低廉,咱们买不起大房,三代人只能挤着住。我想问问市长,咱们是否也能住公租房)。

主题 6 是守法修建(e.g.XX 雅苑许多一层业主私搭乱建成风, 且物业能干, 造成极大的安全隐患)。

3

地区、主题与情感得分

接下来咱们剖析了不同主题和地区的情感偏向散布。从下图能够看出,主题 3 高考和医保、主题 6 守法修建、主题 13 教育拆迁的留言内容中踊跃情感占较大比例。

图表

咱们发现在不同主题中情感得分最高的地区中海淀区最多,其次是朝阳区和大兴区。同时也能够发现,情感得分最高的是在主题 11 居民生存下的朝阳区留言内容。总的来说,依据踊跃情感的内容散布来看,主题 3 高考和医保、主题 6 守法修建、主题 13 教育拆迁的留言内容中体现出较好的反馈。

案例 3

当手机称为人们的随身设施,扭转人们的通信习惯时,“公众号”这一种新媒体模式浸透进人们的生存。处在社交媒体时代,公众号推送未然成为咱们获取信息的一个重要途径。

自然而然,软文营销成为新媒体的次要广告伎俩和创收模式。浏览量和点赞数无疑是掂量一篇公众号文章推广成果最间接的指标,而什么样的公众号文章最容易取得人们的关注呢?

 利用文本开掘伎俩,深度开掘三大娱乐公众号的 16 年度的历史文章,用 LDA 模型提取主题,发现最“吸睛”的话题模式,领导公众号打好推广的“组合拳”。

解读脉络

■娱乐公众号都在聊些什么?

■哪些话题、哪些明星最受娱乐公众号的青眼?热门话题中谁是头条 MVP?

■话题与波及明星等因素是否显著影响文章点击热度?

公众号都在探讨哪些话题?

从以上词云图能够看出公众号话题反映进去的数据景象:恋情绯闻、静止健身、私人感情生活、颜值相关联的内容提及率十分高;(微博 / 网红 / 直播等)从这些高频词能够发现,借助社交媒体平台“网红”达到了十分可观的影响力。

■ 数据统计:来自 tecdat 数据分析平台

■ 探讨度计算:在微信渠道中,主题被提及到的总文章数量。

从提及高频主题能够看出,自 2016 年 1 月 22 日至 2016 年 12 月 18 日之间各个时间段,公众号对于各个话题均有不同数量的报导内容。依据每条公众号所匹配的各个主题,其数量从多到少顺次为话题:演技评论、恋情绯闻、微博爆料、男神颜值、感情生活、颜值、电视剧、综艺、吃吃吃拍拍拍、私人生活、离婚八卦、演唱会、造型、网红、电影票房、家庭、直播、静止健身、投资经济、相声。

热门话题

咱们基于这段周期微信公号平台数据来看,筛选出热门话题发现:

公众号最喜爱探讨的主题是演技(话题 13)、感情绯闻(话题 2)、微博话题爆料(话题 1)以及颜值(话题 8)。

提及“演技”占 9.1%;

提及“感情绯闻”占 8.8%;

提及“微博爆料”等占 8.4%;

提及“颜值”等占 7.8%;

这四个话题的探讨度占据了总话题探讨度的 34%。

谁是公众号最青眼的明星?

当从数据中提取公众号最频繁提到的明星时,发现无论是从下面最热的 4 个话题中提取(选取被提到次数大于 4000 次的明星),还是从所有话题中提取(选取被提到次数大于 9000 次的明星),最受公众号青眼的 10 个明星都别离为:范冰冰、胡歌、黄晓明、霍建华、李易峰、林心如、文章、杨幂、杨洋与赵丽颖。包含与其余明星一起被提到的话题,这十个明星就占据了总话题量的 68.56%。

■ 数据统计:来自 tecdat 数据分析平台

■ 探讨度计算:在微信渠道中,主题被提及到的总文章数量。

最热的十位明星个别呈现在哪些话题中

在案例所包含的工夫内,娱乐圈出了许多爆炸新闻,例如:“霍建华(HJH)和林心如(LXR)颁布恋情、大婚”等。因而,霍建华与林心如频繁呈现感情绯闻类的话题中。

从最热的十位明星最频繁呈现在的话题,咱们发现,最常呈现在微博话题爆料的明星是杨幂和刘亦菲,大概为 59.12%;占据感情绯闻话题(话题 2)大的明星是霍建华与林心如,大概为 41.76%;胡歌、霍建华和杨洋占据男神颜值榜话题(话题 8)的 42.5%;而频繁呈现在演技话题(话题 13)中的明星是胡歌、刘亦菲和杨幂,大概为 42.55%。

热门主题 + 热门明星 + 原创性的组合拳

数据察看之后,咱们发现话题次要波及微博爆料、恋情绯闻、网红等。以范冰冰、胡歌、霍建华为代表的十位明星成为娱乐公众号关注的焦点。

主题 - 明星组合(例如:颜值 - 胡歌)成为各大公众号的陈词滥调。原创性和热门明星成为点击量的保障,而不同主题之间也体现出显著的差别。

主题类别与波及明星之间存在穿插效应,热门主题 + 热门明星的组合带来了浏览量、点赞量的显著晋升,最易取得订阅读者反对。

经营公众号的推广业务,须要娱乐公众号紧追微博爆料、家庭、离婚娱乐、演技评论等保障流量的话题,尤其是几位热门明星的相干娱乐新闻。此外,原创性也是公众号继续取得关注的重要因素。

正文完
 0