共计 1071 个字符,预计需要花费 3 分钟才能阅读完成。
原文链接:http://tecdat.cn/?p=313
社交媒体剖析的许多用处中的一些是 情绪剖析,咱们评估特定问题的帖子是踊跃还是消极。咱们把社交媒体剖析、机器学习、预测建模等集成到文本数据挖掘中。
在这篇文章中,咱们开掘 tweets 剖析它们的 情绪 并且可视化咱们的后果。咱们将看到 tweets,城市和状态的空间 – 工夫散布与最热门的 tweets,咱们还将开掘 tweets 的情绪,帮忙咱们看到哪些评论被认为是踊跃的,哪些是负面的。首先,让咱们创立一个 tweet 的词云。词云帮忙咱们可视化 tweet 中最常见的词:
col=brewer.pal(6,"Dark2")
wordcloud(corpus, min.freq=25, scale=c(5,2),rot.per = 0.25,
random.color=T, max.word=45, random.order=F,colors=col)
咱们从云中看到,tweet 中最罕用的词是’muslim’,’muslims’,’ban’。这表明大多数推文是对于特朗普最近的想法,临时禁止穆斯林进入美国。
上面的信息中心显示了所抓取的 tweets 数量的工夫序列。咱们能够在小时和天之间更改工夫单位。随时间推移的推文数量有助于咱们深刻理解每个流动变动形式。
获取 tweet 的地址。上面的地图显示了我能够绘制 tweets 大小与每个 tweet 取得的转发数量成正比。
上面的仪表板显示了 tweets,大小与每个 tweet 被 转发 的次数成正比。
在以下三个可视化中,显示了邮政编码、城市和州的推文数量。在互动地图中,咱们能够通过应用每个 viz 中显示的滚动条来更改要显示的邮政编码、城市和州的数量。
这些可视化帮忙咱们按邮政编码,城市和州查看 tweet 的散布。
情绪剖析具备很多的用处。例如,公司能够考察客户最喜爱公司产品的哪些方面,以及客户不称心的问题是什么?当公司公布新产品时,产品是否会 产生用户 侧面或负面情绪?客户的情绪如何随工夫和空间而变动?在这篇文章中,咱们评估唐纳德·特朗普的 tweets 的情绪。
上面的图显示了按天文编码分类的 tweet 的情绪分数。咱们看到推文在 NY、NC 和 Tx 有最高的侧面情绪。
咱们应用了来自蕴含特朗普的最近的 tweets,发现一些国家体现出强烈的积极情绪。然而,在统计学上,为了得出牢靠的论断,足够大的样本数据是十分重要的。
咱们的情绪剖析的准确性取决于 tweets 中的词语是否被包含在词典中。此外,因为 tweet 可能蕴含俚语,行话和词典,可能不包含在词典中,情感剖析须要认真评估。