关于数据:特朗普社交数据舆情分析

4次阅读

共计 1327 个字符,预计需要花费 4 分钟才能阅读完成。

原文:http://tecdat.cn/?p=4156

社会化媒体的倒退,吸引越来越多的眼光,在这个时代社会化媒体,用户成为最优良的企业品牌形象大使。潜在为了理解消费者的志愿,专门开发的折扣打算和优惠券为客户的每个客户的肖像,以推动客户通过语义剖析零碎的剖析倒退中产生。tecdat 舆情剖析零碎基于 Hadoop 平台的文本剖析,优化剖析能力,提供疾速迅捷的查问和剖析。

数据分析逻辑

微博是古代网络社会沟通的重要工具。然而,这些信息往往不能针对每个用户的爱好来公布,相似于播送一样,每一条微博是否对每个粉丝(用户)有意义,须要用户本人来过滤。

但实际上,粉丝本身公布的微博含有大量的数据信息,这些信息蕴含用户的个人爱好,本人年龄阶段,近期的想购买的样式,甚至是本人心愿有的样式与性能等。这些数据大多数为非构造数据。

营销剖析逻辑流程

计划架构

平台的文本剖析

特朗普推文舆情剖析:

最近,多纳特·特朗普变得有争议。他挑衅性呐喊临时禁止穆斯林进入美国,面临强烈的批评。社交媒体剖析的许多用处中的一些是情绪剖析,咱们评估特定问题的帖子是踊跃还是消极。咱们把社交媒体剖析、机器学习、预测建模等集成到文本数据挖掘中。

在这篇文章中,咱们开掘 tweets 并剖析它们的情绪并且可视化咱们的后果。咱们将看到 tweets,城市和状态的空间 – 工夫散布与最热门的 tweets,咱们还将开掘 tweets 的情绪,帮忙咱们看到哪些评论被认为是踊跃的,哪些是负面的。首先,让咱们创立一个 tweet 的词云。词云帮忙咱们可视化 tweet 中最常见的词:

咱们从云中看到,tweet 中最罕用的词是’muslim’,’muslims’,’ban’。这表明大多数推文是对于特朗普最近的想法,临时禁止穆斯林进入美国。

上面的信息中心显示了所抓取的 tweets 数量的工夫序列。咱们能够在小时和天之间更改工夫单位。随时间推移的推文数量模式有助于咱们深刻理解每个流动的感知变动形式。

获取 tweet 的地址。上面的地图显示了我能够绘制 tweets 大小与每个 tweet 取得的转发数量成正比。

相似地,上面的仪表板显示了 tweets,大小与每个 tweet 被转发的次数成正比。

在以下三个可视化中,显示了邮政编码、城市和州的推文数量。在互动地图中,咱们能够通过应用每个 viz 中显示的滚动条来更改要显示的邮政编码、城市和州的数量。这些可视化帮忙咱们按邮政编码,城市和州查看 tweet 的散布。

情绪剖析具备很多的用处。例如,公司能够考察客户最喜爱公司产品的哪些方面,以及客户不称心的问题是什么?当公司公布新产品时,产品是否被侧面或负面情绪?客户的情绪如何随工夫和空间而变动?在这篇文章中,咱们评估唐纳德·特朗普的 tweets 的情绪。

上面的图显示了按天文编码分类的 tweet 的情绪分数。咱们看到推文在 NY、NC 和 Tx 有最高的侧面情绪。

咱们应用了来自蕴含唐纳德·特朗普的最近的 tweets,发现一些国家体现出强烈的积极情绪。然而,在统计学上,为了得出牢靠的论断,开掘足够大的样本数据是重要的。

咱们的情绪剖析的准确性取决于 tweets 中的词语是否被包含在词典中。此外,因为 tweet 可能蕴含俚语,行话和词典,可能不包含在词典中,情感剖析须要认真评估。

正文完
 0