关于数据:用R挖掘Twitter数据

36次阅读

共计 571 个字符,预计需要花费 2 分钟才能阅读完成。

原文 http://tecdat.cn/?p=3956

Twitter 是一个风行的社交网络,这里有大量的数据等着咱们剖析。Twitter R 包是对 twitter 数据进行文本开掘的好工具。本文是对于如何应用 Twitter R 包获取 twitter 数据并将其导入 R,而后对它进行一些乏味的数据分析。

第一步是注册一个你的应用程序。

为了可能拜访 Twitter 数据编程,咱们须要创立一个与 Twitter 的 API 交互的应用程序。

注册后你将收到一个密钥和明码:

获取密钥和明码后便能够在 R 外面受权咱们的应用程序以代表咱们拜访 Twitter:

依据不同的搜索词,咱们能够在几分钟之内收集到成千上万的 tweet。这里咱们测试一个关键词 littlecaesars 的 twitter 后果:

抓取最新的 1000 条相干 twitter

因为默认的抓取后果是 json 格局,因而应用 twlisttodf 函数将其转换成数据框

而后咱们做一些简略的文本清理

从失去的数据里,咱们能够看到有 twitter 发表工夫,内容,经纬度等信息

在清理数据之后,咱们对 twitter 内容进行分词,以便进行数据可视化

分词之后能够失去相干 twitter 的高频词汇,而后将其可视化

除此之外,还能够联合数据中的工夫戳数据和天文数据进行可视化剖析

如果你始终在思考对一些文本数据利用情感剖析,你可能会发现应用 R 比你设想的更容易!

正文完
 0