共计 2018 个字符,预计需要花费 6 分钟才能阅读完成。
原文链接:http://tecdat.cn/?p=4012
咱们以 R 语言抓取的推特数据为例,对数据进行文本开掘,进一步进行情感剖析,从而失去很多乏味的信息。
找到推特起源是苹果手机或者安卓手机的样本, 清理掉其余起源的样本。
tweets <-tweets_df>%select(id, statusSource, text, created) %>%
extract(statusSource, "source", "Twitter for (.*?)<")>%filter(source %in%c("iPhone", "Android"))
对数据进行可视化计算不同工夫对应的推特比例.。
并且比照安卓手机和苹果手机上的推特数量的区别。
从比照图中咱们能够发现,安卓手机和苹果手机公布推特的工夫有显著的差异,安卓手机偏向于在 5 点到 10 点之间公布推特,而苹果手机个别在 10 点到 20 点左右公布推特。同时咱们也能够看到,安卓手机公布推特数量的比例要高于苹果手机。
而后查看推特中是否含有援用 , 并且比照不同平台上的数量。
ggplot(aes(source, n, fill = quoted)) +
geom_bar(stat ="identity", position ="dodge") +
labs(x ="", y ="Number of tweets", fill ="")
从比照的后果来看,安卓手机没有被援用的比例要显著低于苹果手机。而安卓手机援用的数量要显著大于苹果手机。因而能够认为,苹果手机发的推特内容大多为原创,而安卓手机大多为援用。
而后查看推特中是否有链接或者图片,并且比照不同平台的状况
ggplot(tweet_picture_counts, aes(source, n, fill = picture)) +
geom_bar(stat ="identity", position ="dodge") +
labs(x ="",
从下面的比照图中,咱们能够看到安卓手机没有图片或者链接的状况要多于苹果,也就是说,应用苹果手机的用户在发推特的时候个别会公布照片或者链接。
同时能够看到安卓平台的用户把推特个别不应用图片或者链接,而苹果手机的用户恰恰相反。
spr <-tweet_picture_counts>%spread(source, n) %>%
mutate_each(funs(. /sum(.)), Android, iPhone)
rr <-spr$iPhone[2] /spr$Android[2]
而后咱们对推特中的异样字符进行检测,并且进行删除而后找到推特中关键词,并且依照数量进行排序
reg <- "([^A-Za-zd#@']|'(?![A-Za-zd#@]))"tweet_words <-tweets>%filter(!str_detect(text, '^"')) %>%m
utate(text =str_replace_all(text, "https://t.co/[A-Za-zd]+|&", "")) %>%
unnest_tokens(word, text, token ="regex", pattern = reg) %>%
filter(!word %in%stop_words$word,str_detect(word, "[a-z]"))
tweet_words %>%count(word, sort =TRUE) %>%head(20) %>%
mutate(word =reorder(word, n)) %>%ggplot(aes(word, n)) +geom_b
对数据进行情感剖析,并且计算安卓和苹果手机的绝对影响比例。
通过特征词情感偏向别离计算不同平台的情感比,并且进行可视化。
在统计出不同情感偏向的词的数量之后,绘制他们的置信区间。从下面的图中能够看到,相比于苹果手机,安卓手机的负面情绪最多,其次是讨厌,而后是悲伤。表白踊跃的情感偏向很少。
而后咱们对每个情感类别中呈现的关键词的数量进行统计。
android_iphone_ratios %>%inner_join(nrc, by ="word") %>%
filter(!sentiment %in%c("positive", "negative")) %>%
mutate(sentiment =reorder(sentiment, -logratio),word =reorder(word, -logratio)) %>%
从后果中咱们能够看到,负面词大多呈现在安卓手机上,而苹果手机上呈现的负面词的数量要远远小于安卓平台上的数量。
最受欢迎的见解
1. 数据类岗位需要的数据面
2. 探析大数据期刊文章钻研热点
3. 机器学习助推快时尚精准销售预测
4. 用机器学习辨认一直变动的股市情况—隐马尔科夫模型 (HMM) 的利用
5. 数据盘点:家电线上生产新趋势
6. 在 r 语言中应用 GAM(狭义相加模型)进行电力负荷工夫序列剖析
7. 虎扑论坛基因探秘:社群用户行为数据洞察
8. 把握出租车行驶的数据脉搏
9. 智能门锁“剁手”数据攻略