关于数据挖掘:R语言豆瓣数据文本挖掘-神经网络词云可视化和交叉验证

54次阅读

共计 2506 个字符,预计需要花费 7 分钟才能阅读完成。

全文链接:http://tecdat.cn/?p=31544

原文出处:拓端数据部落公众号

在网络技术高速倒退的背景下, 信息缭乱繁冗, 如何可能取得须要的文本信息, 成了许多企业或组织关注的问题。

该我的项目以采集的豆瓣电影评论数据为例, 应用 R 语言和神经网络算法, 对文本开掘进行全流程的剖析, 包含对其特色及其子集进行提取, 并对文本进行词云可视化和分类解决, 同时采纳穿插验证办法对模型进行调整, 从而预测无关评论的类型, 并将其作为电影举荐的一个规范。

电影评论数据

查看数据

head(pinglun1)

文本预处理 

 #剔除通用题目   
res=(pattern="NIKEiD"," ",res);    
res=(pattern="http://t.cn/"," ",res);  
res=(pattern="com"," ",res);

中文分词技术

不同于英文每一个单词具备明确的划分规范,中国的汉字博大精深、历史悠久。一个词语或者一句话在不同的语境里有多种切分形式,并且随着网络用词的不断更新,许多具备现时意义的词语并不能为计算机所辨认。

keyword=(X=res, FUN=segmentCN)

绘制词汇图

词云不仅可能形象的将文本的次要内容进行出现,清晰明了地展现出在一个测试集外面最为重要的关键词,同时也能够测验停用词的解决环节是否欠缺,因为如果不欠缺,词云中会不可避免地呈现一些无意义的单个词。

mycolors <- brewer.pal(8,"Dark2")# 设置一个色彩系:wordcloud(d$word,d$freq,random.order=FALSE,random.color=FALSE,colors=


unique(words)

##    [1] "通过"             "亲"               "父"               
##    [4] "养父"             "岳父"             "人物"             
##    [7] "关系"             "构"               "写"               
##   [10] "一部"             "编"               "有"

转换成词频矩阵

因为计算机比拟擅于解决电子表格、数据库这样的结构化数据,然而文本是人类的语言,所以将非结构化的文本转变成结构化的数据是十分必要的。

for(i in  1:nrow(cldata)){for(j in  unique(d$word) ){  
    if(j %in%  unlist(key
    
    
##        故事 电影 一个 喜爱 父亲 童话 因为 这个 一部 时候 没有 晓得 生存  
##   [1,]    0    0    0    0    0    0    0    0    1    0    0    0    0  
##   [2,]    0    0    0    0    0    0    0    0    0    0    0    0    0  
## [594,]    0  
## [595,]    0  
## [596,]    0  
## [597,]    0  
## [598,]    0  
## [599,]    0  
## [600,]    0

神经网络

nn <-  (c(label$V1)[samp]~cldata[samp,],size=10,decay=0.01,maxit=1000,l

预测分类后果

yy <- round(predict(nn, cldata))

分类混同矩阵

table(yy,label[1:500,])

十折穿插验证

利用 for 循环,将参数顺次赋值并对每一个后果求平均值。

k=10  
for(kk in 1:k){index=sample(1:length(data),floor(length(data)*(1/k)),replace=F)# 失去测试样本样本号  
  test=as.data.frame(cldata[index,])# 提取测试集  
  train=as.data.frame(cldata[-index,])# 提取训练集 

论断

本次我的项目是基于豆瓣电影评论对文本开掘的整个流程进行阐释,对文本进行了爬取、分词、文本向量化等一系列操作。我的项目还须要进一步地欠缺。首先因文本开掘的技术手段不如数据挖掘成熟,其次就是在不同的我的项目中实用的办法和模型也是不同的,比方当扭转算法或者参数的时候,会导致准确率发生变化,所以在解决这个我的项目的时候,须要留神的是,对于使用哪种办法和建设哪种模型必须进行充沛的思考和试验,从而得出比拟迷信的撑持根据。当然就本我的项目来说,也存在和其余文本开掘我的项目雷同的问题——分词库和停用词库不欠缺,所以文本开掘这一畛域仍须要大量的摸索和实际,将来的钻研中应该更加关注数据自身的品质和真实性并欠缺词典的构建。通过这个我的项目能够看出文本开掘在网络评估剖析方面施展了很重要的作用,目前有很多组织或企业通过文本开掘来提取相干产品的客户反馈,并进步本身的产品质量和服务水平。只管这种形式还没有很欠缺,然而当其失去更加宽泛的推广后,其中蕴含的技术也肯定会越来越欠缺。置信当这种形式走向成熟时,其会宽泛地利用于更多的畛域,例如商品贸易、新闻出版、医疗和教育等等,那么咱们的生存也会取得更多的便当。

参考文献:

[1] 张公让,鲍超,王晓玉,等. 基于评论数据的文本语义开掘与情感剖析 [J]. 情报迷信,2021,39(5):53-61.

[2] 王继成,潘金贵,张福炎.Web 文本开掘技术钻研 [J]. 计算机钻研与倒退,2000(5):513-520.


最受欢迎的见解

1.Python 主题建模 LDA 模型、t-SNE 降维聚类、词云可视化文本开掘新闻组

2.R 语言文本开掘、情感剖析和可视化哈利波特小说文本数据

3.r 语言文本开掘 tf-idf 主题建模,情感剖析 n -gram 建模钻研

4. 游记数据感知游览目的地形象

5. 疫情下的新闻数据察看

6.python 主题 lda 建模和 t -sne 可视化

7.r 语言中对文本数据进行主题模型 topic-modeling 剖析

8. 主题模型:数据凝听人民网留言板的那些“网事”

9.python 爬虫进行 web 抓取 lda 主题语义数据分析

正文完
 0