关于数据挖掘:R语言语义分析主题建模探析大数据期刊文章研究热点可视化

46次阅读

共计 1189 个字符,预计需要花费 3 分钟才能阅读完成。

原文链接:http://tecdat.cn/?p=13709 

原文出处:拓端数据部落公众号

 

 

大数据曾经成为改革和翻新的技术力量和思维形式,成为以后钻研的热门畛域。

 

 

本文对相干主题下的知网期刊文章数据集进行剖析,辨认出期刊文章内容近年来变动的法则。

期刊热门栏目近年来的变动

通过几年的蓄势待发,13 年伊始,“大数据”成为热门概念,人民日报将 2013 年称为“大数据元年”。咱们将 2013 年作为工夫点,对其前后 7 年的期刊热门栏目数目的变动进行比拟。

图表 1

能够发现与数据相干的信息技术、统计钻研、计算机科学、软件开发等栏目数目在 2013 年当前呈现减少(图 1),这在肯定水平上阐明对于大数据迷信的钻研处于增长阶段。局部 13 年以前热门的栏目因为概念逐步冷门或者名称变动,数量逐步缩小,如微计算机信息、教学研究等。同时能够发现网络技术、农业装备与机械化工程、医疗信息系统等栏目数量没有产生显著变动。

不同主题下的期刊栏目数目变动

本文对数据集进行概率潜在语义剖析主题建模,辨认出题目中呈现的高频词汇,并钻研其散布法则。思考文章中呈现频率最高的词汇,因而咱们基于要害词组以及文章主题进行 PLSA 剖析。

图表 2

通过屡次循环发现,当 K =5 时后果最优,因而将数据调配到 5 个潜在主题下。在此基础上,失去了潜在主题 1 的抽取概率以及对应的前 3 个标签,并将其最高频率作为主题代表词。从图 2 能够发现,对主题 1 而言,它上面所属的“数据”、“信息”、“链接”、“办法”以及“信息”概括出了此题目次要是针对信息管理方面进行形容,在此将每组中前 3 个标签里概率最大的作为主题元素。

通过 图 2,能够很显著的察看到概率潜在语义分析法可能在肯定水平上将具备代表性的标签显示进去。依据 图 2 所形容的主题 1 - 主题 5 下的高频标签状况,能够察看发现,有一些标签如“数据”、“链接”呈现在很多潜在语义上面,这无力地解决了一词多义的问题,在特定的某个题目下只有确定的某一个含意,同时也将具备雷同或相似含意的标签依据选取的频率值进行过滤。

同时,在对应主题下的标签曾经可能基本上将此资源在相应主题下的特色示意进去。比方对于主题 2 而言,它上面所属的“教学”、“学生”、“信息”概括出了此题目次要是针对学生 的 信息 技术教学 方面进行形容。

热门关键词在期刊栏目中的散布

接下来咱们比照了文章中呈现的高频关键词在不同期刊栏目中的散布,剖析其散布法则。

图表 3

从中咱们能够看到,13 年之后”信息“关键词呈现最多的栏目是信息管理、教育钻研和计算机与网络,13 年之前是教育钻研和统计钻研,可见计算机与网络、信息管理和信息教育成为”信息”关键词相干文章的热门利用和钻研畛域。同时能够看到 13 年之后”数据“关键词呈现最多的栏目是数据技术和信息管理,13 年之前是数据库技术统计钻研和微计算机信息,可见数据库技术、信息管理和统计钻研成为”数据”关键词相干文章的热门利用和钻研畛域。

正文完
 0