关于数据挖掘:视频文本挖掘主题模型LDA及R语言实现分析游记数据附代码数据

32次阅读

共计 4296 个字符,预计需要花费 11 分钟才能阅读完成。

全文下载链接:http://tecdat.cn/?p=14997

最近咱们被客户要求撰写对于文本开掘:主题模型的钻研报告,包含一些图形和统计输入。

在文本开掘中,咱们常常有文档汇合,例如博客文章或新闻文章,咱们心愿将它们分成天然组,以便咱们了解它们

主题建模是一种对此类文档进行分类的办法。在本视频中,咱们介绍了潜在狄利克雷调配 LDA 模型,并通过 R 软件应用于数据集来了解它。

什么是主题建模?

主题建模是一种对文档进行无监督分类的办法,相似于对数字数据进行聚类。

一个文档能够是多个主题的一部分,有点像含糊聚类(或软聚类),其中每个数据点属于多个聚类。

简而言之,主题建模构想了一组固定的主题。每个主题代表一组单词。主题建模 的指标是以某种形式将所有文档映射到主题,这样每个文档中的单词大部分都被那些虚构的主题捕捉。

主题建模的工具和技术将文本分类或分类为每个主题的单词,这些是基于狄利克雷散布建模的。

什么是潜在狄利克雷调配?

潜在狄利克雷调配是一种无监督算法,它为每个文档为每个定义的主题调配一个值。

潜在是暗藏的另一个词(即无奈间接测量的特色),而狄利克雷是一种概率分布。

咱们要从数据中提取的主题也是“暗藏主题”。它还有待被发现。它的用处包含自然语言解决 (NLP)和主题建模等。


点击题目查阅往期内容

自然语言解决 NLP:主题 LDA、情感剖析疫情下的新闻文本数据

左右滑动查看更多

01

02

03

04

这种办法遵循与咱们人类类似的思维形式。这使得 潜在狄利克雷调配 更易于解释,并且是目前最风行的办法之一。不过,其中最辣手的局部是找出主题和迭代的最佳数量。

不要将潜在狄利克雷调配与潜在判别分析(也称为 LDA)相混同。潜在判别分析是一种有监督的降维技术,用于高维数据的分类或预处理。

为什么要进行主题建模?

主题建模提供了主动组织、了解、搜寻和总结大型电子档案的办法。

它能够帮忙解决以下问题:

发现珍藏中暗藏的主题。新闻提供者能够应用主题建模来疾速了解文章或对类似文章进行聚类。另一个乏味的利用是图像的无监督聚类,其中每个图像都被视为相似于文档。

将文档分类为发现的主题。历史学家能够应用 LDA 通过剖析基于年份的文原本辨认归类为历史上的重要事件相干的主题。

应用分类来组织 / 总结 / 搜寻文档。基于 Web 的图书馆能够应用 LDA 依据您过来的浏览内容举荐书籍。例如,假如一个文档属于主题:食品、宠物狗和衰弱。因而,如果用户查问“狗粮”,他们可能会发现上述文档是相干的,因为它涵盖了这些主题(以及其余主题)。咱们甚至无需浏览整个文档就可能计算出它与查问的相关性。

因而,通过正文文档,基于建模办法预测的主题,咱们可能优化咱们的搜寻过程。

潜在狄利克雷调配及其过程

潜在狄利克雷调配是一种将句子映射到主题的技术。它依据咱们提供给它的主题提取某些主题集。在生成这些主题之前,LDA 执行了许多过程。

在利用该过程之前,咱们有肯定的规定或假如。

主题建模的 LDA 假如有两个:

首先,每个文档都是主题的混合体。咱们设想每个文档可能蕴含来自多个主题的特定比例的单词。例如,在双主题模型中,咱们能够说“文档 1 是 20% 的主题 A 和 80% 的主题 B,而文档 2 是 70% 的主题 A 和 30% 的主题 B”。

其次,每个主题都是单词的混合。例如,咱们能够设想一个新闻的两个主题模型,一个主题是“政治”,一个主题是“娱乐”。政治话题中最常见的词可能是“主席”和“政府”,而娱乐话题可能由“电影”、“电视”和“演员”等词组成。重要的是,单词能够在主题之间共享;像“估算”这样的词可能会同时呈现在两者中。

LDA 是一种同时预计这两者的数学方法:找到与每个主题相关联的词的混合,同时确定形容每个文档的主题的混合。

并且,这些主题应用概率分布生成单词。在统计语言中,文档被称为主题的概率密度(或散布),而主题是单词的概率密度(或散布)。

主题自身就是词的概率分布。

这些是用户在利用 LDA 之前必须理解的假如。

LDA 是如何工作的?

LDA 有两个局部:

属于文档的词,咱们曾经晓得。

这属于某个主题的词或属于某个主题的单词的概率,咱们须要计算。

找到后者的算法。

浏览每个文档并将文档中的每个单词随机调配给 k 个主题之一(k 是预先选择的)。

当初咱们尝试理解它的残缺工作过程:

假如咱们有一组来自某个数据集或随机起源的文档。咱们决定要发现 K 个主题,并将应用 LDA 来学习每个文档的主题示意以及与每个主题相关联的单词。

LDA 算法循环遍历每个文档,并将文档中的每个单词随机调配给 K 个主题中的一个。这种随机调配曾经给出了所有文档的主题示意和所有文档的单词散布以及所有主题的单词散布。LDA 将遍历每个文档中的每个单词以改良这些主题。然而这些主题的示意并不适合。所以咱们必须改良这个限度。为此,对于每个文档中的每个单词和每个主题 T,咱们计算:

文档 d 中以后调配给主题 T 的单词的比例

主题 T 的调配在来自这个词的所有文档中的比例

将单词重新分配给一个新主题,咱们以 P(主题 T | 文档 D) 乘以 P(单词 | 主题 T)的概率抉择主题 T,这本质上是,主题 T 生成的单词的概率。在多次重复上一步之后,咱们最终达到了一个大抵稳固的状态,即调配是能够承受的。最初,咱们将每个文档调配给一个主题。咱们能够搜寻最有可能被调配到某个主题的单词。

咱们最终失去了输入,例如

·调配给每个主题的文档

·主题的最罕用关键词

·由用户来解释这些主题。

两个重要阐明:

·用户必须决定文档中存在的主题数量

·用户必须解释主题是什么

所以通常如果咱们有文档汇合,咱们想要生成一组主题来示意文档,咱们能够应用 LDA 来执行它。因为 LDA 将通过遍历每个文档来训练这些文档并将单词调配给主题。但这不是一个循环过程。这里是一个学习过程。它将遍历每个文档中的每个单词并利用下面探讨的公式。

R 软件 LDA 利用

咱们将尝试通过 R 软件将 LDA 利用于数据来更简要地了解它。

越来越多的人违心精力生产。游览不仅能够晋升人们对外地环境和外地人文的认知,也能够放松身心、愉悦情绪,是一种受欢迎的精力生产。

随着国内近些年来互联网的倒退,越来越多的人开始线上生产,生产感触的举荐成为了潮流。在各个游览平台上,越来越多的人违心参加游览目的地玩耍感触的分享。

本文试图从马蜂窝游览官网上就新疆这个游览目的地游记进行感知剖析。

游记体现出多元简单的情感

通过情感剖析(也称为意见开掘),用文本开掘和计算机语言学来辨认和提取原始材料中的主观信息,剖析主观信息(例如观点,情感,态度,评估,情感等),以进行提取,剖析,解决,演绎和推理。


图表 1

 


 

通过数据分析可知,旅客对新疆整体上正向情感还是远高于负向情感,游览群体对新疆游览地区还是呈现出踊跃的必定态度,如舒服、恬静、赏心悦目、冲动、眷恋等。从词频统计看出,自然风光多,游览对民族特色的较为关注,如:盆地、白云、沙漠、草原、南疆。当然还有吃食,如“奶酪”等等。从后果也能够看到有大量的“悲观”、“惆怅”等情感,通过游记咱们发现风光基本上满足了旅客的需要,然而深层次的体验我的项目较少,新疆旅游景点间空间跨度大、路况条件差、行车时间长、节假日拥挤排队等。新疆游览大部分都是景区内的风光,对于天然风貌记录偏少,布局、人文游览也偏少。情感剖析可知,游客对风光、美食都很称心,有着更高的期待。

哪些游记帮忙人数最多

通过游记的内容特点和帮忙人数,咱们通过决策树来判断哪些游记的帮忙人数最多,同时也发现大多数驴友的心里出行需要。


图表 2

 


样本游记从游记篇幅、作者等级、人均破费、旅行组合、出行天数等方面反映游记的特点。游记篇幅的大小和作者等级是影响帮忙人数的最重要的因素,内容详尽的游记能帮忙到更多的人,教训老道的驴友的游记个别更有参考价值。旅行组合中家庭组合较少,赴疆游客以集体或敌人背包客徒步、自在行游览为主,人均费用在 7k 以下,出行天数小于 12 天。游记的帮忙人数主观地反映了驴友们游览行程布局的心理预期,同时会对其余旅游者的决策和对游览目的地的营销产生重要影响。

游记话题情感认知形象

接下来咱们通过主题开掘寻找游记话题和表白情感之间的关系。


图表 3

 


 

从中能够看到有两个主题是景点相干,从关键词中能够用看到驴友们关注比拟多的景点是独库公路、天山、喀纳斯、禾木、布尔津、五彩滩等。“新疆”、“独库公路”、“喀纳斯”、“乌鲁木齐”是游记样本中共现频率最高的词,成为两个重要的核心节点。通常状况下,间隔核心节点越近,示意与两个节点的关联越严密。由此可见,语义网络图呈现出两个较为显著的趋势:一是“新疆”一词辐射出的语义网络除游览景区外,更多地体现了游客对新疆“雪山”、“草原”、“风景”等游览形象的整体情感感知:如“独特”、“平静”等,这与新疆对外游览宣传所采纳的词语相一致; 二是“乌鲁木齐”、“风光”一词辐射出的语义网络汇合了更多与行程和游览攻略相干的信息,如“酒店”、“机场”、“包车”、“自驾”等,从游客感知视角证实了新疆游览的游览攻略行程信息以及乌鲁木齐作为重要的游览集散中心在新疆旅游业倒退中的位置。


本文摘选 游记数据感知游览目的地形象 ,点击“ 浏览原文”获取全文残缺材料。

点击题目查阅往期内容

NLP 自然语言解决—主题模型 LDA 案例:开掘人民网留言板文本数据
Python 主题建模 LDA 模型、t-SNE 降维聚类、词云可视化文本开掘新闻组数据集
自然语言解决 NLP:主题 LDA、情感剖析疫情下的新闻文本数据
R 语言对 NASA 元数据进行文本开掘的主题建模剖析
R 语言文本开掘、情感剖析和可视化哈利波特小说文本数据
Python、R 对小说进行文本开掘和档次聚类可视化剖析案例
用于 NLP 的 Python:应用 Keras 进行深度学习文本生成
长短期记忆网络 LSTM 在工夫序列预测和文本分类中的利用
用 Rapidminer 做文本开掘的利用:情感剖析
R 语言文本开掘 tf-idf, 主题建模,情感剖析,n-gram 建模钻研
R 语言对推特 twitter 数据进行文本情感剖析
Python 应用神经网络进行简略文本分类
用于 NLP 的 Python:应用 Keras 的多标签文本 LSTM 神经网络分类
R 语言文本开掘应用 tf-idf 剖析 NASA 元数据的关键字
R 语言 NLP 案例:LDA 主题文本开掘优惠券举荐网站数据
Python 应用神经网络进行简略文本分类
R 语言自然语言解决(NLP):情感剖析新闻文本数据
Python、R 对小说进行文本开掘和档次聚类可视化剖析案例
R 语言对推特 twitter 数据进行文本情感剖析
R 语言中的 LDA 模型:对文本数据进行主题模型 topic modeling 剖析
R 语言文本主题模型之潜在语义剖析(LDA:Latent Dirichlet Allocation)

正文完
 0