关于数据挖掘:视频文本挖掘主题模型LDA及R语言实现分析游记数据

53次阅读

共计 1535 个字符,预计需要花费 4 分钟才能阅读完成。

原文链接:http://tecdat.cn/?p=14997

越来越多的人违心精力生产。游览不仅能够晋升人们对外地环境和外地人文的认知,也能够放松身心、愉悦情绪,是一种受欢迎的精力生产。

 

着国内近些年来互联网的倒退,越来越多的人开始线上生产,生产感触的举荐成为了潮流。在各个游览平台上,越来越多的人违心参加游览目的地玩耍感触的分享。

 

本文试图从马蜂窝游览官网上就新疆这个游览目的地游记进行感知剖析。

 

 

 

 

游记体现出多元复 杂的 情感

 

 

通过情感剖析(也称为意见开掘),用文本开掘和计算机语言学来辨认和提取原始材料中的主观信息,剖析主观信息(例如观点,情感,态度,评估,情感等),以进行提取,剖析,解决,演绎和推理。

 

 

 


图表 1

 


 

通过数据分析可知,旅客对新疆整体上正向情感还是远高于负向情感,游览群体对新疆游览地区还是呈现出踊跃的必定态度,如舒服、恬静、赏心悦目、冲动、眷恋等。从词频统计看出,自然风光多,游览对民族特色的较为关注,如:盆地、白云、沙漠、草原、南疆。当然还有吃食,如“奶酪”等等。从后果也能够看到有大量的“悲观”、“惆怅”等情感,通过游记咱们发现风光基本上满足了旅客的需要,然而深层次的体验我的项目较少,新疆旅游景点间空间跨度大、路况条件差、行车时间长、节假日拥挤排队等。新疆游览大部分都是景区内的风光,对于天然风貌记录偏少,布局、人文游览也偏少。情感剖析可知,游客对风光、美食都很称心,有着更高的期待。

 

 

 

 

 

 

 

 

 

 

哪些游记帮忙人数最多

 

 

通过游记的内容特点和帮忙人数,咱们通过决策树来判断哪些游记的帮忙人数最多,同时也发现大多数驴友的心里出行需要。

 

 

 

 


图表 2

 


 

样本游记从游记篇幅、作者等级、人均破费、旅行组合、出行天数等方面反映游记的特点。游记篇幅的大小和作者等级是影响帮忙人数的最重要的因素,内容详尽的游记能帮忙到更多的人,教训老道的驴友的游记个别更有参考价值。旅行组合中家庭组合较少,赴疆游客以集体或敌人背包客徒步、自在行游览为主,人均费用在 7k 以下,出行天数小于 12 天。游记的帮忙人数主观地反映了驴友们游览行程布局的心理预期,同时会对其余旅游者的决策和对游览目的地的营销产生重要影响。

 

 

 

 

 

 

 

 

 

 

 

 

游记话题情感认知形象

 

 

接下来咱们通过主题开掘寻找游记话题和表白情感之间的关系。

 

 

 


图表 3

 


 

从中能够看到有两个主题是景点相干,从关键词中能够用看到驴友们关注比拟多的景点是独库公路、天山、喀纳斯、禾木、布尔津、五彩滩等。“新疆”、“独库公路”、“喀纳斯”、“乌鲁木齐”是游记样本中共现频率最高的词,成为两个重要的核心节点。通常状况下,间隔核心节点越近,示意与两个节点的关联越严密。由此可见,语义网络图呈现出两个较为显著的趋势:一是“新疆”一词辐射出的语义网络除游览景区外,更多地体现了游客对新疆“雪山”、“草原”、“风景”等游览形象的整体情感感知:如“独特”、“平静”等,这与新疆对外游览宣传所采纳的词语相一致; 二是“乌鲁木齐”、“风光”一词辐射出的语义网络汇合了更多与行程和游览攻略相干的信息,如“酒店”、“机场”、“包车”、“自驾”等,从游客感知视角证实了新疆游览的游览攻略行程信息以及乌鲁木齐作为重要的游览集散中心在新疆旅游业倒退中的位置。

 

 


 

相干见解

1. 数据类岗位需要的数据面

2. 探析大数据期刊文章钻研热点

3. 机器学习助推快时尚精准销售预测

4. 用机器学习辨认一直变动的股市情况—隐马尔科夫模型 (HMM) 的利用

5. 数据盘点:家电线上生产新趋势

6. 在 r 语言中应用 GAM(狭义相加模型)进行电力负荷工夫序列剖析

7. 虎扑论坛基因探秘:社群用户行为数据洞察

8. 把握出租车行驶的数据脉搏

9. 智能门锁“剁手”数据攻略

 

 

 

 

 

正文完
 0