关于数据挖掘:python基于评论情感分析和回归arima销量预测的购物网站选品

全文链接：http://tecdat.cn/?p=31678

原文出处：拓端数据部落公众号

分析师：Ru Bai

网络购物模式已成为越来越重要的产品销售模式，亚马逊网站早在1995年就开始邀请产品消费者发表在线评论，此举带来了良好的成果，目前简直所有的网站都采纳了同样的形式。这是因为在线评论：与该网页上的产品销售有着间接相干，便于消费者理解产品信息和服务，并且消费者认为评论信息具备更高的可信度；对企业网络购物平台经营决策起作用，利于企业抉择进入市场的工夫，抉择更受消费者青眼的商品，提高效益。

本文旨在为某公司客户提供线上销售策略，基于不同于以往的剖析形式，剖析在线评论外部各属性的特点以及他们之间的关系，并从动静的角度探索产品在网络平台上声誉的变动和发展潜力，从而提出有助于进步销量的倡议。

解决方案

工作/指标

剖析产品口碑的影响因素，从评论情感剖析和销量预测两个角度对网站抉择商品和网站经营给出倡议。

数据源筹备

以在线评论作为根底数据源（来自于亚马逊网站的）

数据预处理

数据处理的目标是为了去除掉数据集中的脏数据，从而确保数据品质，进步数据可用性与使用率，保障剖析后果的准确性。因而，依据本文数据处理的须要，咱们须要对数据集进行如下数据处理：

a、删除对应产品不属于咱们要钻研的品类的数据。本文只针对吹风机、微波炉、奶嘴，其余产品不具备参考价值。

b、删除评论星级不属于[1,5]的数据。商品的星级评分在亚马逊网站上都是1-5范畴内，然而因为零碎bug，会导致呈现超出此范畴的评分，超出了失常值域范畴。

c、删除helpful votes大于total votes的数据。认为其为谬误数据。

d、删除review title、review body均为空的数据。当这两个均为空时，这条数据没有传递任何评论信息，因而依据数据有效性准则。

e、基于本文产品预测的指标，咱们须要依照工夫维度对失去的产品信息进行划分，并且依照同一产品的ID在工夫维度上进行汇总。对于评论总数小于20的产品、后几年的评论总数均为0的产品咱们抉择删除。数据显示为0可能是数据贮存失败、存储器存在问题等起因，也可能是该产品退出了市场，对产品预测没有参考意义。

文本预处理

a、对评论文本数据进行规范化。浏览数据集中的评论数据，咱们发现有很多评论中呈现单词拼写错误、表情符号应用较多以及其余冗余信息，他们不仅不能提供任何有用信息，还会影响模型的运行效率。因而，咱们须要过滤掉这些信息：

b、英文分词。

1）使用python对每一条评论进行英文分词。

2）去掉标点符号和停用词。冠词、介词、副词、连词等尽管在评论中呈现的频率较高，然而它们无奈示意评论信息的特色。

c、词性标注和词频统计。因为咱们要对产品设计提出更好的倡议，为了尽量合乎消费者的须要，咱们须要从评论中提取出相应的信息。标注产品属性和消费者情感中波及到的名词、形容词、副词和否定词等。

建模

模型一：零收缩负二项回归模型

以信息驳回实践和负面偏差实践为根底，联合情感剖析和零收缩负二项回归办法，从评论者信度、评论信息品质、评论极性三个方面探索评论有用性投票影响因素。

剖析:

①评论有用性投票是一个计数变量，且不呈正态分布，不满足一般最小二乘回归模型，且数据较为扩散，此种状况下采纳泊松回归模型拟合成果不现实，因此采纳负二项回归模型。

②评论有用性投票零值比例高，是因为消费者并不会浏览所有的评论，因而投票的评论为0，并不代表该评论没有用。建设逻辑回归模型对因变量中的零值进行解释。

模型：

逻辑回归模型(对因变量有用性投票数为0，做出解释)

变量类型	变量名	变量	变量解释
[自变量]()	评论发表工夫	time	评论曾经发表的工夫（距数据最初一天）
商品总评论数	reviewtotal
商品销售排名	rank	认为评论数反映了销售量
因变量	评论有用性投票数	helpfulvotes	评论取得的有用性投票的总数

负二项回归模型

变量类型	变量名	变量	变量解释
自变量	评论者有用性	reviewer_use	评论取得的有用性投票的数/失去的总票数
是否为资深评论员	vine	0:否 1：是
购买是否打折	discount	0:否 1：是
评论长度	length	评论所含单词的数量
星级极差	rateGap	星级评分与均匀星级差值的绝对值
情感指数	emotion_rating	评论文本的情感倾向性指数
因变量	评论有用性投票数	usefulNum	评论取得的有用性投票的总数

模型改良 ：修改星级

（1）星级评估是一种简略，易于操作的评估模式，但无奈全面展现评论者的情感态度。例如：A感觉产品毫无瑕疵所以打了5星，B感觉产品有一点毛病，但总体称心还是打了5星。因而，咱们在原有的评分零碎上进行改良，仍旧采纳所有评论者评分均值的办法，但对每一条评论，应用评论情感指数修改星级评估，减少准确性。

符号阐明：

变量属性	变量名	变量	变量阐明
自变量	评论星级		第i个产品的第j个评论者评论星级 j=0,1…num
情感指数		第i个产品的第j个评论者评论文本情感指数
因变量	修改评分		第i个产品的修改评分

以微波炉的产品为例，将原来的产品总分与修改后的评分做比照：

发现，修改后的模型和原来的分数差距很小，只是将评估等级范畴扩充。但能够很好的刻画评论者的评论极性和情感强度，能将极断的情绪放大，情感表白更强烈。同样修改模型也能够更加残缺地展现评论者的态度。

（2）将产品综合情绪作为自变量，产品的评论总数作为独立变量，综合星级作为因变量，建设如下回归模型:

通过R语言进行回归，咱们能够失去回归模型：

此外，rsqure为0.9901，很靠近于1，阐明回归成果很好。

将产品综合情绪作为自变量，产品的评论总数作为独立变量，综合星级作为因变量，建设如下回归模型:

通过R语言进行回归，咱们能够失去回归模型：

此外，rsquare为0.9901，很靠近于1，阐明回归成果很好。

这种给产品打分的模式能够更好的刻画评论评估中蕴含的情绪，越精确的打分越可能理解产品在市场上的口碑以及产品的品质，从而使得顾客更间接取得对产品的感知，进步对购物网站的认同度。

模型二：网络口碑感知的动静内生模型

网络口碑量化指标的确定。在理论生存中，消费者对网络口碑感知是一个阶段的过程，是对一个时间段内产品的属性、品质、服务等的总和感知，因而，上诉剖析的影响因素对网站口碑感知的印象是存在滞后性的，此时就产生了在线评论和网络口碑感知之间的动静平衡过程。

剖析：

自变量：（与评论无关）

① 产品综合星级（![]()）：是消费者对产品感触最间接的反馈，认为星级越高，消费者对该产品的评估越好

② 在线评论的数量（cNum）：评论数越多，阐明参加评论的人越多，也反馈出产品销量高，消费者对该产品的关注多

③ 负面评估在线评估的比例 (nage)：负面评论是影响口碑的重要因素，并且负面评论升高产品销量比侧面评论所带来的销量回升的成果更佳显著。

④ 综合情感指数（![]()）：由评论文本剖析失去的情感指数能够反映评论者对产品更全面的感知

控制变量：（与评论无关但能够度量的）

① 竞争者的数量（pnum），还包含提价幅度②产品公布工夫(time)

哑变量：（与评论无关且不可度量的因素）

① 品牌效应（brand）：该产品资深评论者的星级评估平均值

模型

基于上述剖析的后果，建设网络口碑感知与各变量之间的线性模型来进行预计，为了防止异方差及偏态性的影响，公式中的局部变量以自然对数示意：

工夫节点	t	管制各变量周期的工夫节点
管制值	A,B,C	管制各变量是否起作用的布尔值（0或1）
各变量系数	![]()	各变量的系数
自变量、控制变量	![]()	t时段第i个产品的第j个自变量、控制变量、哑变量
产品销售排名	![]()	t时段的产品销量排名

为了证实在线评论对口碑感知的影响大小，构建两个模型进行比照：

当A=0，B=1, C=1，T=4时，失去模型一

当A=1，B=1，C=1，T=4时，失去模型二：

通过剖析各变量对产品网络口碑感知的影响，为了防止出现多重共线性的问题，对相应的变量进行了中心化解决，解决之后，所有的方差收缩因子VIF小于5，阐明多重共线性问题被无效躲避。

模型三：ARIMA工夫序列预测模型

ARIMA模型是在ARMA模型的根底上退出了差分解决。模型公式：

ARMA示意工夫序列![]()，是烦扰项![]()与![]()以及序列值![]()的线性组合。AR的系数由模型中的![]()示意，p示意自回归阶数，个别示意时序数据自身的滞后数；MA的系数由![]()示意，q示意挪动均匀阶数，个别示意预测模型中采纳的预测误差的滞后数。ARIMA(p,d,q)中d代表差分次数，为了使非安稳的序列变得绝对安稳。

选取了亚马逊网站上三种商品（吹风机、奶嘴、微波炉）的评论数据别离进行剖析。在数据预处理之后，以奶嘴为例，失去23764条数据，时间跨度为2003年4月到2015年8月，每款商品的总体销量范畴在0~833之间，所以本文以月为单位划分工夫进行模型构建与验证，并预测之后5个月的销量。

察看时序图，能够看出销量整体走势是呈上升趋势的，但不太安稳，有肯定的波动性，所以进行一阶差分解决，合乎ARIMA模型。

模型一：

采纳微波炉所有产品的数据，其中有用性投票最小为0，最大是814，有用性投票的散布比拟离散，约41.14%的有用性投票数为0，实用于咱们建设的模型。联合回归剖析后果与描述性统计后果进行剖析。

变量	estimate	SE	Z	P 值
负二项	-
[（ ]()Intercept ）	-1.065e+00	6.182e-02	-17.223	<2e-16
reviewer_use	2.809e+00	5.950e-02	47.207	<2e-16
vine	4.029e-01	4.037e-02	9.981	<2e-16
discount	-1.134e-01	2.739e-02	-4.139	3.49e-05
review_length	3.212e-03	3.835e-05	83.746	<2e-16
emotion_rating	2.719e-01	1.634e-02	16.644	<2e-16
rate_gap	1.915e-01	1.387e-02	13.810	<2e-16
logistic
（ Intercept ）	-3.583279	1.436305	-2.495	0.012603
time	-0.006731	0.001543	-4.363	1.28e-05
rank	0.087540	0.051973	1.684	0.092115
review_total	0.012404	0.003479	3.565	0.000364

结果表明，评论者有用性，评论信息量，评论回复数，极其评分，评论文本消极偏向对评论有用性投票具备踊跃正向影响，评论者发表评论数，评论者是否打折购买对评论有用性投票数有负面影响。基于此，倡议网站改善评论排序机制和商品举荐机制，不便消费者筛选高质量评论，器重负面评论，在抉择商品时思考网络口碑。

模型二

所建设的网络口碑动静内生模型能够展现一个产品随工夫的声誉变动，由此网站能够更好的抉择商品，优化网站品质。另外，影响口碑的因素还包含产品公布工夫、产品质量、服务质量、提价幅度等因素。**

模型三：

a.微波炉各具体产品将来五个月的销量预测

由图能够看出2015年8月到2016年1月销量最高的是ID为423421857的商品，尽管在2015年9月份有所降落，但10月份又呈上升态势。771401205商品的销量在将来5个月不如其余商品销量安稳。因而优先选取423421857产品，其次为523301568产品，544821753产品。

b.吹风机各具体产品将来五个月的销量预测

将来5个月各产品销量排名不会扭转，尽管732252283商品销量有所降落，但在9月后又持续回升；但486774008和694290590都呈降落趋势；其余都很安稳，并无增长的显著态势。因而举荐水平为：732252283＞758099411＞235105995。

b.奶嘴各具体产品将来五个月的销量预测

246038397显著销量遥遥领先，392768822有很大的增幅后趋于平稳并超过其余产品，尽管572944212销量当先于450475749，但其呈降落趋势，因而咱们抉择举荐：246038397＞392768822大于450475749。

对于作者

在此对Ru Bai对本文所作的奉献示意诚挚感激，她善于数据采集，数学建模。

最受欢迎的见解

1.Python主题建模LDA模型、t-SNE 降维聚类、词云可视化文本开掘新闻组

2.R语言文本开掘、情感剖析和可视化哈利波特小说文本数据

3.r语言文本开掘tf-idf主题建模，情感剖析n-gram建模钻研

4.游记数据感知游览目的地形象

5.疫情下的新闻数据察看

6.python主题lda建模和t-sne可视化

7.r语言中对文本数据进行主题模型topic-modeling剖析

8.主题模型：数据凝听人民网留言板的那些“网事”

9.python爬虫进行web抓取lda主题语义数据分析