关于数据挖掘:Python对商店数据进行lstm和xgboost销售量时间序列建模预测分析

原文链接：http://tecdat.cn/?p=17748

原文出处：拓端数据部落公众号

在数据迷信学习之旅中，我常常解决日常工作中的工夫序列数据集，并据此做出预测。

相干视频：LSTM神经网络架构和工作原理及其在Python中的预测利用

LSTM神经网络架构和原理及其在Python中的预测利用

我将通过以下步骤：

探索性数据分析（EDA）

问题定义（咱们要解决什么）
变量辨认（咱们领有什么数据）
单变量剖析（理解数据集中的每个字段）
多元分析（理解不同畛域和指标之间的相互作用）
缺失值解决
离群值解决
变量转换

预测建模

LSTM
XGBoost

问题定义

咱们在两个不同的表中提供了商店的以下信息：

商店：每个商店的ID
销售：特定日期的营业额（咱们的指标变量）
客户：特定日期的客户数量
StateHoliday：假日
SchoolHoliday：学校假期
StoreType：4个不同的商店：a，b，c，d
CompetitionDistance：到最近的竞争对手商店的间隔（以米为单位）
CompetitionOpenSince [月/年]：提供最近的竞争对手凋谢的大抵年份和月份
促销：当天促销与否
Promo2：Promo2是某些商店的间断和间断促销：0 =商店不参加，1 =商店正在参加
PromoInterval：形容促销启动的间断区间，并指定从新开始促销的月份。

利用所有这些信息，咱们预测将来6周的销售量。

# 让咱们导入EDA所需的库：import numpy as np # 线性代数import pandas as pd # 数据处理，CSV文件I / O导入（例如pd.read_csv）import matplotlib.pyplot as pltimport seaborn as snsfrom datetime import datetimeplt.style.use("ggplot") # 绘图#导入训练和测试文件：train\_df = pd.read\_csv("../Data/train.csv")test\_df = pd.read\_csv("../Data/test.csv")#文件中有多少数据：print("在训练集中，咱们有", train\_df.shape\[0\], "个察看值和", train\_df.shape\[1\], 列/变量。")print("在测试集中，咱们有", test\_df.shape\[0\], "个察看值和", test\_df.shape\[1\], "列/变量。")print("在商店集中，咱们有", store\_df.shape\[0\], "个察看值和", store\_df.shape\[1\], "列/变量。")

在训练集中，咱们有1017209个察看值和9列/变量。
在测试集中，咱们有41088个观测值和8列/变量。
在商店集中，咱们有1115个察看值和10列/变量。

首先让咱们清理 训练数据集。

#查看数据train\_df.head().append(train\_df.tail()) #显示前5行。

train_df.isnull().all()Out\[5\]:Store            FalseDayOfWeek        FalseDate             FalseSales            FalseCustomers        FalseOpen             FalsePromo            FalseStateHoliday     FalseSchoolHoliday    Falsedtype: bool

让咱们从第一个变量开始-> 销售量

opened\_sales = (train\_df\[(train_df.Open == 1) #如果商店停业opened_sales.Sales.describe()Out\[6\]:count    422307.000000mean       6951.782199std        3101.768685min         133.00000025%        4853.00000050%        6367.00000075%        8355.000000max       41551.000000Name: Sales, dtype: float64<matplotlib.axes._subplots.AxesSubplot at 0x7f7c38fa6588>

看一下顾客变量

In \[9\]:train_df.Customers.describe()Out\[9\]:count    1.017209e+06mean     6.331459e+02std      4.644117e+02min      0.000000e+0025%      4.050000e+0250%      6.090000e+0275%      8.370000e+02max      7.388000e+03Name: Customers, dtype: float64<matplotlib.axes._subplots.AxesSubplot at 0x7f7c3565d240>

train\_df\[(train\_df.Customers > 6000)\]

咱们看一下**假期** 变量。

train\_df.StateHoliday.value\_counts()

0    8550870    131072a     20260b      6690c      4100Name: StateHoliday, dtype: int64

train\_df.StateHoliday\_cat.count()

train_df.tail()

train_df.isnull().all() #查看缺失Out\[18\]:Store               FalseDayOfWeek           FalseDate                FalseSales               FalseCustomers           FalseOpen                FalsePromo               FalseSchoolHoliday       FalseStateHoliday_cat    Falsedtype: bool

让咱们持续进行商店剖析

store\_df.head().append(store\_df.tail())

#缺失数据：Store                         0.000000StoreType                     0.000000Assortment                    0.000000CompetitionDistance           0.269058CompetitionOpenSinceMonth    31.748879CompetitionOpenSinceYear     31.748879Promo2                        0.000000Promo2SinceWeek              48.789238Promo2SinceYear              48.789238PromoInterval                48.789238dtype: float64In \[21\]:

让咱们从缺失的数据开始。第一个是 CompetitionDistance

store_df.CompetitionDistance.plot.box()

让我看看异样值，因而咱们能够在均值和中位数之间进行抉择来填充NaN

短少数据，因为商店没有竞争。 因而，我倡议用零填充缺失的值。

store_df\["CompetitionOpenSinceMonth"\].fillna(0, inplace = True)

让咱们看一下促销流动。

store_df.groupby(by = "Promo2", axis = 0).count()

如果未进行促销，则应将“促销”中的NaN替换为零

咱们合并商店数据和训练集数据，而后持续进行剖析。

第一，让咱们按销售量、客户等比拟商店。

f, ax = plt.subplots(2, 3, figsize = (20,10))plt.subplots_adjust(hspace = 0.3)plt.show()

从图中能够看出，StoreType A领有最多的商店，销售和客户。然而，StoreType D的均匀每位客户均匀收入最高。只有17家商店的StoreType B领有最多的均匀顾客。

咱们逐年查看趋势。

sns.factorplot(data = train\_store\_df, # 咱们能够看到季节性，但看不到趋势。 该销售额每年放弃不变<seaborn.axisgrid.FacetGrid at 0x7f7c350e0c50>

咱们看一下相干图。

  "CompetitionOpenSinceMonth", "CompetitionOpenSinceYear", "Promo2<matplotlib.axes._subplots.AxesSubplot at 0x7f7c33d79c18>

咱们能够失去相关性：

客户与销售（0.82）
促销与销售（0,82）
均匀顾客销量 vs促销（0,28）
商店类别 vs 均匀顾客销量（0,44）

我的剖析论断：

商店类别 A领有最多的销售和顾客。
商店类别 B的每位客户均匀销售额最低。因而，我认为客户只为小商品而来。
商店类别 D的购物车数量最多。
促销仅在工作日进行。
客户偏向于在星期一（促销）和星期日（没有促销）购买更多商品。
我看不到任何年度趋势。仅季节性模式。

最受欢迎的见解

1.在python中应用lstm和pytorch进行工夫序列预测

2.python中利用长短期记忆模型lstm进行工夫序列预测剖析

3.应用r语言进行工夫序列（arima，指数平滑）剖析

4.r语言多元copula-garch-模型工夫序列预测

5.r语言copulas和金融工夫序列案例

6.应用r语言随机稳定模型sv解决工夫序列中的随机稳定

7.r语言工夫序列tar阈值自回归模型

8.r语言k-shape工夫序列聚类办法对股票价格工夫序列聚类

9.python3用arima模型进行工夫序列预测