关于数据挖掘:视频K近邻KNN算法原理与R语言结合新冠疫情对股票价格预测数据分享附代码数据

36次阅读

共计 6861 个字符,预计需要花费 18 分钟才能阅读完成。

全文下载链接:http://tecdat.cn/?p=24057

最近咱们被客户要求撰写对于 KNN 算法的钻研报告,包含一些图形和统计输入。

本文的指标是应用 K - 最近邻(K 近邻),ARIMA 和神经网络模型剖析 Google 股票数据集预测 Google 的将来股价,而后剖析各种模型


K- 最近邻(K 近邻)是一种用于回归和分类的监督学习算法。K 近邻 试图通过计算测试数据与所有训练点之间的间隔来预测测试数据的正确类别。而后抉择最靠近测试数据的 K 个点。K 近邻算法计算测试数据属于 ’K’ 个训练数据的类的概率,并且抉择概率最高的类。在回归的状况下,该值是“K”个选定训练点的平均值。

让咱们看看上面的例子,以便更好地了解

为什么咱们须要 K 近邻 算法?

假如有两个类别,A 和 B,并且咱们有一个新的数据点 x1,那么这个数据点将位于这些类别中的哪一个。为了解决这类问题,咱们须要一个 K 近邻算法。借助 K 近邻,咱们能够轻松辨认特定数据集的类别。思考下图:

K 近邻 是如何工作的?

K 近邻 的工作原理能够依据以下算法进行解释:

  • 步骤 1:抉择街坊的数量 K
  • 步骤 2:计算 K 个街坊的欧几里得间隔
  • 步骤 3:依据计算出的欧几里得间隔取 K 个最近邻。
  • 步骤 4:在这 k 个街坊中,统计每个类别的数据点个数。
  • 步骤 5:将新数据点调配给街坊数量最大的类别。
  • 步骤 6:咱们的模型筹备好了。

假如咱们有一个新的数据点,咱们须要把它放在所需的类别中。

首先,咱们将抉择街坊的数量,因而咱们将抉择 k=5。

接下来,咱们将计算数据点之间的欧几里得间隔。欧几里得间隔是两点之间的间隔,咱们曾经在几何学中钻研过。能够计算为:

通过计算欧几里得间隔,咱们失去了最近邻,即 A 类中的 2 个最近邻和 B 类中的 3 个最近邻。

正如咱们所见,3 个最近的街坊来自类别 B,因而这个新数据点必须属于类别 B。

如何抉择 K 值?

Kvalue 示意最近邻的计数。咱们必须计算测试点和训练过的标签点之间的间隔。每次迭代更新间隔度量的计算成本很高,这就是为什么 K 近邻 是一种惰性学习算法。

那么如何抉择最优的 K 值呢?

  • 没有事后定义的统计办法来找到最无利的 K 值。
  • 初始化一个随机的 K 值并开始计算。
  • 抉择较小的 K 值会导致决策边界不稳固。
  • 较大的 K 值更适宜分类,因为它能够平滑决策边界。
  • 得出错误率和 K 之间的图,示意定义范畴内的值。而后抉择 K 值作为具备最小错误率。

当初您将理解通过施行模型来抉择最佳 K 值。

计算间隔:

第一步是计算新点和每个训练点之间的间隔。计算该间隔有多种办法,其中最常见的办法是欧几里得、曼哈顿(用于间断)和汉明间隔(用于分类)。

欧几里得间隔:欧几里得间隔计算为新点 (x) 和现有点 (y) 之间的平方差之和的平方根。

曼哈顿间隔:这是理论向量之间的间隔,应用它们的相对差之和。

**
**

联合新冠疫情 COVID-19 对股票价格预测:ARIMA,KNN 和神经网络工夫序列剖析

1. 概要

本文的指标是应用各种预测模型剖析 Google 股票数据集 查看文末理解数据获取形式 预测 Google 的将来股价,而后剖析各种模型。

**

拓端

,赞 32

**

拓端

,赞 18

**

拓端

,赞 13

2. 简介

预测算法是一种试图依据过来和当初的数据预测将来值的过程。提取并筹备此历史数据点,来尝试预测数据集所选变量的将来值。在市场历史期间,始终有一种继续的趣味试图剖析其趋势,行为和随机反馈。一直关注在理论产生之前先理解产生了什么,这促使咱们持续进行这项钻研。咱们还将尝试并理解 COVID-19 对股票价格的影响。

3. 所需包

library(quantmod) R 的定量金融建模和交易框架
library(forecast) 预测工夫序列和工夫序列模型
library(tseries) 工夫序列剖析和计算金融。library(timeseries) 'S4' 类和金融工夫序列的各种工具。library(readxl) readxl 包使你可能轻松地将数据从 Excel 中取出并输出 R 中。library(kableExtra) 显示表格
library(data.table) 大数据的疾速聚合
library(DT) 以更好的形式显示数据
library(tsfknn) 进行 KNN 回归预测

4. 数据筹备

4.1 导入数据

咱们应用 Quantmod 软件包获取了 Google 股票价格 2015 年 1 月 1 日到 2020 年 4 月 24 日的数据,用于咱们的剖析。为了剖析 COVID-19 对 Google 股票价格的影响,咱们从 quantmod 数据包中获取了两组数据。

  • 首先将其命名为 data\_before\_covid,其中蕴含截至 2020 年 2 月 28 日的数据。
  • 第二个名为 data\_after\_covid,其中蕴含截至 2020 年 4 月 24 日的数据。

所有剖析和模型都将在两个数据集上进行,以剖析 COVID-19 的影响(如果有)。

getSymbols("GOG" fro= "2015-01-01", to = "2019-02-28")
before_covid <-dafae(GOOG)

getSymbols("GOG" , frm = "2015-01-01")
after_covid <- as.tae(GOOG)

4.2 数据的图形示意

par(mfrow = c(1,2))
plot.ts(fore_c)

4.3 数据集预览

最终数据集能够在上面的交互式表格中找到。

table(before_covid)

4.4 变量汇总

变量 形容
Open 当日股票开盘价
High 当日股票最高价
Low 当日股价最低
Close 当日股票收盘价
Volumn 总交易量
Adjusted 调整后的股票价格,包含危险或策略

5. ARIMA 模型

咱们首先剖析两个数据集的 ACF 和 PACF 图。

par(mfrow = c(2,2))
acft(bfoe_covid)
pacf(bfre_covid)

而后,咱们进行 ADF(Dickey-Fuller)测验和 KPSS(Kwiatkowski-Phillips-Schmidt-Shin)测验,测验两个数据集收盘价的工夫序列数据的平稳性。

print(adf.test)

print(adfes(sata_after_covid))

通过以上 ADF 测验,咱们能够得出以下论断:

  • 对于 COVID-19 之前的数据集,ADF 测试给出的 p 值为 0.2093,该值大于 0.05,因而阐明工夫序列数据 不是安稳的。
  • 对于 COVID-19 之后的数据集,ADF 测试给出的 p 值为 0.01974,该值 小于 0.05,这阐明工夫序列数据是 安稳的。
print(kpss.s(t_before_covid))

print(kpss.est(Dafter_covid))

通过以上 KPSS 测试,咱们能够得出以下论断:

  • 对于 COVID-19 之前的数据集,KPSS 测试得出的 p 值为 0.01,该值小于 0.05,因而阐明工夫序列数据 不是安稳的。
  • 对于 COVID-19 之后的数据集,KPSS 测试给出的 p 值为 0.01,该值小于 0.05,这阐明工夫序列数据 不是安稳的。

因而,咱们能够从以上两个测试得出结论,工夫序列数据 不是安稳的。

而后,咱们应用 auto 函数来确定每个数据集的工夫序列模型。

 auto.ar(befor_covid, lamd = "auto")

 auto.arma(after_covid)

从 auto 函数中,咱们得出两个数据集的以下模型:

  • 在 COVID-19 之前:ARIMA(2,1,0)
  • 在 COVID-19 之后:ARIMA(1,1,1)

取得模型后,咱们将对每个拟合模型执行残差诊断。

par(mfrow = c(2,3))

plot(before_covidresiduals)


plot(mfter_covidresiduals)

从残差图中,咱们能够确认残差的平均值为 0,并且方差也为常数。对于滞后 > 0,ACF 为 0,而 PACF 也为 0。

因而,咱们能够说残差体现得像白噪声,并得出结论:ARIMA(2,1,0)和 ARIMA(1,1,1)模型很好地拟合了数据。或者,咱们也能够应用 Box-Ljung 测验在 0.05 的显着性程度上进行测验残差是合乎白噪声。

Box.test(moderesiduals)

Box.tst(moeit_fter_covidreia, type = "Ljung-Box")

在此,两个模型的 p 值均大于 0.05。因而,在显着性程度为 0.05 的状况下,咱们无奈回绝原假如,而得出的论断是残差遵循白噪声。这意味着该模型很好地拟合了数据。

一旦为每个数据集确定了模型,就能够预测将来几天的股票价格。


点击题目查阅往期内容

自然语言解决 NLP:主题 LDA、情感剖析疫情下的新闻文本数据

左右滑动查看更多

01

02

03

04

6. KNN 回归工夫序列预测模型

KNN 模型可用于分类和回归问题。最受欢迎的利用是将其用于分类问题。当初,应用 r 软件包,能够在任何回归工作利用 KNN。这项钻研的目标是阐明不同的预测工具,对其进行比拟并剖析预测的行为。在咱们的 KNN 钻研之后,咱们提出能够将其用于分类和回归问题。为了预测新数据点的值,模型应用“特色类似度”,依据新点与训练集上点的类似水平为值调配新点。

第一项工作是确定咱们的 KNN 模型中的 k 值。抉择 k 值的个别教训法令是取样本中数据点数的平方根。因而,对于 COVID-19 之前的数据集,咱们取 k = 32;对于 COVID-19 之后的数据集,咱们取 k = 36。

par(mfrow = c(2,1))
knn_before_covid <- kn(bfrvdGO.Clse,  k = 32)
knn_after_covid <- kn(ber_oiGOG.lose ,k = 36)

plot(knn_before_covid)
plot(knn_after_covid)

而后,咱们针对预测工夫序列评估 KNN 模型。

before_cvid <- ll_ig(pdn_befr_vid)
afer_vd<- rog_ogn(redkn_afer_vd)


7. 前馈神经网络建模

咱们将尝试实现的下一个模型是带有神经网络的预测模型。在此模型中,咱们应用单个暗藏层模式,其中只有一层输出节点将加权输出发送到接管节点的下一层。预测函数将单个暗藏层神经网络模型拟合到工夫序列。函数模型办法是将工夫序列的滞后值用作输出数据,以达到非线性自回归模型。

第一步是确定神经网络的暗藏层数。只管没有用于计算暗藏层数的特定办法,但工夫序列预测遵循的最常见办法是通过计算应用以下公式:

其中 Ns:训练样本数 Ni:输出神经元数 No:输入神经元数 a:1.5 ^ -10

# 暗藏层的创立
hn_before_covid <- length(before.Close)/(alpha*(lengthGOOG.Close + 61)
hn_after_covid <- length(after_covidClose)/(alpha*(lengthafter_ovdClose+65))

#拟合 nn

nn(before_covid$GOOG.Close, size = hn_beoe_cid, 

# 应用 nnetar 进行预测。forecast(befe_cvid, h 61, I =UE)
forecast(aftr_coid, h = 5, I = RE)

plot(nn_fcst_afte_cvid)

而后,咱们应用以下参数剖析神经网络模型的性能:

accuracy

accuracy


8. 所有模型的比拟

当初,咱们应用参数诸如 RMSE(均方根误差),MAE(均值绝对误差)和 MAPE(均值相对百分比误差)对所有三个模型进行剖析。

sumary_le_efore_oid <- data.frame(RMSE = nuerc(), MAE = uer(), 
                            MAPE = numric(), snsAsacrs = FALSE)

summ_tabe_fter_ovd <- data.fame(RMSE = umeri(), MAE = nmei(), 
                            MAPE = numeic())


kable(smary_abe_eor_oid)
模型 RMSE MAE MAPE
ARIMA 13.0 8.8 1.0
KNN 44.0 33.7 3.1
神经网络 13.0 8.7 1.0
kable(sumary_tbl_aft_ci
fulith = F, fixdtead = T )
模型 RMSE MAE MAPE
ARIMA 16.6 10.4 1.0
KNN 45.9 35.7 3.3
神经网络 14.7 9.8 1.0

因而,从以上模型性能参数的总结中,咱们能够看到神经网络模型在两个数据集上的性能均优于 ARIMA 和 KNN 模型。因而,咱们将应用神经网络模型来预测将来两个月的股价。

9. 最终模型:COVID-19 之前

当初,咱们应用直到 2 月的数据来预测 3 月和 4 月的值,而后将预测价格与理论价格进行比拟,以查看是否因为 COVID-19 能够归因于任何重大影响。

foestdungcvid<- datafame("De"Actua Values" = 

datatable(foestdungcvid, ilte= 'to')

从表中咱们能够看到,3 月和 4 月期间,Google 股票的理论价值通常比预测值要高一些。因而,能够说,只管产生了这种全球性大风行,但 Google 股票的体现依然相当不错。

10. 最终模型:COVID-19 之后

当初,咱们应用直到 4 月的数据预测 5 月和 6 月的值,以理解 Google 的将来股价。

foreataov <- data.frae(dn_reataeimean)

table(foreataov)

从表中能够得出结论,在 5 月和 6 月的接下来的几个月中,Google 股票的价格将持续上涨并体现良好。



点击题目查阅往期内容

Fama French (FF) 三因子模型和 CAPM 模型剖析股票市场投资组合危险 / 收益可视化
配对交易策略统计套利量化交易剖析股票市场
Copula 算法建模相依性剖析股票收益率工夫序列案例
用 COPULA 模型进行蒙特卡洛 (MONTE CARLO) 模仿和拟合股票收益数据分析
R 应用 LASSO 回归预测股票收益
金融工夫序列模型 ARIMA 和 GARCH 在股票市场预测利用
工夫序列分析模型:ARIMA-ARCH / GARCH 模型剖析股票价格
自然语言解决 NLP:主题 LDA、情感剖析疫情下的新闻文本数据
在 R 语言中应用航空公司简单网络对疫情进行建模
matlab 用高斯曲线拟合模型剖析疫情数据
R 语言 ARIMA-GARCH 稳定率模型预测股票市场苹果公司日收益率工夫序列
R 语言中的工夫序列分析模型:ARIMA-ARCH / GARCH 模型剖析股票价格
R 语言用综合信息准则比拟随机稳定率(SV)模型对股票价格工夫序列建模
R 语言回测交易:依据历史信号 / 交易创立股票收益曲线
Python 中 TensorFlow 的长短期记忆神经网络 (LSTM)、指数挪动平均法预测股票市场和可视化
R 语言 k -Shape 工夫序列聚类办法对股票价格工夫序列聚类
R 语言逻辑回归 Logistic 回归剖析预测股票涨跌
R 语言时变稳定率和 ARCH,GARCH,GARCH-in-mean 模型剖析股市收益率工夫序列
R 语言中的 copula GARCH 模型拟合工夫序列并模仿剖析
R 语言多元 Copula GARCH 模型工夫序列预测
R 语言 ARMA-GARCH-COPULA 模型和金融工夫序列案例 R 语言多元 CopulaGARCH 模型工夫序列预测 R 语言乘法 GARCH 模型对高频交易数据进行波动性预测
R 语言 GARCH-DCC 模型和 DCC(MVT)建模预计
Python 应用 GARCH,EGARCH,GJR-GARCH 模型和蒙特卡洛模仿进行股价预测
R 语言工夫序列 GARCH 模型剖析股市稳定率
R 语言 ARMA-EGARCH 模型、集成预测算法对 SPX 理论稳定率进行预测
matlab 实现 MCMC 的马尔可夫转换 ARMA – GARCH 模型预计
Python 应用 GARCH,EGARCH,GJR-GARCH 模型和蒙特卡洛模仿进行股价预测
应用 R 语言对 S&P500 股票指数进行 ARIMA + GARCH 交易策略
R 语言用多元 ARMA,GARCH ,EWMA, ETS, 随机稳定率 SV 模型对金融工夫序列数据建模
R 语言股票市场指数:ARMA-GARCH 模型和对数收益率数据探索性剖析
R 语言多元 Copula GARCH 模型工夫序列预测
R 语言应用多元 AR-GARCH 模型掂量市场危险
R 语言中的工夫序列分析模型:ARIMA-ARCH / GARCH 模型剖析股票价格
R 语言用 Garch 模型和回归模型对股票价格剖析
GARCH(1,1),MA 以及历史模拟法的 VaR 比拟
matlab 预计 arma garch 条件均值和方差模型
R 语言 ARMA-GARCH-COPULA 模型和金融工夫序列案例

正文完
 0