关于数据挖掘:R语言逻辑回归Logistic选股因素模型交易策略及沪深300指数实证

随着中国的证券市场规模的一直壮大、市场翻新一直深入、信息披露不断完善、市场监管一直强化，随着古代投资组合实践的倒退和计算机技术的提高，投资者为了在股票交易中获得更多的收益，就须要有正当无效的投资策略，因素模型的根底上倒退出泛滥量化钻研模型。对于这些模型的钻研可能帮忙投资者无效的跟踪市场的变动，为得出更好的投资策略而提供帮忙。Logistic 选股模型正是这些泛滥模型中的一个。

因素模型是建设在证券收益率对各种因素或指数变动具备肯定敏感性的假如根底之上的一种模型。证券的收益率具备相关性，这种相关性是通过对模型中的一个或多个因素的独特反馈而体现进去。证券收益率中不能被因素模型所解释的局部被认为是各种证券的共性，因此与其余证券无关。因素模型也被称为指数模型 (Index model) 或夏普模型(Sharp model)。

本文以多因素模型在股票交易中的利用为背景，帮忙客户针对 Logistic 选股模型的实践根底以及模型原理方面剖析 Logistic 选股模型的可行性与稳定性。为保障模型的牢靠和稳固，应用过来五年的历史数据来检测模型。

联合以上多因素模型与 Logistic 回归剖析的常识能够失去基于 Logistic 选股模型。这里采纳沪深 300 指数作为基准，将沪深 300 中的个股作为钻研对象，钻研其收益率超过沪深 300 股指收益率的概率。

这里 Logistic 选股模型钻研的窗口期抉择为一个月，在当月的最初一个交易日以股票或指数投资组合的收盘价买入股票或指数资产组合，在次月的最初一个交易日以股票或指数投资组合的收盘价卖出股票或指数资产组合。

这样将即能够应用 Logistic 回归剖析联合历史数据对组合中每支股票进行回归剖析。利用回归剖析后果预测每只股票下个月收益率大于指数投资组合收益率的概率，这时咱们选取预测中收益率大于基准收益率概率排名前 40 支股票，等权重组合，在当月的最初一个交易日以收盘价买入，在次月的最初一个交易日以收盘价卖出。如此即为 Logistic 选股模型的交易策略。

# 读取数据

file=list.files(".",pattern=".Rdata")

 

for(i in file)load(i)

#计算对数收益率
data$return2=c(0,( log((data$CLOSE.y[-1])/data$CLOSE.y[-nrow(data)])))

合并因子数据和收益率数据

通过对模型的测验失去以下后果：

逻辑回归收益的直方图能够看到大部分收益散布在大于 0 的区域

图中显示了依据模型所选股票在当期的收益率散布。从图中能够看出大部分股票收益率散布在 0% 至 -10% 之间，将近半数的股票在其交易当期内具备小额负收益。

这个图横轴代表工夫。纵轴代表应用逻辑回归模型后果在不同工夫点的收益

这个图横轴代表工夫。纵轴代表应用逻辑回归模型后果在不同工夫点的收益率：

通过图中对利用 Logistic 选股模型选出的组合的收益率和基准收益率的比照能够看出看出通过 Logistic 选股模型选出的组合具备一个较安稳的收益率，而且在绝大数的工夫内收益率超过了基准收益。由此能够看出 Logistic 选股模型具备肯定的稳定性和有效性，在绝大多数的状况下能够选出收益率高于基准收益的组合。

Deviance Residuals: 
     Min        1Q    Median        3Q       Max  
-0.86049  -0.32622  -0.05835  -0.00147   2.24675  

Coefficients:
                      Estimate Std. Error z value Pr(>|z|)
(Intercept)          7.199e+00  9.101e+00   0.791    0.429
SHARE_TOTALTRADABLE -9.482e-10  1.934e-09  -0.490    0.624
MKT_CAP             -4.653e-11  5.952e-11  -0.782    0.434
MV                  -1.687e+00  2.033e+00  -0.830    0.407
pe                  -9.811e-02  1.128e-01  -0.870    0.384

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 16.081  on 41  degrees of freedom
Residual deviance: 11.560  on 37  degrees of freedom
  (1 observation deleted due to missingness)
AIC: 21.56

构建了 Logistic 选股模型，并利用历史数据经行回测，验证模型的有效性，并依据试验数据失去后果证实 Logistic 选股模型能够在大部分状况下为投资者选出一个收益率可能超过基准收益的投资组合。然而本文的钻研也可能存在以下问题和破绽：

本文选取了过来 5 年的历史数据，其中会有较多的数据缺失，数据缺失较多的股票不会计入模型，可能会造成后果的偏差。
对于局部股票具备数据缺失，在经行 Logistic 回归剖析的时候会造成回归后果的不精确，从而影响最终后果。
本文中只是选取前 3 年的数据经行 Logistic 回归剖析，在计算更近期间的收益时，并没有退出之后新的因子数据经行计算，可能造成剖析的不精确。
本文只是解析了 Logistic 选股模型的原理并构建模型加以验证，其中没有对因子的选取进行验证，不能保障所有的因子都具备极大的相关性，其中也可能会有局部因子导致后果的偏差。
在试验中所用到的数据可能因为事实中信息披露的可靠性、稳定性、时效性等问题导致试验后果不是齐全的牢靠。
本文中疏忽了如果应用 Logistic 选股模型经行交易对市场的影响。
本文采纳的是以季度公布的数据，试验中不能对季度中因子变动导致的影响作出剖析。

[1]：黄志文. Logistic 选股模型及其在沪深 300 中的实证[R]. 国信证券，2010.

[2]：黄志文. 传统多因素模型及其在沪深 300 中的实证[R]. 国信证券，2010.

[3]：滋维·博迪. 投资学[M]. 第九版. 机械工业出版社，2012；127-172.

最受欢迎的见解

1.[](http://tecdat.cn/r%e8%af%ad%e8%a8%80%e7%bb%98%e5%88%b6%e7%94%…) R 语言对 S&P500 股票指数进行 ARIMA + GARCH 交易策略

2.[](http://tecdat.cn/r%e8%af%ad%e8%a8%80%e7%94%9f%e5%ad%98%e5%88%…) R 语言改良的股票配对交易策略剖析 SPY—TLT 组合和中国股市投资组合

3.[](http://tecdat.cn/r%e8%af%ad%e8%a8%80%e5%a6%82%e4%bd%95%e5%9c%…) R 语言工夫序列：ARIMA GARCH 模型的交易策略在外汇市场预测利用

4.[](http://tecdat.cn/r%e8%af%ad%e8%a8%80%e4%b8%ad%e4%bd%bf%e7%94%…)TMA 三均线期指高频交易策略的 R 语言实现

5.[](http://tecdat.cn/r%e8%af%ad%e8%a8%80%e7%94%9f%e5%ad%98%e5%88%…) r 语言多均线量化策略回测比拟

6.[](http://tecdat.cn/r%e8%af%ad%e8%a8%80ggplot2%e8%af%af%e5%b7%ae…)用 R 语言实现神经网络预测股票实例

7.[](http://tecdat.cn/r-%e8%af%ad%e8%a8%80%e7%bb%98%e5%88%b6%e5%8a…)r 语言预测稳定率的实现：ARCH 模型与 HAR-RV 模型

8.[](http://tecdat.cn/r%e8%af%ad%e8%a8%80%e5%a6%82%e4%bd%95%e6%89%…)R 语言如何做马尔科夫转换模型 markov switching model

9.matlab 应用 Copula 仿真优化市场危险

关于数据挖掘:R语言逻辑回归Logistic选股因素模型交易策略及沪深300指数实证

全文链接：http://tecdat.cn/?p=32071

原文出处：拓端数据部落公众号

因素模型

钻研思路

Logistic 模型在股票交易中的选股策略

实证后果剖析

逻辑回归收益散布

累计收益

组合累积和基准累积

组合和基准每月的收益率的比照图

逻辑回归模型后果

总结

参考文献