关于数据挖掘:视频量化交易陷阱和R语言改进股票配对交易策略分析中国股市投资组合

计算能力的指数级增长，以及量化社区（日益增长的趣味使量化基金成为投资者一拥而上的最热门畛域。

量化交易 涵盖了相当宽泛的 交易策略 （从大数据分析到高频交易）。出于本文的目标，咱们将重点关注 量化剖析 和数据迷信，因为它们被不同类型的交易者宽泛应用。

依据咱们在量化交易方面的教训，在构建量化交易策略时有几个次要陷阱：

理解统计 / 概率。
模型实现。
策略回测 / 模仿。
风险管理。

统计分析是数据迷信和量化交易的根底。当咱们剖析数据（尤其是工夫序列）时，如果咱们对统计 / 概率（和统计概念）没有很好的了解，咱们很容易陷入各种陷阱。

到目前为止，正态分布的假如是咱们在金融资产动静建模方面所能做出的最弱假如。对于金融资产工夫序列的正态性假如曾经发表了许多论文，然而，因为不足更好的抉择，咱们应用高斯（正态）散布，因为它使咱们可能很容易地剖析数据。晓得“正态性”的假如是弱的，咱们应该以同样的形式看待正态分布的性质（即偏斜收益、肥尾）。假如收益的散布将落在钟形曲线之下，当收益呈现 3+ 个标准差时，通常会导致微小的意外。

正如咱们所了解的，“正态性”有时可能是一个弱假如，咱们能够应用已实现的散布（采纳不同的工夫框架）并查看它如何合乎正态分布，因而咱们能够评估资产的回报散布有多失常.

如果说大多数量化分析师和交易员喜爱一件事，那就是“相关性”。相关性可能是统计学中应用最多但最容易被误会的概念。咱们大多数人应用的相关系数是“Pearson Correlation”（以 Karl Pearson 命名）。相关性，简而言之，形容了两个变量（X，Y）之间的线性关系。相关性在（-1，负线性关系）和（+1，正线性关系）之间振荡。

首先，咱们须要理解什么不是相关性。它不是预测变量（即，它不示意因果关系，而是线性关系）。当咱们应用相干函数时，咱们须要确保咱们不会犯以下谬误：

剖析价格而不是收益（对数收益或理论收益）——当咱们解决工夫序列时，咱们通常解决资产价格。资产价格实质上是“非安稳的”。“非安稳”过程基本上意味着资产出现趋势（或非均值回归过程）。如果咱们以黄金现货价格与 10 年国债理论收益率为例，咱们能够分明地看到应用非安稳数据的成果。这是黄金 / 收益率价格的回归模型拟合后果：

黄金 / 10 年期理论收益率价格回归。R²=0.81 , R=-0.9

然而，这就是价格变动收益率的回归拟合后果（即安稳工夫序列）的样子

黄金 (Log Rtn)/10 年理论收益率（价格变动）。R²=0.18, R=-0.43

2.没有过多思考样本量 / 频率——当咱们剖析相关性时，就像咱们剖析稳定率时一样，咱们须要对咱们的 样本量 / 频率 给予很多思考。大小和频率都对咱们的相关性预计有很大影响。如果咱们 应用的频率 太短，咱们可能会将短期行为与继续相关性混同。这个问题的另一面是应用的 样本量 太长（假如咱们想要交易短期策略时的 1 年相关性）。如果咱们查看上面的相关矩阵热图，咱们能够分明地看到应用 20 天窗口和 180 天窗口之间的区别

解决样本大小问题的一个好办法是对不同大小和不同期间（非重叠期间）进行采样，以测试相关性持久性。

3.假如长期相关性继续存在——相关性剖析的次要缺点之一是认为 长期相关性 不会生效。这种假如通常在 金融压力和市场低迷 期间被摈弃，因为相关性往往会破裂并走向极其。如果咱们看看 2020 年 3 月，咱们能够分明地看到相关性的巨大变化

Z 分数 (%ile) 和均值回归

作为交易者，咱们心愿以良好的危险回报进入交易。咱们用来确定危险回报的一种办法是应用 Z 分数。简而言之，Z-score 是一种掂量咱们察看与散布均值的间隔（以标准差计）的办法（该分数也能够很容易地转换为 %ile 项）。显然，作为交易者，咱们的指标是寻找极其事件，因为它们提供了最好的危险回报（因为咱们假如某种回归 / 趋同于均值）。Z-score 的辣手之处在于，与统计中的其余所有内容一样，它高度依赖于咱们的样本量和频率。应用 z 分数作为信号的陷阱的一个很好的例子是 2020 年 3 月 /4 月黄金期货场外交易根底上的走势。

所以咱们看到应用 z 分数是工夫序列极其性的一个很好的指标，但它不能是惟一的指标。

解决这个陷阱的一个很好的办法是将咱们以后的察看后果与历史上不同的回顾窗口（期间）进行比拟，以解释不同的市场制度。

在咱们理解了统计分析中可能存在的陷阱之后，咱们转向交易的外围——咱们的模型。尽管在施行咱们的模型 / 策略时有很多办法可能会失败，但咱们将专一于咱们可能犯的最常见（也是最要害）的谬误。防止这些陷阱将大大有助于确保咱们模型的适应性和稳健性。

模型拟合既是一门艺术，也是一门迷信。在拟合咱们的模型时，咱们须要在 模型过拟合和模型欠拟合 之间找到一条细线。这两种偏差最有可能导致咱们模型的性能不佳。

_过拟合——_当咱们的模型在捕获动静时十分准确时会导致过拟合。通常过拟合模型会波及到绝对大量的解释变量。

_欠_拟合 - 欠拟合是过拟合的镜像问题。当模型太简略（变量太少）时会导致欠拟合，这使得它在捕获动静时不灵便。

USDJPY 1 周 RVol 与 UDSJPY 1 个月 RVol 回归。

在拟合模型时，咱们的指标是应用起码的变量，但具备最大的预测能力。其背地的想法是，咱们心愿将模型校准到最低限度，同时领有一个可能产生持重后果的模型。咱们增加的变量越多，咱们须要进行的校准就越多，它可能疾速应答一直变动的市场的能力就越差。

异样值解决

无论咱们喜爱与否，异样值察看都是咱们数据系列的一部分。咱们不能疏忽这些异样值，然而，咱们须要晓得如何解决它们，这样咱们的模型才不会因极其察看而呈现偏差。显然，咱们须要辨别异样值的类型——如果咱们发现察看显著是谬误的（数据谬误），咱们能够删除它，然而，如果它是无效的察看，咱们应该承受它并让咱们的模型解决它。

当初咱们曾经有了一个基于持重统计 / 数据分析的健全模型，咱们心愿对历史（或生成的）数据进行回测（或模仿）。这是咱们模型开发的要害局部，因为这是咱们能够看到（和剖析）咱们的模型在受控环境中如何体现的要害。只管在这个阶段犯错误的办法更少（与之前的阶段相比），但这些谬误可能会付出昂扬的代价，因为咱们将无奈发现模型的弱点（或问题）。

测试不同的市场区制状态

当咱们构建模型时，咱们心愿它在 100% 的工夫内体现良好。可怜的是，这简直是不可能的，因为不同的策略将在不同的市场区制中体现良好（想想稳定市场中的趋势跟踪策略）。咱们能够确定模型体现不佳的点。为了让咱们辨认这些弱点，咱们应该在不同的市场区制下测试咱们的策略（区制转换模型是辨认这些区制的好办法）

关于数据挖掘:视频量化交易陷阱和R语言改进股票配对交易策略分析中国股市投资组合

全文链接：http://tecdat.cn/?p=22034

原文出处：拓端数据部落公众号

了解统计和概率

正态分布

相关性

模型实现

过拟合 / 欠拟合

模型模拟