有网友发问应该用什么样的数据库/数据结构/算法来计算某支股票的类似K线? 具体的问题形容是,假如给出某股某段行情K线(单位/日),从任何其余股票历史中匹配出与之最为类似的某段历史K线,并给出类似度值(单位/%),并以此排序,获取最为类似的N个后果。

咱们能够应用k线的间隔以及股票日回报的相关性来掂量k线类似度,应用Tushare提供的沪深股票2008年到2017年的日线行情数据来做试验。如何把Tushare数据导入到 DolphinDB database 能够参考教程如何应用DolphinDB解决Tushare金融数据。

Tushare提供的沪深股票日线行情数据蕴含以下字段:

名称            形容ts_code            股票代码trade_date    交易日期open            开盘价high            最高价low            最低价close            收盘价pre_close    昨收价change            涨跌额pct_change    涨跌幅vol            成交量(手)amount            成交额(千元)

上面将以漫步者(股票代码为002351.SZ)为例,介绍如何在历史数据中,找出与漫步者2016年9月1日到2016年9月30日最为类似的10段历史k线。

首先,把漫步者2016年9月1日到2016年9月30日的日线行情数据加载到内存。

code="002351.SZ"//漫步者edifier=select * from loadTable("dfs://daily_line","hushen_daily_line") where ts_code=code,date(trade_date) between 2016.09.01:2016.09.30

把股票数据加载到内存中。

num=exec count(*) from edifierstock=select * from loadTable("dfs://daily_line","hushen_daily_line")

1.应用k线的间隔掂量类似度

两段k线之间的间隔能够用股票日回报的差的平方和来计算。间隔越小示意k线的类似度越高。

def square_sum(x,y):sum2(x-y)corrTable1=select ts_code,move(date(trade_date),num-1)as beginDate,date(trade_date) as endDate,moving(square_sum{edifier.pct_change},pct_change,num) as distance from stock context by ts_code

下面代码应用的moving是DolphinDB的模板函数,示意在大小为num,边界为beginDate和endDate的滚动窗口中计算两段k线之间的间隔。square_sum{edifier.pct_change}是DolphinDB中的局部利用,用于固定函数的局部参数。

找出与漫步者2016年9月1日到2016年9月30日最为类似的10段历史k线。

mostCorrelated1=select * from corrTable1 where isValid(distance),rank(distance,true) between 0:10 order by distancets_code            beginDate    endDate            distance300073.SZ    2016.08.02    2016.08.29    67.024600995.SH    2017.07.06    2017.08.02    70.8713600549.SH    2010.12.17    2011.01.14    73.514600627.SH    2008.07.07    2008.08.07    73.59600367.SH    2010.12.17    2011.01.14    76.447600867.SH    2011.07.28    2011.08.24    76.5449002253.SZ    2010.05.21    2010.06.22    79.2845002382.SZ    2015.01.06    2015.02.02    79.5101300266.SZ    2014.07.07    2014.09.17    80.1772600706.SH    2017.06.05    2017.07.14    80.5079

定义一个函数getReturn,取出类似股票在beginDate和endDate之间的日回报。

def getReturn(t, row): exec pct_change/100 from t where ts_code= row.ts_code, date(trade_date) between row.beginDate : row.endDate

把每只类似股票的日回报数据保留到同一个回报矩阵中,每列示意一只股票在相应时间段中的日回报,并应用图表展现。

retMatrix1 = each(getReturn{stock}, mostCorrelated1).rename!(mostCorrelated1.ts_code)plot(retMatrix1,,"应用最短k线间隔找出类似历史k线") 

下面的代码通过each模板函数取出最类似的10只股票的日回报,并以股票代码来命名每一列。

应用最短k线间隔计算出来的股票蕴含当升科技(30073.SZ)、文山电力(600995.SH)、厦门钨业(600549.SH)、上电股份(600627.SH)、红星倒退(600367.SH)、通化东宝(600867.SH)、川大智胜(002253.SZ)、蓝帆医疗(002382.SZ)、兴源环境(300266.SZ)和曲江文旅(600706.SH)。

2.应用股票日回报相关性掂量类似度

股票日回报的相关性是掂量k线类似度很好的指标。

corrTable2=select ts_code,move(date(trade_date),num-1)as beginDate,date(trade_date) as endDate,moving(corr{edifier.pct_change},pct_change,num) as corr from stock context by ts_code

找出与漫步者2016年9月1日到2016年9月30日最为类似的10段历史k线。

mostCorrelated2=select * from corrTable2 where rank(corr,false) between 0:10 order by corr descts_code            beginDate    endDate            corr600367.SH    2010.12.17    2011.01.14    0.8824600549.SH    2010.12.17    2011.01.14    0.8806300073.SZ    2016.08.02    2016.08.29    0.8749002294.SZ    2014.02.26    2014.03.25    0.8729600995.SH    2017.07.06    2017.08.02    0.8723600486.SH    2010.12.17    2011.01.14    0.8721002382.SZ    2015.01.06    2015.02.02    0.8718002253.SZ    2010.05.21    2010.06.22    0.8708000939.SZ    2008.03.21    2008.04.18    0.8706600627.SH    2008.07.07    2008.08.07    0.8692

同样地,把类似股票的日回报数据保留到回报矩阵中。

retMatrix2 = each(getReturn{stock}, mostCorrelated2).rename!(mostCorrelated2.ts_code)plot(retMatrix,,"应用股票日回报相关性找出类似历史k线") 

应用股票日回报相关性计算出来的股票蕴含红星倒退(600367.SH)、厦门钨业(600549.SH)、当升科技(300073.SZ)、信立泰(002294.SZ)、文山电力(600995.SH)、扬农化工(600486.SH)、蓝帆医疗(002382.SZ)、川大智胜(002253.SZ)、凯迪生态(000939.SZ)和上电股份(600627.SH)。

3.性能剖析

咱们应用的是沪深股票2008年到2017年的日线行情数据,共530万的数据。应用第一种办法仅需7秒,应用第二种办法仅需3秒,性能极佳。