关于数据库:焱融全闪存储轻松构建百亿私募量化投研平台

9次阅读

共计 4134 个字符,预计需要花费 11 分钟才能阅读完成。

量化业务背景

量化金融指依靠金融大数据、金融科技和智能金融的技术停顿,通过数量化形式及计算机程序收回交易指令,以获取稳固收益为目标的金融投资形式,在海内的倒退已有几十年的历史,其投资业绩稳固,市场规模和份额不断扩大、失去了越来越多投资者认可。量化投资技术简直笼罩了投资的全过程,包含量化选股、量化择时、股指期货套利、商品期货套利、统计套利、算法交易,资产配置,危险管制等。


量化的钻研方向和劣势

“AI+”量化投资模式将成为人工智能利用于量化投资中的次要倒退方向。国内量化在 2018 年之前,还是以量价数据 + 人工开掘的形式为主。在 2018 年之后,市场逐步进入 AI 算法的时代,不论从因子开掘、组合治理,还是危险优化等方面,进一步晋升了整个量化投资的收益。到 2019 年之后,整个量化行业的规模快速增长,这是推动整个行业倒退十分重要的能源。到 2020 年,量化行业曾经到了大数据 +AI 算法的阶段。整体来看,在量化行业冲破 8000 亿的市场规模,大数据 +AI 算法在将来的发展趋势势不可挡,不论是从数据的规模还是对于神经网络的利用,随着 AI+ 大数据的倒退,亦是将来量化行业的次要增长起源。


量化数据特点

在理解量化数据特点之前,咱们先看下量化数据都有哪些类别,一是市场的量价数据:交易所量价数据、交易量、成交量、价格、日内订单等;二是基本面数据:上市公司公告几千万条记录、公司财报数据数千万份、各大券商剖析报告等;三是另类数据:个股新闻、商品数据、宏观数据、产业数据、个股指标、物流数据、供应链数据、电商数据等。这些数据具备以下特点:

  • 根底量化数据量规模大
  • 数据类型多,CSV,TXT,EXCEL,HDF file,DataBase
  • 信噪比低,烦扰数据多
  • 衍生数据简单,提取艰难

    量化的业务流程

第一步:数据筹备,划分训练集、测试集
首先咱们应明确咱们构建何种 AI 量化策略,如 A 股、港股还是期货等,确定数据后,接着咱们把历史数据按工夫程序切分为两局部。第一局部的数据用来训练模型,第二局部的数据用来验证模型成果。

第二步:选定指标:数据标注
其次咱们要明确咱们模型的训练指标,是预测股票收益率高下还是稳定率高下。

AI 量化策略的指标(Label):人为定义的模型预测指标,例如将来 N 日收益率、将来 N 日稳定率、将来 N 日的收益率排序等统计量, 平台 AI 量化策略默认应用股票收益率作为指标。

AI 量化策略的标注:计算训练集数据所在工夫阶段的每日目标值,比方按每日的将来 N 日收益率高下来定义股票的走势好坏等级,计算出每只股票将来 N 日收益率的好坏等级并标记在每只股票上。

第三步:特色数据、找因子
抉择构建可能影响指标的特色(量化策略中可称为因子),如模板策略中的 return_5 (5 日收益)、return_10 (10 日收益)等。

AI 量化策略的特色(features):反映事物在某方面的体现或性质的事项,在 AI 量化策略中,特色能够是换手率、市盈率、KDJ 技术指标等。

第四步:数据连贯 + 缺失数据处理
将上述每只股票的标注数据与特色数据链接,以便下一步模型的学习与应用。

第五步:模型训练 + 股票预测
咱们通过“好坏等级”对股票进行标注,贴上标签,连同其所对应的特征值一起来构建训练模型,通过演绎总结找到属性之间的关联,总结分类教训;

用验证集数据来测验训练后面构建好的模型,即测验模型依据验证集的特色数据预测出的目标值(股票走势好坏等级)是否精确。

第六步:回测验证
将验证集的预测后果放入历史实在数据中检测,应用历史数据验证后面模型训练和策略的验证的好坏和后果。

量化总体阶段业务特点


量化交易依靠“AI + 机器学习”成为行业支流

机器学习作为人工智能的外围,其传统算法在解决很多问题上都体现出了高效性。随着近些年数据处理技术上的提高和计算能力的晋升,深度学习在很多问题上利用十分深,在量化投资畛域,机器学习尤其是由统计学延长的各种算法始终以来都被尝试利用在选股、择时等策略的开发上,随着深度学习在其余畛域上的冲破,其在自动化交易甚至投资策略的自开发自学习方面的利用成为了各大私募机构和金融寡头摸索的焦点。

通过机器学习和深度学习算法,帮忙疾速、精确地剖析海量数据,并发现其中的法则和趋势。目前,深度学习最胜利的场景利用是在模式识别上,即利用已知数据,对具备肯定空间、工夫散布信息的数据与类别标号之间的映射做一个较好的预计。深度学习能够体现得比传统机器学习算法更好,次要有以下 3 点起因:

  1. 深度学习的主动提取特色比传统机器学习的人为提取特色过程更加高效。特定的利用场景中,只须要微调构造,如神经元的激活函数,就能够失去较好的成果。
  2. 深度学习能够通过简单的构造和多重非线性解决层更好地捕获各类非线性关系。
  3. 深度学习随着数据量的减少模型成果会一直地改善,这也是以后深度学习有逐步取代传统机器学习模型趋势的最大起因。

    AI+ 机器学习算法在量化的利用场景


基于上述量化场景剖析 得出如下存储要求

通过剖析量化业务流程特点以及基于以 AI 和机器学习为根底的量化训练业务,每个步骤都会以不同形式给存储系统带来挑战。模型训练环节中,面临海量训练数据集的解决以及疾速 I/O 响应的挑战;推理环节中,存储系统须要具备以最小提早实时处理数据。深度学习算法的性质意味着它们会应用大量矩阵数学,这非常适合在 GPU 上执行,大量的 GPU 并行运算工作负载的复杂性加上深度学习训练所需的数据量,这带来极具挑战性的性能环境,深度学习存储系统设计必须在各种数据类型和深度学习模型中提供平衡的性能能力满足量化中模型训练的场景,具体为以下几点:

  • 简单宏大的训练数据集和神经网络的算力需要,单纯依赖内存缓存的计划曾经无奈满足业务的增长和疾速迭代倒退需要;
  • 低延时 + 海量数据 +AI 算力撑持对存储提出更高规格的要求,比方:数据量的变动、性能的要求、模型疾速迭代的速度。在当今 CPU、GPU 解决能力疾速晋升的背景下,数据存储读写的性能往往很容易成为整个处理过程中的性能瓶颈。
  • 因为量化投研采纳神经网络和深度学习的技术,数据规模投入越大,模型精度就越高。大量的模型开发和训练的计算能力对于底层数据吞吐和 IOPS 提出了更高的挑战;
  • 带宽和吞吐量,能够疾速向计算硬件提供大量数据。无论数据个性如何,IOPS 都能维持高吞吐量; 以最小的提早提供数据,因为与虚拟内存分页一样,当 GPU 期待新数据时,训练算法的性能会显著升高。

某创新型私募基金机构是国内当先的、业务全面的量化对冲基金,基于先进的高频交易构架,以及欠缺的资产管理系统,其业务线在国内期货、股票、期权等支流市场具备顶尖的盈利能力。

焱融科技在深度分析百亿私募客户量化业务场景,发现其 IT 基础架构面临以下问题:

  • 传统阵列烟囱式的架构 + 本地盘 + 单机训练模式无奈撑持目前量化业务的需要;
  • 基于目前应用的服务器内存和服务器本地盘的存储解决方案,不合乎将来数据增长和业务增长的布局;
  • 基于机器学习的量化业务,其数据量出现猛增趋势,高性能存储横向扩大需要日渐突出;
  • 量化训练模型对于多机多卡和更高算力的业务需要越加明确,对存储的性能要求越高;
  • 量化训练业务容器化,反对无缝对接容器平台提供可长久化的容器存储;海量小文件的量化业务场景,要求采纳最新技术如“NVIDIA GPUDirect Storage(GDS)”,缩短显卡到存储的间隔,大大晋升业务的性能和效率。

极致性能晋升 冲破数据量限度
焱融全闪文件存储大显神通

计划拓扑图

在本我的项目的 IT 基础设施建设中,通过采纳焱融全闪分布式文件存储产品达成了对海量数据撑持、存储性能以及建设老本三者都可兼顾的解决方案。焱融全闪 F8000X 采纳全 NVMe SSD、InfiniBand 等高速网络,反对 RDMA、多网卡聚合技术,以极致性能充沛开释计算后劲。联合 InfiniBand 技术和追光 F8000X 针对海量小文件高并发拜访等方面的优化设计,取得了超高性能体现。同时,通过 YRCloudFile 分布式存储架构、数据智能加载和分层性能,针对异构存储并存的利用场景,灵便高效地驱动数据在不同存储平台流动,不便用户组织数据集进行计算剖析;应用 F8000X 将数据依照生命周期管理策略分层到本地低速存储或者云端,对业务端提供对立命名空间,升高应用复杂度,晋升了数据存储应用的经济性。焱融 YRCloudFile 高性能并行文件存储在量化交易场景大显神通,解决客户因为机器内存容量限度所导致的业务扩大和海量训练数据的性能瓶颈问题;

分布式架构,弹性扩大能力

焱融追光 F8000X 采纳分布式架构,数据及元数据节点可按需扩大,达到容量与性能均线性增长的能力。反对 NVIDIA GPUDirect Storage(GDS)性能,实现以间接内存的存取形式将数据传输至 GPU,显著升高 I/O 提早,晋升数据带宽,充沛开释 GPU 算力,将性能施展到极致,轻松应答量化交易场景下的数据问题。

深度 IO 模型优化
焱融追光 F8000X 采纳异步非阻塞 IO 模式,无效缩小上下文切换,全门路实现了零拷贝,反对批量提交和回收,减少了并行能力。高效调配处理器外围资源,撑持网络层面高并发的数据收发解决的同时,防止大量线程的调度开销,充分发挥 NVMe SSD 磁盘性能。

海量数据反对
全对称、可扩大的元数据集群架构,在面对数十亿文件时,客户端对元数据的操作性能及读写性能依然放弃继续稳固。

兼容高性能网络,反对最高 400Gb 的 IB 网络
YRCloudFile 可兼容高性能网络,可能反对最高 400Gb 的 IB 网络,为机器学习和神经网络学习提供超高的带宽能力;集群内单存储节点性能可达 200 万 IOPS 性能,40GB/s 带宽;

容器长久化存储
焱融追光 F8000X 全闪文件存储反对 CSI 对接 Kubernetes 集群,提供高效、牢靠的容器长久化存储服务,同时反对多种容器个性,使得容器平台应用、监控、治理存储资源变得更加的灵便高效。

数据权限治理的反对
焱融全闪文件存储具备欠缺的权限治理和数据隔离性能,撑持量化非凡业务场景对于数据和研究成果的爱护和应用;

焱融全闪存储解决方案提供极致的性能输入

在量化行业数据存储痛点中,焱融高性能文件存储打造高质量的牢靠存储底座,解决量化数据处理流程中不同环节带来的存储难题,实现残缺的数据对立治理、场景多样化等一站式存储管理平台。

正文完
 0