关于弹性伸缩:聚焦弹性问题杭州铭师堂的-Serverless-之路

得益于互联网的倒退,常识的流传有了新的载体,应用在线学习平台的学生规模逐年增长,越来越多学生在线上获取和应用学习资源,其中教育科技企业是比拟独特的存在,他们担当的不仅仅是教育者的角色,更是让新技术的创新者和实践者。作为一家在线教育高科技企业,杭州铭师堂成立十余年来统一致力于用“互联网+教育”的科技伎俩让更多的学生能享有优质的教育,促成他们的全面成长,在一直汇聚优质的全国各地教育资源的同时,杭州铭师堂深度聚焦教学效率的晋升,深耕先进技术,促成其在学校教育智能化畛域、个性化学习畛域广泛应用。 目前网上教学需要的常态化,老师在线审阅作业需求量急剧增大,为了加重老师的审批工作量,晋升教学效率,杭州铭师堂教育基于 Serverless 创造性的开发了学习笔记评优零碎, 晋升弹性效率,并大幅度降低老本。 残缺内容请点击下方链接查看: https://developer.aliyun.com/article/1189924 版权申明:本文内容由阿里云实名注册用户自发奉献,版权归原作者所有,阿里云开发者社区不领有其著作权,亦不承当相应法律责任。具体规定请查看《阿里云开发者社区用户服务协定》和《阿里云开发者社区知识产权爱护指引》。如果您发现本社区中有涉嫌剽窃的内容,填写侵权投诉表单进行举报,一经查实,本社区将立即删除涉嫌侵权内容。

April 23, 2023 · 1 min · jiezi

关于弹性伸缩:从资源弹性到数据弹性乾象如何将云上量化研究效率提升-40

机器学习、云计算、云原生等技术的提高给金融行业翻新注入了新的能源,以乾象投资 Metabit Trading 为代表的以人工智能为外围的科技型量化投资公司的工作就十分有代表性。他们通过深度交融和改良机器学习算法,并将其利用于信噪比极低的金融数据中,为投资人发明长期可继续的回报。 与传统的量化剖析不同,机器学习不仅关注股价、交易量和历史回报率等结构化数据,还注入来自研报、财报、新闻和社交媒体等非结构化数据来深刻理解证券价格走势和波动性。然而,将机器学习利用于量化钻研是具备挑战性的,因为原始数据可能蕴含噪声。此外,他们还须要应答许多挑战,如突发工作、高并发数据拜访和计算资源限度等。 为此,乾象投资在研发投入、翻新反对和根底平台建设方面继续发力。他们的钻研基础设施团队构建了一个高效、平安、规模化的工具链研发流程,通过正当利用云计算和开源技术冲破了单机研发的限度。本文将分享乾象量化钻研根底平台的具体实际,介绍基于 Fluid+JuiceFSRuntime 的公共云弹性量化投研工作撑持。 01 量化钻研的工作详解作为 AI-powered hedge fund,通过 AI 模型训练进行策略钻研是咱们最次要的钻研形式。首先,在模型训练之前须要对原始数据做特征提取。金融数据的信噪比特地低,如果间接应用原始的数据进行训练,失去的模型乐音会十分大。原始数据除了行情数据,即大家常常会看到的市场上的股价、交易量之类的数据,也包含一些非量价的数据,比方研报、财报、新闻、社交媒体等之类的非结构化数据,钻研人员会通过一系列的变换提取出特色,再进行 AI 模型训练。能够参考上面咱们钻研场景中和机器学习关联最严密的策略钻研模式的简化示意图。 模型训练会产出模型以及信号。信号是对将来价格趋势的判断,信号的强度意味着策略导向性的强度。量化研究员会依据这些信息去优化投资组合,从而造成交易的实时仓位。这个过程中会思考横向维度(股票)的信息来进行危险管制,例如某一行业的股票不要适度持仓。当仓位策略造成之后,量化研究员会去模仿下单,而后失去实时仓位对应的盈亏信息,从而理解到这个策略的收益体现,这就是一个量化钻研的残缺流程。 02 量化钻研根底平台的需要第一,突发工作多,弹性要求高。在策略钻研的过程中,量化研究员会产生策略想法,并会通过试验去验证本人的想法。随同着钻研人员新想法的呈现,计算平台就会产生大量的突发工作,因而咱们对计算的弹性伸缩能力要求很高。 上图是咱们某个集群一段时间的运行实例数据。以上图为例,能够看到在多个时间段里,整个集群实例数顶峰时刻能够达到上千个,然而同时整个计算集群的规模也会有缩容到 0 时候。量化机构的计算工作和研究员的研发进度是有很大关联的,波峰波谷的差距会十分大,这也是离线钻研工作的特点。 第二,热数据高并发拜访,除了计算须要弹性,数据缓存也须要弹性。对于热数据,比方行情数据,通常会有上百个工作同时拜访数据,它的吞吐要求十分高,峰值时数百 Gbps 甚至 Tbps 级别的聚合带宽能力满足需要。然而当计算集群中没有任何节点的时候,此时的吞吐需要为 0,如果是刚性吞吐这就须要弹性吞吐扩缩容的能力。 第三,容量和吞吐的独立线性扩大能力,对金融模型训练十分重要。传统分布式存储带宽与吞吐仅和数据应用容量成正比,而量化钻研过程中会创立大量的容器并发拜访存储系统的数据,会触发存储系统拜访限流。这就造成计算资源极致弹性与存储系统无限带宽之间的矛盾。而量化钻研的数据量其实不是特地大,很多市场的量价数据总量也不会超过 TB 级,然而数据拜访须要的峰值吞吐却十分高。 第四,数据亲和性调度,同一数据源屡次运行拜访本地缓存能够被复用。充分发挥热点数据集的缓存节点劣势,在对用户无感知的前提下,智能的将任务调度到数据缓存节点上。让罕用的模型训练程序越来越快。 第五,IP爱护:数据共享与数据隔离。出于 IP 爱护的需要,不仅在计算工作上须要做隔离,在数据上也是须要具备权限管制的隔离能力;同时对行情数据这类绝对公开的数据,还须要反对研究员的获取形式是便捷的。 第六,缓存两头后果。计算工作模块化的场景会对两头后果的存储跟传输也有需要。举个简略的例子,在特色计算过程中会生成比拟大量的特色数据,这些数据会立即用于接下来大规模高并发的训练节点上。不言而喻在这种场景下咱们须要一个高吞吐和高稳固的两头缓存做数据传递。第七,多文件系统的反对。计算工作中各类型的工作会对应的各种个性的数据类型和应用形式,因此咱们不同团队会采纳不同的文件系统包含 OSS,CPFS,NAS,JuiceFS,以获取在各自状况下的性能最优化。Fluid 的不同 runtime 可能灵便的反对文件系统与工作的组合,使得工作计算可能在 K8s 上更高效正当的利用对应资源防止不必要的节约。 03 Fluid+JuiceFSRuntime:为云上量化钻研根底平台提供高效撑持出于 POSIX 兼容,老本,高吞吐的思考,咱们抉择了 JuiceFS 云服务作为分布式底层存储。抉择了 JuiceFS,发现现有 Kubernetes 的 CSI 体系并不能很好地反对咱们对数据拜访性能、弹性吞吐能力以及数据共享隔离的需要,具体来看: 1.传统的 Persistent Volume Claim 是面向通用存储的形象,不足对同一个存储简单数据拜访模式协同良好的反对:在不同的利用场景下,利用对同一存储中不同文件的应用形式不同,比方咱们少数并发计算工作要求只读;然而也有 Pipeline 数据直达,数据特色生成之后,须要直达到模型训练中,此时就要求读写;这导致了很难在同一个 PVC 中对立设置元数据更新和缓存策略。实际上,这些策略应该齐全取决于利用应用数据的模式。 2.数据隔离与共享:不同数据科学家团队拜访不同的数据集须要人造隔离,并且要求比拟容易治理;同时反对公共数据集访问共享,特地是缓存数据共享,因为行情数据这类绝对公开的数据,不同的研究员团队会重复应用,心愿取得“一次预热、全公司收益”的成果。 3.数据缓存感知的 Kubernetes 调度:雷同模型、雷同输出、不同的超参的作业以及微调模型、雷同输出的作业都会一直反复拜访同一数据,产生能够复用的数据缓存。然而原生的 Kubernetes 调度器无奈感知缓存,导致利用调度的后果不佳、缓存无奈重用,性能得不到晋升。 ...

March 6, 2023 · 3 min · jiezi