关于机器学习:国内首届DataOpsMLOps-meetup回顾

2022 年 3 月 12 日，由星策开源社区举办了国内首届“DataOps+MLOps Meetup”，流动采纳线下参加、腾讯会议、CSDN、51CTO 同步直播形式进行。来自第四范式 OpenMLDB 及 ApacheDophinScheduler 开源我的项目核心成员独特带来了一场精彩的技术视听盛宴。回顾视频及地址见文章开端链接。

近几年 DevOps 在国外的炽热水平日渐低落，同时涌现出了各种 Ops，包含 DevSecOps，GitOps，AIOps，NoOps，DataOps，MLOps，FeatureOps，ModelOps 等等。在这些 Ops 中 DataOps 和 MLOps 在海内市场中的热度始终居高不下，反观国内却还并未衰亡，甚至鲜为人知。

基于以上背景，星策社区召开了国内首次“DataOps+MLOps Meetup”，为了让更多工程师理解到 DataOps 和 MLOps 是什么，可能干什么，对业务的价值，以及其中的技术难点和相应比拟成熟的技术计划都有什么。接下来，将带大家独特回顾本次 meetup 的次要内容。

第四范式架构师，凋谢原子基金会 TOC 副主席谭中意，在此次 meetup 中重点介绍了本次流动的背景，DevOps、DataOps、MLOps 的概念和各类 Ops 间的异同之处。

DevOps 是将研发与运维联结起来，造成一个 DevOps 双环，以此突破团队界线，用一种更高效、更流水性的自动化形式来工作，在工程效力畛域中十分风行，同时在行业内也衍生出很多守业团队、开源我的项目以及各类 Ops。

这些我的项目的相同点都是各种 Ops 工作（Operation）的自动化，都蕴含相应的流程、工具和角色；不同点是面向不同的畛域，波及不同的角色，以及自动化的工作不同而已。外围还是为了更高效，伎俩还是自动化。以下是各类 Ops 的作用、经典工具及应用场景。其中蕴含本次 meetup 重点介绍的 DataOps 畛域的 DophinScheduler 及 MLOps 畛域的 OpenMLDB。

DataOps 是在数据分析畛域，指标是为了进步数据分析的品质并缩短周期，波及角色包含数据科学家、数据工程师，IT 工程师等，工作包含数据收集，数据 ETL，数据可视化等。

上图较好的展现了 DataOps 的全副过程，从最右边的数据注入（Data ingestion）到数据转换（Data transformation）到数据分析（Data analysis）及数据可视化（Data visualization）须要一直由 CI/CD 工程反对，当数据发生变化，能够自动化的触发这个过程。

而 MLOps，是面向的畛域是机器学习，指标是进步机器学习落地的效率，波及角色包含 AI 科学家、AI 数据工程师、IT 工程师，工作包含场景定义，数据收集和整顿，模型训练和部署，继续监控和更新等。同样用一个图来示意如下。

此图将机器学习分成四步，从定义我的项目到定义和收集加工数据再到训练迭代最初到部署和监控。每一个环节都须要一直的重复迭代。而模型、代码、数据都须要一直的去做此循环，所以 MLOps 能够看作是 CI+CD+CT+CM。

用一张表来总结 DevOps 和 DataOps 以及 MLOps 的区别。（CI：continuous Integration，继续集成；CD：Continuous Deploy，继续部署；CT：Continuous Training，继续训练；CM：Continuous Monitoring，继续监控）

Apache Software Foundation Member、ClickHouse 中国社区创始人、Apache DolphinScheduler PMC、Apache SeaTunnel(incubator) Mentor 郭炜 - 郭大侠在本次流动中重点介绍了 DataOps 畛域国内外现状、DataOps 当中的 K8S——Apache DolphinScheduler 及 DataOps 当中的数据通道——Apache SeaTunnel。

为什么现如今各种 Ops 爆发性增长？首先，整体上来看，因为中国的数字经济遍及，使得整个的产业链迅速增长。其次，中国数据量级的快速增长，一些中国的互联网公司数据量远高于国外。最初，因为数据原始积累曾经实现，这种状况下各种的数据分析使得 AI 平民化呈现。所以在数据越来越多的状况下，数据利用的场景也越来越简单的前提下，Ops 呈现了以下三大趋势：1. 数据量 & 复杂度变大 vs 用户群场景变简单、2. 国内场景丰盛 vs 海内场景专一、3. 国内开源技术化 vs 海内开源商业化。

而回到 DataOps，它的目标是使得数据处理能力“平民化”，如下图所示：右边有各种各样的简单的数据源、数据结构，左边是简单的数据利用场景。在过来是由数据科学家来解决这些数据，但随着场景的简单，使得未来不仅只有数据科学家、数据分析师、产品经理、甚至一般经营人员都须要用这些数据做各种剖析。而 DataOps 的呈现能够使得数据的解决变得“平民化”，因为它既能使得数据能实时互动，有让数据变得十分简便。所以从源数据到指标数据的过程就能够看作是 DataOps 的过程。

DataOps 赛道能够分成以下图谱，右侧是每个企业里的各种大数据平台的架构，上面是 N 个数据源，兴许是 Saas，兴许是 Kafka/Pulsar、confluent 等，再往上是各种大数据平台或者数据湖等等数据平台的汇聚，有一部分数据会通过数据流引擎如 Flink、AWS Kineses 持续流动，还有一些通过 Spark 等新型计算平台流动。再向上通过如 Presto 等 OLAP 引擎，之后是 Qlik 等展现工具，最初是科学技术平台如开掘引擎举荐引擎等等。图中所有的数据流动，即所有的箭头都是 DataOps。而寰球所有的 DataOps 能够总结到左侧，底层调度、数据同步、数据转换、数据治理数据利用平安等。

DataOps 当中的 K8S——Apache DolphinScheduler

Apache DolphinScheduler 是一个云原生的分布式易扩大并带有弱小可视化界面的大数据工作流调度零碎。自 2021 年 04 月 09 日正式成为 Apache 顶级我的项目。是首个由国人主导并奉献到 Apache 基金会的大数据工作流畛域的顶级我的项目。2021 年 12 月公布的 2.0 版本，贡献者多达 289 位，性能晋升 10 倍，SPI 以及插件化让生态退出更为简略。

同时，Apache DolphinScheduler 是一个任务调度，能够通过任务调度的状态即可查看以后哪个工作做的好，哪个呈现问题或者须要调试，只需在页面中用点击拖拽的形式即可及时发现问题进行批改调试。它高可靠性、简略易用、丰盛的应用场景以及高扩展性、云原生能力，受到如联通、奇安信、荔枝等理论案例中受到了数据平台部门、数据开发者、数据科学家们的欢送。

DataOps 当中的数据通道——Apache SeaTunnel

Apache SeaTunnel(incubating) 是一个简略易用、高性能分布式数据整合与同步工具。是 2021 年 12 月 31 日正式成为 Apache 孵化器我的项目。继 Sqoop 服役后，Apache 基金会旗下该畛域的明星我的项目，导师团 6 位超，过均匀的 3 位一倍。

国内曾经在 B 站、虎牙、去哪儿、腾讯云、唯品会应用，行将公布的 2.0 版本，集成最新多个组件 Load 和 Sink 资源，同时优化进步 ClickHouse 等组件 Sink 性能，尽请期待。

第四范式平台架构师、开源我的项目 OpenMLDB 外围研发与 PMC 成员、开源我的项目 HBase / OpenStack / TVM 贡献者陈迪豪在本次流动中重点介绍了 MLOps 所解决的问题及应用 OpenMLDB 打造 MLOPs 场景的利用。

MLOps 是一系列的最佳实际，它的指标是在部署和保护机器学习模型的时候能更加牢靠或者更加无效。同时它也是机器学习、DevOps、DataEngineeing 多个畛域的汇合。

如下图所示，MLOps 是笼罩整个机器学习落地的工具与运维，从机器学习角度看，MLOps 分为离线开发和线上服务两个流程。其中离线开发能够分成 DataOps、FeatureOps 和 ModelOps。DataOps 蕴含数据采集与数据存储，FeatureOps 蕴含离线特色计算与特色存储和共享，ModelOps 模型训练与超参数调优。之后即可通过部署进行上线，此过程更多关注于实时数据的解决，通过数据流的接入、申请，实时特色的计算以及通过在线推理进行后果数据回流造成后果反馈，进而进行下一轮的迭代。

和大部分 DevOps、DataOps 在落地过程中遇到的问题相似，MLOps 也遇到了很多难点，这里重点介绍两个方面，首先是线上线下一致性校验问题，其次是实时特色拼接和聚合。问题一次要是因为进行离线开发与线上服务的科学家与工程师所应用的工具不统一。问题二次要是因为咱们在建模过程中数据起源不会只来源于一个主表，收到的可能是用户数据、商品数据、交易数据等，须要将相应数据的进行拼接和聚合能力进行后续实时特色模型训练。

而 OpenMLDB 则能够失当的解决 MLOps 畛域对于特色数据的问题，它极大的晋升机器学习上线的效率，并升高机器学习从业人员的门槛。比方为了解决线上线下一致性校验的问题，OpenMLDB 仅须要通过三个步骤实现开发即上线的要求如下图，即 1. 线下 SQL 特色脚本开发 2. 一键部署上线 3. 接入实时申请数据流。外部通过一系列的组件和技术来帮忙用户高效实现离线和在线的特色抽取，将正确数据供应给训练和预估服务。同时它还领有线上线下一致性执行引擎、以 SQL 为外围的开发治理体验、离线计算引擎优化、在线计算存储引擎优化、规范 ANSI SQL 反对及端到端 AI 工作流反对等个性。

OpenMLDB 在 MLOps 的利用场景也十分宽泛，如在银行事中反欺诈交易中，OpenMLDB 提供分布式、可扩大的在线预估服务疾速响应能力，能够将毫秒级变动作为特色入模。提供了针对特色抽取语言、模型训练框架、离线存储引擎、在线存储引擎、在线预估服务的解决方案。

DataOps 和 MLOps 作为各种 Ops 中的后起之秀，能够在各自畛域即数据分析和机器学习畛域，起到很大的作用。尽管国内当初还不是很风行，置信随着国内大数据和机器学习在更多企业的落地，尤其是企业数字化转型的推动会极大促成这两者的进一步倒退。最初欢送大家继续关注 DataOps 及 MLOps 的探讨。

DevOps 后的各种 Ops 相同点和区别在哪？——谭中意
链接：https://www.bilibili.com/vide…

DataOps &DolphinScheduler——郭炜
链接：https://www.bilibili.com/vide…

应用 OpenMLDB 打造 MLOps 场景利用——陈迪豪
链接：https://www.bilibili.com/vide…

MLOPS 爱好者交换群

关于机器学习:国内首届DataOpsMLOps-meetup回顾

流动背景

议程回顾

Part 1：DataOps+MLOps 背景介绍及各类 Ops 的异同——谭中意

Part 2：DataOps &DolphinScheduler——郭炜

Part 3：MLOps & OpenMLDB: 应用 OpenMLDB 打造 MLOps 场景利用——陈迪豪

总结

视频回顾