关于机器学习:LF-AI-Data-AICon-2022AI-工程化回顾

9 月 26 日，由星策社区成员单位 LF AI & DATA 基金会主办的 AICON 2022 在杭州举办，本次大会齐聚 40 位 AI 畛域开源重磅嘉宾，5 家开源企业顶力相助，流动累计观看达到 885819 人。

其中，AI 工程化分论坛是本次大会除主论坛外，观看人数最多的分论坛，累计观看达到 11w+。来自 第四范式、中兴通讯、Kyligence、智源、微软 的 6 位大咖讲师，从实践与实际的角度，论述了当下 AI 技术倒退的利用成绩，及 AI 工具成绩。以下是依据本论坛 6 位老师所分享的精彩内容所摘录的重点内容。欢送一共回顾。

谭中意星策社区发起人，第四范式架构师，LF AI & Data TAC 成员

AI 新趋势

AI 在企业中正在减速落地

随着中国企业数字化、智能化转型的浪潮，智能化曾经成为了企业必须要做的事件。越来越多的企业在减速落地 AI。在第四范式的很多案例里能够看到这种状况。
随着数字化智能化转型，更多企业在落地 AI

企业内 AI 的落地场景更多了。比方在一些头部银行、大公司外面落地的 AI 场景是以千计的。大家能够设想，当一个企业能落地上千的 AI 场景，那么肯定是其中的场景对他们来说是有用、有价值且无效的。
AI 落地的门槛在变低

以前要做一个 AI 场景的落地，十分麻烦，且老本相当高。它须要科学家做很多模型与试验，再去上线，因为很多事件是从头做起。但当初，随着预序列的大模型呈现，随着 OPENMLDB 的呈现，这些事件都让 AI 落地的门槛升高了。

从 ModelCentric 到 DataModel 的扭转—吴恩达

AI 在企业落地越来越多，模型的迭代，模型的算法的更新曾经到了一个瓶颈，相同更多的是基于数据的运维和操作更能带来模型成果的晋升。机器学习生命的各个阶段放弃高质量的数据供应。

AI 落地的挑战

来自分析师统计 87% 的 AI 我的项目没有部署到生成环境中。起因是 AI 落地过程中，数据是最重要的，也是最难搞对的，数据要满足以下要求：

同时满足训练海量和预测低提早的需要
Model Decay
Training/Serving Skew（线上线下一致性）
Time Travel
实时数据供应
更多

AI 落地如何规模化？

多：围绕要害业务流程落地多个场景
快：每个场景落地工夫短，迭代速度快
好：每个场景的成果都达到预期
省：每个场景落地老本比拟节俭，合乎预期

如何做到以上几点，答案是 MLOps。在借鉴 devops 畛域的成熟教训倒退 MLOps。MLOps = CI + CD + CT + CM，它蕴含代码、模型、数据，它笼罩机器学习的全生命周期，它同时是继续集成，继续部署，继续训练和继续监控。

MLOps 不仅仅是流程和 pipeline，它还包含：

计算平台：流式、批处理用于特色解决
音讯队列：用于接管实时数据
调度工具：各种资源（计算 / 存储）的调度
Feature Store：注册、发现、共享各种特色
Model Store：模型的特色
Evaluation Store：模型的监控 / AB 测试
Serving Tool：如何高效实现预测服务

张浩第四范式资深体系架构科学家

在机器学习从开发到上线的闭环中，实时特色计算是其中的重要一环，用于实现数据的实时特色加工。因为其高时效性需要，数据科学家实现特色脚本离线开发当前，往往还须要工程化团队通过大量的优化能力实现上线。另一方面，因为存在离线开发和工程化上线两个流程，线上线下计算一致性验证成为一个必要步骤，并且会消耗大量的工夫和人力。基于开源实时特色计算解决方案 OpenMLDB，为解决以上两个痛点登程，达到实时特色计算零碎架构的优化指标 – 开发即上线，咱们在架构设计和优化上的实际。

OpenMLDB 线上线下一致性特色平台架构

线上：自研毫秒级的实时 SQL 引擎（基于内存或者外存存储）
线下：基于 Spark 优化的离线 SQL 引擎
一致性执行打算生成器保障线上线下一致性

OpenMLDB 应用流程如下

线上引擎整体架构

ZooKeeper – 元数据存储和治理

Nameserver – Tablet 治理和故障转移

Tablets SQL

执行引擎

存储引擎

分布式部署

内存存储引擎 – 外围双层跳表数据结构

第一层索引对应具体的键值，优化分组操作（如 GROUP BY）

第二层索引对应工夫戳，高效找到工夫窗口

高效插入和查问，典型场景工夫复杂度 𝑂(𝑙𝑜𝑔𝑛)

高效反对数据过期（TTL）相干操作

预聚合技术

目标：优化长窗口计算效率技术：预聚合局部后果用于实时计算

百万数据下晋升性能两个数量级

同时实用于内存和磁盘存储引擎

OpenMLDB 倒退历程

OpenMLDB 中武官网：https://openmldb.ai/

GitHub: https://github.com/4paradigm/…

刘涛中兴通讯 AI 平台资深专家，Adlik 开源我的项目技术负责人

MLOps 的概念起源于 DevOps，区别于代码工程化继续交付流程，MLOps 关注于机器学习（ML）零碎的的开发和部署，以标准化高性能机器学习算法和模型的继续交付过程。ML 工作流包含数据工程，模型过程和代码工程几个局部，各局部之间合作难度大，波及技术畛域多，模型开发、部署、更新和保护的难度都很大，造成 ML 零碎难以工程化继续交付。

具体到模型部署畛域，为了让模型产生商业价值，须要解决几个问题：

如何将模型与业务相结合
如何高效部署模型
如何确保模型以最优性能运行
如何无效治理生产环境中的模型

将深度学习模型部署到生产环境，实现利用是深度学习算法落地的重要一步。模型开发应用的训练框架各不相同，如 TensorFlow、PyTorch、PaddlePaddle、Caffe、Kares、OneFlow 等；部署阶段的场景和指标设施多种多样，目前针对不同设施有不同的推理框架，如 Tensorflow Serving、Tensorflow Lite、OpenVINO、TensorRT、MNN、Paddle Inference 等。这些推理框架互不兼容，用户依据业务需要在不同设施上应用不同推理框架部署模型时，须要装置和测试屡次。如何将各个训练框架下失去的深度学习模型在不同于训练平台的指标设施上放弃性能、高效执行？在同样的平台上，如何疾速装置、测试不同推理引擎，放弃同样的用户体验？

Adlik 是深度学习推理减速工具链，致力于解决上述深度学习模型部署时遇到的各种挑战问题，是一款能够将深度学习模型从训练实现，到部署到特定硬件并提供应用服务的端到端工具链。可能实现模型从研发状态到生产应用环境的高效切换，可能与多种推理引擎合作，提供灵便的模型减速、部署、推理计划，助力用户构建高性能 AI 利用。

Adlik 包含模型优化器，编译器和引擎模块，反对各类模型在云、边、端侧灵便部署，高效执行。
Adlik 模型优化器反对模型主动剪枝，蒸馏和量化，能够在典型模型不升高精度状况下，晋升推理吞吐量 13.8 倍。
Adlik 模型编译器，反对应用对立接口计划将多种原始训练模型格局转换到指标运行时模型格局，并构建 DAG 实现端到端的不同模型表白格局的转换。
Adlik 引擎，反对多款硬件和对应运行时，并提供 SDK，反对扩大新运行时和新硬件，并对多模型部署进行高效编排。

瞻望

作为 MLOps 工作流中模型部署的减速工具链，Adlik 将进一步围绕深度学习端到端性能优化、AI 利用在异构平台上的部署与运行、高性能计算、高效模型运维等技术方向进行深入研究，继续构建社区生态，推动产业推动数字化改革，为用户买通深度学习利用的全流程，真正实现高效率、低成本的 AI 利用落地，助力不同行业实现智慧化转型，为数字经济倒退提供强劲能源。

刘广北京智源人工智能钻研开源平台算法研究员，FlagAI 外围贡献者

FlagAI (https://github.com/FlagAI-Ope…) 是大模型算法、模型及工具一站式开源我的项目。咱们的指标是反对在多模态的各种上游工作上训练、微调和部署大规模模型。

当初它反对最高百亿参数的悟道 GLM。它同时也反对 BERT、RoBERTa、GPT2、T5 模型和 Huggingface Transformers 的模型。
它提供 API 以疾速下载并应用这些预训练模型，让用户不便的在自定义数据集上对大模型进行微调 (fine-tuning) 或者利用提醒学习 (prompt-tuning) 而后在咱们的模型核心与社区共享训练好的模型权重和信息。
这些模型能够利用于文本、视觉和多模态数据，用于文本分类、信息提取、问答、摘要、文本生成等工作，也反对图片分类，图文检索等工作。
由三个最风行的数据 / 模型并行库（PyTorch/Deepspeed/Megatron-LM）提供反对，它们之间实现了无缝集成。你能够用不到十行代码来并行你的训练 / 测试过程。

大模型的性能指标随着规模晋升显著，也为其在企业落地带来了老本和效率的挑战：

技术简单
数据海量
工程繁浩

大模型开发保护的工夫 / 人力 / 经济老本都极高，从妨碍了其上游推广和利用。

智源 FlagAI 我的项目致力于升高大模型利用的技术和工程门槛

反对支流大模型（文本、视觉和多模态模型）一键下载
反对高效训练微调技术
反对支流数据集和常见上游工作

FlagAI 开源软件的架构：

硬件平台（打算兼容国产芯片）
计算框架（打算兼容多种框架）
模型算法（兼容 Transformers 框架）
文档教程（丰盛的样例和文档教程）

FlagAI 低门槛的相干设计理念：

开箱即用（封装常见数据集和工作）
兼容性强（兼容多种框架和减速策略）
易于上手（丰盛的教程文档）
凋谢共享（代码模型数据等多维度开源）

祝海林 Byzer 社区 PMC，资深数据架构师，Kyligence 技术合伙人

Byzer (https://github.com/byzer-org/…) 是一个面向大数据和 AI, 相比 Python 更加易用的类 SQL 语言，并且有一个反对分布式的执行引擎，他的指标是帮忙使用者晋升本人的效率。从 2016 年开始，曾经经验了 6 年的倒退，在很多企业里也有了多年的积攒，包含金融，平安，安防等诸多畛域都有利用。目前开源产品包含 Byzer-lang, Byzer Notebook, Byzer Form 等。

在这次分享里的第一局部，咱们首先介绍了 Byzer 的 Why, How, What 以及根本的引擎架构。

咱们认为解决大数据和 AI 落地效率还是太低。那怎么解决这个问题呢？咱们认为从框架上是比拟难解决的，因为外围是要解决人的效率问题，而这就须要从人和机器交互的根底 – 语言层面去解决，同时须要一个对立的反对 Data+AI 不割裂的分布式执行引擎。最终出现给用户的，就是咱们设计的一门面向大数据和 AI 的云原生类 SQL 语言 Byzer。

Byzer 语言引擎的架构也比较简单，别离是接口层，语言标准层，解释器局部，以及运行时层。和传统语言不太一样的是，Byzer 引擎是以 Http 协定为主的，用户只有通过 Http 接口把脚本发送给 Byzer 引擎, 引擎会返回 Json 格局的数据。

接下来，咱们演示了 Byzer 的两个示例。

第一个示例是应用 Byzer 别离从数据库和数据湖获取数据，而后进行 Join 关联组成一个残缺的数据，而后对数据做个过滤，最初应用 YAML 格局对后果表进行图表绘制。整个过程天然，简略。

第二个例子，咱们演示了应用 Byzer 内置的一些算法实现机器学习，这里包含数据荡涤，特色工程，模型训练，模型部署等，全程能够应用类 SQL 语法实现。

如果只是反对内置的一些算法，就很难无效的反对诸如深度学习以及更加简单的机器学习状态。所以 Byzer 也通过插件反对了 Python。在下面的例子咱们能够看到，Byzer 的数据表，能够很不便在 Python 中获取，并且 Python 解决完后，还能够从新输入成表，供后续 Byzer 语句中应用。Byzer 真正在 SQL 和 Python 之间实现语言互通，数据互通，为用户提供了不便和有限的灵活性。

最初，咱们提及了一些 Byzer 在 SQL 工程化的能力，这蕴含了模板化，分支语句，模块化等能力。

朱晓勇 Feathr 开源我的项目发起人，微软 Principal Data Scientist

Feathr（https://github.com/feathr-ai/…）作为 Linux Data & AI 基金会的一员，是一个曾经在领英以及微软生产环境中应用了近 6 年工夫的一个 Feature Store，并在 4 月份开源，于 9 月份募捐给 LF Data & AI 社区。在领英外部，简直所有的 AI 利用都是基于 Feathr 构建。Feathr 在微软与领英典型的利用包含举荐零碎（例如人脉举荐、信息流举荐、工作机会举荐等），反欺诈零碎（例如登录时 Bot 检测）等。

在计算机科学中有一句话，“没有什么不能通过减少一个形象层来解决”（”We can solve any problem by introducing an extra level of indirection.” – Andrew Koenig）。Feathr 正是这样一个形象层，通过对于特色工程中常见的工作进行形象，从而极大的简化了特色工程的难度。例如，在没有 Feathr feature store 之前，整个的特色工程的流程如下，整体非常复杂：

通过 Feathr 对于特色工程中常见的问题进行形象和简化，那么用户就能够通过简洁的 API 对特色工程进行解决，把简单的工作交给 Feathr 解决。常见的工作例如 Point-in-time join, point-in-time aggregation 等，通过一个 API 就能够实现，缩小了数据泄露和标签泄露的问题。

对于常见的特色工程中的问题，Feathr 大略分为几个局部去解决，别离是特色计算，特色注册，以及特色监控。

Feathr 的架构如下，目前反对支流的云服务，包含 Azure 以及 AWS。同时不依赖云上的版本也在开发中：

Feathr 的一些外围亮点如下：

通过 Feathr UI 来进行特色的摸索和发现

通过对特色进行摸索，可通过 API 将特色下载到本地并执行，实时计算特色
在计算特色时，反对丰盛的 UDF（PySpark，Spark SQL，Pandas）品种，丰盛的算子反对（例如 Point-in-time Join 以及 Aggregation），以及针对机器学习开发的类型零碎（例如对于 embedding 的反对）。
批数据和流式数据均反对特色计算，可能近实时的拿到输出的特色
独有的 Derived Feature 性能，让特色共享以及复用更加容易
企业级的个性，例如基于角色的拜访权限管制（RBAC）
针对超大规模数据的反对，例如十亿级别表的 Join，以及复用之前计算结果，防止反复计算等。

最初

星策社区还将继续关注 MLOps 技术赛道及 AI 工程化相干内容、定期举办及参加企业转型、MLOps、AI 工程化等交流活动，一直晋升社区影响力。也欢送大家继续关注星策社区停顿并退出咱们。

无关星策智能化转型开源社区的更多详情，可拜访社区官网（http://startogether.ai/）。

关于机器学习:LF-AI-Data-AICon-2022AI-工程化回顾

议题一：AI 工程化趋势

议题二：开源机器学习数据库 OpenMLDB：线上线下统一的生产级特色平台

议题三：基于 Adlik 的 MLOps 开源实际

议题四：FlagAI 大模型开源工具包

议题五：Byzer，应用 SQL 实现端到端机器学习流程

议题六：Feathr- 企业级高性能 Feature Store