在机器学习畛域以数据为生产资料的新型生产关系中,特色的品质成为AI/ML算法成果的天花板。Feature Store 的呈现能够减速举荐建模优化的迭代,简化机器学习中的特色治理和特色计算,并晋升机器学习的生产力。国内已有多家公司领有本人的技术实现,云上产品和开源我的项目。
为了独特探讨如何实现和利用好特色平台 FeatureStore ,交换建设心得,流传教训领会,星策社区特此发展了 FeatureStore Meetup 流动,目前已邀请了来自美团外卖、伴鱼、小米、网易云音乐、AWS、工商银行、华为商城、众安保险、第四范式等多家公司的技术专家参加分享,失去了宽广开发者的关注和踊跃反馈。
9月4日,由星策社区主办的第四期「Feature Store Meetup」于线上发展,流动特邀请星策社区发起人-谭中意;第四范式零碎架构师、OpenMLDB研发负责人-卢冕;腾讯举荐中台架构师-赵喜生;微软首席数据科学家-朱晓勇,4位大咖讲师独特探讨分享了 Feature Store 在各自我的项目/畛域中的设计解析与利用实际。累计观看人次超过1.8w+。
本文依据四位老师分享的重点内容整顿而成,视频回顾见文章开端,PPT获取请关注公众号「星策开源」并回复「0904」~
精彩内容回顾
Part1:Feature Store概念与利用背景—谭中意
星策社区发起人,开源软件推动联盟副秘书长,凋谢原子基金会TOC副主席—谭中意,在此次 meetup 中重点介绍了 Feature Store 的背景与倒退。
FeatureStore呈现的背景
现如今企业都面临着智能化转型的需要,其中对技术而言要做到机器学习在企业内“多快好省”的落地。然而事实是机器学习落地慢,成果岂但达不到预期,成果还可能会回退。为了解决这一问题,在借鉴DevOps畛域的成熟教训后倒退呈现了MLOps(如下图MLOps:CI+CD+CT+CM)。特色平台 Feature Store 正是MLOps中的要害基石之一,它是一个让多个团队共享、发现和应用通过高度定制的特色的平台,利用在机器学习畛域中。
Feature Store解决的问题
- 个性1: 同时满足模型训练和预测的需要读取批和流式数据同时满足Offline的大批量和Online的低提早需要
- 个性2: 解决特色解决在训练/预测阶段不统一的问题保证数据/ETL的逻辑在线上/线下的一致性
个性3: 解决特色解决的重用问题,避免浪费,高效共享
Feature Store倒退历史
自2017年 Uber 首次提出后,倒退至今已有多个守业公司取得投资。2020年至今,国内已有多个大厂公布了相应的商业产品和开源我的项目。如本次流动中所分享的由第四范式开源的机器学习数据库OpenMLDB、及由领英&微软共同开发保护的企业级高性能开源Feature Store-Feathr等。
Part2:开源机器学习数据库 OpenMLDB: 线上线下统一的生产级特色平台—卢冕
第四范式零碎架构师,开源我的项目 OpenMLDB 研发负责人卢冕,在本次流动中重点介绍了 OpenMLDB 如何解决人工智能工程化落地问题,保障线上线下一致性。
OpenMLDB 线上线下统一的特色平台
OpenMLDB 是一个开源机器学习数据库,提供了线上线下统一的特色平台。次要面向结构化数据和决策类场景的时序数据特色工程,解决时序数据和基于工夫窗口的聚合函数,能够满足生产级上线需要的实时举荐零碎。所解决的最外围的问题是线上线下一致性校验带来的昂扬工程化落地老本问题,同时提供了毫秒级的实时特色计算。
OpenMLDB整体架构
OpenMLDB 的整体架构设计是为了达到特色平台从开发到部署的流程优化指标:开发即上线 ,以此来大幅升高人工智能的落地老本。其实现从特色的离线开发到上线部署,只须要三个步骤:步骤一:应用 SQL 进行离线特色脚本开发,用于模型训练步骤二:SQL 特色脚本一键部署上线,由线下模式切换为线上模式步骤三:接入实时数据,进行线上实时特色计算,用于模型推理
为了能够达到开发即上线的优化指标,OpenMLDB 的架构基于线上线下一致性的理念所设计。上图显示了 OpenMLDB 的形象架构,蕴含了四个重要的设计组件:(1)对立的 SQL 编程语言;(2)具备毫秒级提早的高性能实时 SQL 引擎;(3)基于 OpenMLDB Spark 发行版的批处理 SQL 引擎;(4)串联实时和批处理 SQL 引擎,保障线上线下一致性的一致性执行打算生成器。OpenMLDB外围个性
·线上线下一致性: 离线和实时特色计算引擎应用对立的执行打算生成器,线上线下计算一致性失去了人造的保障。
·毫秒级超低提早的实时 SQL 引擎:线上实时 SQL 引擎基于齐全自研的高性能时序数据库,对于实时特色计算能够达到毫秒级别的提早,性能远超出风行商业内存数据库,充沛满足高并发、低提早的实时计算性能需求。
·基于 SQL 定义特色: 基于 SQL 进行特色定义和治理,并且针对特色计算,对规范 SQL 进行了加强,引入了诸如 LAST JOIN 和 WINDOW UNION 等定制化语法和功能扩充。
·生产级个性: 为大规模企业应用而设计,整合诸多生产级个性,包含分布式存储和计算、灾备复原、高可用、可无缝扩缩容、可平滑降级、可监控、异构内存架构反对等。OpenMLDB以后现状
目前OpenMLDB 已开源一周年,上下游生态正不断完善,同时新版本 v0.6.0 已于(2022.8.10)公布,次要引入/加强了以下产品个性:
·数据库状态智能诊断和报告工具:试验性能上线,便于问题排查
·生态整合,Airflow provider package:实现和 Airflow 整合
·SQL 语法加强:反对 EXCLUDE CURRENT_ROW,多场景应用,高可用性加强Part3:Feature Store在金融 AI 利用中的实际—赵喜生
腾讯举荐中台架构师赵喜生,在本次分享中从平台和体系化视角登程,探讨如何建设一个高效、通用、统一的Feature Store以减速举荐建模优化的迭代。
了解Feature Store
在以数据生产资料的新型生产关系中,Feature Store面向算法建模和在线预测组织、治理数据,提供统一的、高性能的、实时的样本和特色服务,以驱动AI利用的高效迭代。
Feature Store指标
晋升特色工程效率,通过Feagine产品化设计优化特色工程流程,复用特色解决算子和组件,晋升特色工程效率;
解决样本回放效率,在减少特色后疾速生成样本并升高存储老本,放慢对新增特色的试验;
保障线上线下特色统一,通过对线上特色的缓存设计以及共享Transformation Library特色解决逻辑保障线上线下特色对一致性;
解决在线服务的性能和可用率问题,通过缩短举荐在线服务的调用链路优化在线服务的延时级别来晋升整体服务的性能和可用率;
保障特色和样本的品质,特色对模型对重要水平剖析以及特色对品质对模型对成果影响至关重要,通过提供可视化解决方案实现对特色重要性的疾速评估以及对品质变动对疾速感知。
Feature Store产品外围能力
特色元数据形容:对用户、物品、上下文等特色的元数据形容,包含特色的类型、数据类型、值的范畴、数据起源等;
灵便的特色解决能力:针对离散、间断及须要做穿插的特色提供灵便不便的特色解决的组件;
疾速的样本生成能力:基于算法工程师抉择的特色及解决办法可能疾速生成训练和验证样本;
特征分析和评估能力:在特色摸索阶段对离散、间断特色进行散布值统计;针对举荐场景的指标评估不同的特色对模型的奉献值;
高性能特色KV存储和在线特色查问服务:满足业务容量的特色KV存储,可能在线通过SDK提供基于用户/物品ID的高性能特色查问服务;
离线和在线特色的统一:通过特色元数据和特色解决逻辑等的线下、线上复用和共享满足特色一致性要求;
特色品质管理机制:通过对特色散布及统计信息,以及正负样本的比例等数据变动的监控确保上游数据的品质,保障举荐后果的可信;
Feature Store技术架构
从全局视图来看Feature Store架构设计包含离线、在线和共享三局部,具体每局部的职责和个性如下:
离线
首先基于全量的用户和物品以及特色视图定义会生成用户、物品的离线特色;此离线特色会同步到线上到高速存储作为在线特色缓存。
另外对于特色视图定义零碎将生成对应的元数据;同时用户定义特色解决逻辑也会生成相干元数据。联合离线特色、特色视图定义、特色解决逻辑以及Label数据就能够通过Feature Transformer组件生成离线训练样本。样本将依据数据的特点物理存储在多种存储中,离线生成的样本数据将能够间接用于模型训练。Sample Service会提供相应的SDK用于样本数据的读取。
在线
在解决在线申请时,每个申请将同时从用户特色缓存、物品特色缓存以及实时特色中获取特色,再依据以后申请对应到特色视图和特色解决元数据进行对应特色组织和转换。实时特色到生成将会由Windowed Aggregator在流式数据上进行窗口聚合解决后存入高速缓存。
共享
在线上和线下处理过程中特色视图和特色解决元数据,以及特色解决的Transformation Library是专用的,以此确保线上线下的解决一致性和升高解决逻辑的复杂度。
Part4:Feathr - 企业级高性能Feature Store—朱晓勇
微软首席数据科学家朱晓勇,在本次分享中介绍了由领英与微软开发保护的开源Feature Store -Feathr的背景、核心理念以及设计以及在不同云环境中的部署及demo演示。
Feathr (https://github.com/feathr-ai/...)作为Linux Data & AI 基金会的一员,是一个曾经在领英以及微软生产环境中应用了近6年工夫的一个Feature Store,并在4月份开源,于9月份募捐给LF Data & AI社区。在领英外部,简直所有的AI利用都是基于Feathr构建。Feathr在微软与领英典型的利用包含举荐零碎(例如人脉举荐、信息流举荐、工作机会举荐等),反欺诈零碎(例如登录时Bot检测)等。
在计算机科学中有一句话,“没有什么不能通过减少一个形象层来解决” ("We can solve any problem by introducing an extra level of indirection." - Andrew Koenig)。Feathr正是这样一个形象层,通过对于特色工程中常见的工作进行形象,从而极大的简化了特色工程的难度。例如,在没有Feathr feature store之前,整个的特色工程的流程如下,整体非常复杂:
通过Feathr对于特色工程中常见的问题进行形象和简化,那么用户就能够通过简洁的API对特色工程进行解决,把简单的工作交给Feathr解决。常见的工作例如Point-in-time join, point-in-time aggregation等,通过一个API就能够实现,缩小了数据泄露和标签泄露的问题。
对于常见的特色工程中的问题,Feathr大略分为几个局部去解决,别离是特色计算,特色注册,以及特色监控。
Feathr的架构如下,目前反对支流的云服务,包含Azure以及AWS。同时不依赖云上的版本也在开发中:
Feathr的一些外围亮点如下:
1.通过Feathr UI来进行特色的摸索和发现
2.通过对特色进行摸索,可通过API将特色下载到本地并执行,实时计算特色
3.在计算特色时, 反对丰盛的UDF(PySpark,Spark SQL,Pandas)品种,丰盛的算子反对(例如Point-in-time Join以及Aggregation),以及针对机器学习开发的类型零碎(例如对于embedding的反对)。
4.批数据和流式数据均反对特色计算,可能近实时的拿到输出的特色
5.独有的Derived Feature性能,让特色共享以及复用更加容易
6.企业级的个性,例如基于角色的拜访权限管制(RBAC)
7.针对超大规模数据的反对,例如十亿级别表的Join,以及复用之前计算结果,防止反复计算等。
最初给大家带来了一个Feathr的产品演示,具体细节请参见下方链接。
总结
随着机器学习在越来越多的企业部署到更多的场景中,对于数据/ Feature 的治理也越来越有挑战性。Feature Store的利用解决了企业内特色的难题,保障了线上/线下数据的一致性,流动中各家的实现细节可观看残缺视频回放,心愿大家有所播种。最初,欢送大家继续关注 MLOps 与 Feature Store ,退出MLOps爱好者qun和咱们一起探讨相干内容。
视频回顾谭中意——FeatureStore介绍+流动收场https://www.bilibili.com/vide...卢冕——开源机器学习数据库 OpenMLDB: 线上线下统一的生产级特色平台https://www.bilibili.com/vide...赵喜生——Feature Store在金融 AI 利用中的实际https://www.bilibili.com/vide...朱晓勇——Feathr - 企业级高性能Feature Storehttps://www.bilibili.com/vide...无关星策智能化转型开源社区的更多详情,请拜访社区官网(http://startogether.ai/)。