1. 会议内容
OpenMLDB 社区于 2022 年 4 月 16 日举办了第二期 meetup,会议相干视频及材料如下:
● StreamNative 联结创始人翟佳——面向 OpenMLDB 的上游数据生态,深度解析云原生音讯流平台 Apache Pulsar。
https://www.zhihu.com/zvideo/…
https://pan.baidu.com/s/1VNtn…
● OpenMLDB 研发负责人卢冕——针对实时特色计算场景,介绍基于 OpenMLDB 的特色开发流程,以及机器学习特色计算平台架构。
https://www.zhihu.com/zvideo/… https://pan.baidu.com/s/1kBPJWnak254i_VdlupqRpA
● OpenMLDB 研发架构师黄威——OpenMLDB Pulsar Connector 实战演练,带你高效买通实时数据到特色工程。
https://www.zhihu.com/zvideo/… https://pan.baidu.com/s/18-EhQMqhYNrP2IxSglGGdw
(百度网盘材料支付明码均为 open)
2. 探讨交换
会议中,几位嘉宾和社区进行了探讨交换,这里咱们展现局部问答如下:
Q1:除了计算逻辑性之外,OpenMLDB 有机制保障在离线数据一致性吗?
A:OpenMLDB 的离线和在线数据是离开存储引擎的。离线开发时候时候应用的数据和在线计算应用的数据大部分状况下都不是同一份,在线数据会随着时间推移一直引入新的只供应实时推理的数据。所以从这个角度来说,并没有必要去放弃离线和在线数据的一致性。
Q2: 物联网剖析适宜应用 OpenMLDB 吗?
A:物联网的很多数据都是时序数据,带有工夫戳。对于这种时序数据,实践上是非常适合应用 OpenMLDB 进行剖析的,包含做特色计算。如果有相干的需要,欢送大家在社区跟咱们互动探讨。
Q3:OpenMLDB 提供哪些语言的 SDK?
A:目前 OpenMLDB SDK 能够反对 Python, Java,以及 REST APIs。
Q4:实时推理如果用 Flink,如何和批训练的 Spark 做到一致性?
A:如果实时推理局部应用了 Flink,目前是比拟难和咱们的 Spark 发行版做到计算一致性。次要两者并没有通过 OpenMLDB 的一致性引擎来生成计算逻辑齐全始终的执行打算。因而还是比拟举荐大家间接应用 OpenMLDB 的残缺流程,来保障线上线下的一致性。
Q5:特色工程的算法能够在 SQL 中通过 UDF 扩大吗?
A:UDF 在本月行将公布的 0.5.0 版本里就会反对。目前会先反对 C/C++ UDF,稍后版本会反对 Python UDF。
Q6:OpenMLDB 和 Mysql 的本质区别在哪些方面呢?
A:MySQL 是一个 OLTP 数据库,和 OpenMLDB 的定位十分不一样。MySQL 可能也能实现局部的线上特色计算工作,然而它没有线上线下一致性的设计架构设计,另外对于某些特色计算重要的操作(比方 OpenMLDB 优化的跨窗口聚合等),也并没有针对性优化。
Q7:OpenMLDB 和市场上同类产品或者开源工具相比有什么劣势?
A:目前市场上有 Feature Store 的产品,和 OpenMLDB 的定位比拟相似,都是针对机器学习提供特色平台。然而大部分的 Feature Store 产品,比方最有名的开源我的项目 Feast,多没有提供实时的特色计算能力,没有在计算这一层去保障线上线下的一致性。他们更多的是买通离线计算的 features 和线上共享的能力。商业版 Tecton 提供类相似的实时计算能力,然而依照形容还是推送给 Spark 去做,所以预期在实时计算的性能上也没有做到优化。
Q8:特色 ops 是指特色自身,还是提特色用到的算法,pca,fm 之类的。特色 ops 和模型 ops 有什么区别
A:这里的特色 ops 指的是提取特色自身的计算逻辑,而不是你提到的一些特色加工的算法。你基本上能够认为他是一个相似数据库 SQL 的数据处理逻辑。
3. OpenMLDB 社区
在此感激大家对于本次 meetup 的大力支持,如果想进一步跟理解 OpenMLDB 或者参加社区技术交换,能够通过以下渠道取得相干信息和互动。
● Github: https://link.zhihu.com/?targe…
● 官网:https://openmldb.ai
● Email: mailto:contact@openmldb.ai
● https://www.zhihu.com/people/…
● https://link.zhihu.com/?targe…