关于数据库:OpenMLDB-Meetup-No6-回顾-OpenMLDB＋37手游一键查收特征计算场景案例及进阶使用攻略

OpenMLDB Meetup No.6 回顾

会议内容

OpenMLDB 社区于 2022年9月24日举办了第六期 meetup，会议相干视频及材料如下：

OpenMLDB PMC core member 卢冕，以《开源机器学习数据库 OpenMLDB：线上线下统一的生产级特色平台》为题，为大家展现疾速降级、高频迭代的 OpenMLDB，介绍了 OpenMLDB 现版本的亮眼性能以及将来的倒退方向。

，时长39:31

链接： https://pan.baidu.com/s/1z4tU…

提取码：open

37手游技术主管彭佳铭和高级算法工程师左伟健，介绍 37手游技术团队引入 OpenMLDB 的历程以及 OpenMLDB 在 37手游特色计算场景的利用，具体分享了 OpenMLDB 的试验场景、部署流程、问题解决、最终试验论断与将来瞻望。

，时长29:13

上篇链接： https://pan.baidu.com/s/1GQIT…

提取码：open

下篇链接： https://pan.baidu.com/s/1abSY…

提取码：open

OpenMLDB PMC core member 张浩，带来了 OpenMLDB 进阶应用攻略，从技术原理以及应用形式上进行介绍常见问题的排查伎俩、双机房反对、长窗口优化、以及高可用等技术干货，为 OpenMLDB 的用户提供高级个性解说和进阶应用办法的领导。

，时长23:37

链接： https://pan.baidu.com/s/1Ddko…

提取码：open

探讨交换——37手游

37手游应用的编程语言是 MySQL 吗，还是其余语言呢？

咱们的编程语言抉择和存储介质有比拟亲密的关系，Mysql 次要利用于业务数据源存储方面，而取数剖析更罕用的是阿里云的 MC。

37手游的技术计划如何选型？

技术计划选型会有多个技术栈一起试用。大数据计算这一块，上云之前，咱们会应用自建的Hive 和 Impala 解决离线数据。上云后，咱们在离线计算会应用 MaxCompute，绝对实时的板块应用 Hologres 做存储引擎计算。接触 OpenMLDB 后，咱们有尝试通过两个技术栈的联合应用，例如特色计算方面，出于缩短开发周期的思考，咱们会优先应用 OpenMLDB 。

探讨交换——OpenMLDB

OpenMLDB 能存多大数据，如果是大数据怎么读取进行训练？

OpenMLDB 分为离线和在线两局部。如果是离线局部，也就是这里针对训练场景，走的是 Spark 这一条路，只有 Spark 机器资源足够就能够满足需要。在线局部如果应用的是内存引擎，那么次要耗费的是内存，而 OpenMLDB 是分布式存储，能够程度扩大，应用多个机器；如果在线局部应用磁盘引擎，就是基于 RocksDB 存储，也能够程度扩大。

是否介绍一下 SQL 解决实时特色？

咱们筹备了两篇常见特色解决逻辑 SQL 表白的整顿文章，能够给大家提供参考。

基于 SQL 的特色开发（上）： https://openmldb.ai/docs/zh/m…

基于 SQL 的特色开发（下）： https://openmldb.ai/docs/zh/m…

基于 OpenMLDB 构建施行建模有无实际，以及典型的特色穿梭用户要解决哪些逻辑？

实际在 OpenMLDB 官网和开发文档中找到 usecase 来参考。特色穿梭在 OpenMLDB 外部引擎曾经实现解决，能够失去人造保障了，只有用户数据的工夫戳是正确的，对于工夫的解决逻辑写好就可能做正确计算，保障不会呈现特色穿梭。

这种 OpenMLDB 能提供过滤器或者拦截器这种轻度 ETL 吗？

过滤器或者拦截器的逻辑实现如果能转化成 SQL 的表达方式，就可能实现。如果业务的场景逻辑比较复杂，须要通过 UDF 写一个程序能力实现。如果这位同学感兴趣，能够分割咱们做更深度的交换。

OpenMLDB 反对 Hudi 和 Iceberg 吗，还是强绑定 Spark/Hadoop 引擎？

目前离线引擎是和 Spark 绑定，因为有源代码级别的批改，所以不可能做到配适即可应用。离线的数据源目前来自 HDFS，尚未反对 Hudi/Iceberg 的计划，将来如果社区小伙伴有需要，咱们会优先思考。

模型训练大批量读取或者大批量回刷 OpenMLDB 是否接受？性能如何？

模型训练基于咱们优化过的 Spark 引擎，如果 Spark 机器资源足够，就没有问题。

打算什么时候开发 Windows 版本的 SDK 呢？

因为一些 C++ 库的移植问题，目前还不提供，目前有 Linux 和 MacOS 版本的。如果大家只是试用的话，能够通过 docker 镜像，试用咱们的 SDK。

数据怎么分区，是按 key 分区的吗？

是的，数据是依照 key 进行分区的。不同的索引，对应的 key 可能会不同，所以每个索引可能会有不同的分区。

后续 OpenMLDB 升高应用门槛和老本有什么布局吗？

对于升高应用门槛方面，在下一个版本曾经有布局，包含集群的部署，启动，数据恢复等。

应用老本上，目前曾经有磁盘表的性能，能够在就义局部性能的前提下，升高应用老本。

Q10

是否反对图谱数据？

目前不反对，OpenMLDB 次要反对结构化的表格数据。

OpenMLDB 社区

在此感激大家对于本次 meetup 的大力支持，如果想进一步理解 OpenMLDB 或者参加社区技术交换，能够通过以下渠道取得相干信息和互动。

Github: https://github.com/4paradigm/…

官网： https://openmldb.ai/

Email: [email protected]

OpenMLDB 微信交换群：

关于数据库:OpenMLDB-Meetup-No6-回顾-OpenMLDB＋37手游一键查收特征计算场景案例及进阶使用攻略

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于数据库:OpenMLDB-Meetup-No6-回顾-OpenMLDB＋37手游一键查收特征计算场景案例及进阶使用攻略

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复