乐趣区

关于数据库:OpenMLDB-Meetup-No6-回顾-OpenMLDB+37手游一键查收特征计算场景案例及进阶使用攻略

OpenMLDB Meetup No.6 回顾

会议内容

OpenMLDB 社区于 2022 年 9 月 24 日举办了第六期 meetup,会议相干视频及材料如下:

OpenMLDB PMC core member 卢冕,以《开源机器学习数据库 OpenMLDB:线上线下统一的生产级特色平台》为题,为大家展现疾速降级、高频迭代的 OpenMLDB,介绍了 OpenMLDB 现版本的亮眼性能以及将来的倒退方向。

,时长 39:31

链接:​ ​https://pan.baidu.com/s/1z4tU…​​

提取码:open

37 手游 技术主管 彭佳铭 和 高级算法工程师 左伟健,介绍 37 手游 技术团队引入 OpenMLDB 的历程以及 OpenMLDB 在 37 手游 特色计算场景的利用,具体分享了 OpenMLDB 的试验场景、部署流程、问题解决、最终试验论断与将来瞻望。

,时长 29:13

上篇链接:​ ​https://pan.baidu.com/s/1GQIT…​​

提取码:open

下篇链接:​ ​https://pan.baidu.com/s/1abSY…​​

提取码:open

OpenMLDB PMC core member 张浩,带来了 OpenMLDB 进阶应用攻略,从技术原理以及应用形式上进行介绍常见问题的排查伎俩、双机房反对、长窗口优化、以及高可用等技术干货,为 OpenMLDB 的用户提供高级个性解说和进阶应用办法的领导。

,时长 23:37

链接:​ ​https://pan.baidu.com/s/1Ddko…​​

提取码:open

探讨交换——37 手游

Q1

37 手游应用的编程语言是 MySQL 吗,还是其余语言呢?

A

咱们的编程语言抉择和存储介质有比拟亲密的关系,Mysql 次要利用于业务数据源存储方面,而取数剖析更罕用的是阿里云的 MC。

Q2

37 手游的技术计划如何选型?

A

技术计划选型会有多个技术栈一起试用。大数据计算这一块,上云之前,咱们会应用 自建的 Hive 和 Impala 解决离线数据。上云后,咱们在离线计算会应用 MaxCompute,绝对实时的板块应用 Hologres 做存储引擎计算。接触 OpenMLDB 后,咱们有尝试通过两个技术栈的联合应用,例如特色计算方面,出于缩短开发周期的思考,咱们会优先应用 OpenMLDB。

探讨交换——OpenMLDB

Q1

OpenMLDB 能存多大数据,如果是大数据怎么读取进行训练?

A

OpenMLDB 分为离线和在线两局部。如果是离线局部,也就是这里针对训练场景,走的是 Spark 这一条路,只有 Spark 机器资源足够就能够满足需要。在线局部如果应用的是内存引擎,那么次要耗费的是内存,而 OpenMLDB 是分布式存储,能够程度扩大,应用多个机器;如果在线局部应用磁盘引擎,就是基于 RocksDB 存储,也能够程度扩大。

Q2

是否介绍一下 SQL 解决实时特色?

A

咱们筹备了两篇常见特色解决逻辑 SQL 表白的整顿文章,能够给大家提供参考。

基于 SQL 的特色开发(上):​ ​https://openmldb.ai/docs/zh/m…​​

基于 SQL 的特色开发(下):​ ​https://openmldb.ai/docs/zh/m…​​

Q3

基于 OpenMLDB 构建施行建模有无实际,以及典型的特色穿梭用户要解决哪些逻辑?

A

实际在 OpenMLDB 官网和开发文档中找到 usecase 来参考。特色穿梭在 OpenMLDB 外部引擎曾经实现解决,能够失去人造保障了,只有用户数据的工夫戳是正确的,对于工夫的解决逻辑写好就可能做正确计算,保障不会呈现特色穿梭。

Q4

这种 OpenMLDB 能提供过滤器或者拦截器这种轻度 ETL 吗?

A

过滤器或者拦截器的逻辑实现如果能转化成 SQL 的表达方式,就可能实现。如果业务的场景逻辑比较复杂,须要通过 UDF 写一个程序能力实现。如果这位同学感兴趣,能够分割咱们做更深度的交换。

Q5

OpenMLDB 反对 Hudi 和 Iceberg 吗,还是强绑定 Spark/Hadoop 引擎?

A

目前离线引擎是和 Spark 绑定,因为有源代码级别的批改,所以不可能做到配适即可应用。离线的数据源目前来自 HDFS,尚未反对 Hudi/Iceberg 的计划,将来如果社区小伙伴有需要,咱们会优先思考。

Q6

模型训练大批量读取或者大批量回刷 OpenMLDB 是否接受?性能如何?

A

模型训练基于咱们优化过的 Spark 引擎,如果 Spark 机器资源足够,就没有问题。

Q7

打算什么时候开发 Windows 版本的 SDK 呢?

A

因为一些 C++ 库的移植问题,目前还不提供,目前有 Linux 和 MacOS 版本的。如果大家只是试用的话,能够通过 docker 镜像,试用咱们的 SDK。

Q8

数据怎么分区,是按 key 分区的吗?

A

是的,数据是依照 key 进行分区的。不同的索引,对应的 key 可能会不同,所以每个索引可能会有不同的分区。

Q9

后续 OpenMLDB 升高应用门槛和老本有什么布局吗?

A

对于升高应用门槛方面,在下一个版本曾经有布局,包含集群的部署,启动,数据恢复等。

应用老本上,目前曾经有磁盘表的性能,能够在就义局部性能的前提下,升高应用老本。

Q10

是否反对图谱数据?

A

目前不反对,OpenMLDB 次要反对结构化的表格数据。

OpenMLDB 社区

在此感激大家对于本次 meetup 的大力支持,如果想进一步理解 OpenMLDB 或者参加社区技术交换,能够通过以下渠道取得相干信息和互动。

Github: ​ ​https://github.com/4paradigm/…​​

官网:​ ​https://openmldb.ai/​​

Email: [email protected]

OpenMLDB 微信交换群:


退出移动版