共计 2301 个字符,预计需要花费 6 分钟才能阅读完成。
OpenMLDB Meetup No.6 回顾
会议内容
OpenMLDB 社区于 2022 年 9 月 24 日举办了第六期 meetup,会议相干视频及材料如下:
OpenMLDB PMC core member 卢冕,以《开源机器学习数据库 OpenMLDB:线上线下统一的生产级特色平台》为题,为大家展现疾速降级、高频迭代的 OpenMLDB,介绍了 OpenMLDB 现版本的亮眼性能以及将来的倒退方向。
,时长 39:31
链接: https://pan.baidu.com/s/1z4tU…
提取码:open
37 手游 技术主管 彭佳铭 和 高级算法工程师 左伟健,介绍 37 手游 技术团队引入 OpenMLDB 的历程以及 OpenMLDB 在 37 手游 特色计算场景的利用,具体分享了 OpenMLDB 的试验场景、部署流程、问题解决、最终试验论断与将来瞻望。
,时长 29:13
上篇链接: https://pan.baidu.com/s/1GQIT…
提取码:open
下篇链接: https://pan.baidu.com/s/1abSY…
提取码:open
OpenMLDB PMC core member 张浩,带来了 OpenMLDB 进阶应用攻略,从技术原理以及应用形式上进行介绍常见问题的排查伎俩、双机房反对、长窗口优化、以及高可用等技术干货,为 OpenMLDB 的用户提供高级个性解说和进阶应用办法的领导。
,时长 23:37
链接: https://pan.baidu.com/s/1Ddko…
提取码:open
探讨交换——37 手游
Q1
37 手游应用的编程语言是 MySQL 吗,还是其余语言呢?
A
咱们的编程语言抉择和存储介质有比拟亲密的关系,Mysql 次要利用于业务数据源存储方面,而取数剖析更罕用的是阿里云的 MC。
Q2
37 手游的技术计划如何选型?
A
技术计划选型会有多个技术栈一起试用。大数据计算这一块,上云之前,咱们会应用 自建的 Hive 和 Impala 解决离线数据。上云后,咱们在离线计算会应用 MaxCompute,绝对实时的板块应用 Hologres 做存储引擎计算。接触 OpenMLDB 后,咱们有尝试通过两个技术栈的联合应用,例如特色计算方面,出于缩短开发周期的思考,咱们会优先应用 OpenMLDB。
探讨交换——OpenMLDB
Q1
OpenMLDB 能存多大数据,如果是大数据怎么读取进行训练?
A
OpenMLDB 分为离线和在线两局部。如果是离线局部,也就是这里针对训练场景,走的是 Spark 这一条路,只有 Spark 机器资源足够就能够满足需要。在线局部如果应用的是内存引擎,那么次要耗费的是内存,而 OpenMLDB 是分布式存储,能够程度扩大,应用多个机器;如果在线局部应用磁盘引擎,就是基于 RocksDB 存储,也能够程度扩大。
Q2
是否介绍一下 SQL 解决实时特色?
A
咱们筹备了两篇常见特色解决逻辑 SQL 表白的整顿文章,能够给大家提供参考。
基于 SQL 的特色开发(上): https://openmldb.ai/docs/zh/m…
基于 SQL 的特色开发(下): https://openmldb.ai/docs/zh/m…
Q3
基于 OpenMLDB 构建施行建模有无实际,以及典型的特色穿梭用户要解决哪些逻辑?
A
实际在 OpenMLDB 官网和开发文档中找到 usecase 来参考。特色穿梭在 OpenMLDB 外部引擎曾经实现解决,能够失去人造保障了,只有用户数据的工夫戳是正确的,对于工夫的解决逻辑写好就可能做正确计算,保障不会呈现特色穿梭。
Q4
这种 OpenMLDB 能提供过滤器或者拦截器这种轻度 ETL 吗?
A
过滤器或者拦截器的逻辑实现如果能转化成 SQL 的表达方式,就可能实现。如果业务的场景逻辑比较复杂,须要通过 UDF 写一个程序能力实现。如果这位同学感兴趣,能够分割咱们做更深度的交换。
Q5
OpenMLDB 反对 Hudi 和 Iceberg 吗,还是强绑定 Spark/Hadoop 引擎?
A
目前离线引擎是和 Spark 绑定,因为有源代码级别的批改,所以不可能做到配适即可应用。离线的数据源目前来自 HDFS,尚未反对 Hudi/Iceberg 的计划,将来如果社区小伙伴有需要,咱们会优先思考。
Q6
模型训练大批量读取或者大批量回刷 OpenMLDB 是否接受?性能如何?
A
模型训练基于咱们优化过的 Spark 引擎,如果 Spark 机器资源足够,就没有问题。
Q7
打算什么时候开发 Windows 版本的 SDK 呢?
A
因为一些 C++ 库的移植问题,目前还不提供,目前有 Linux 和 MacOS 版本的。如果大家只是试用的话,能够通过 docker 镜像,试用咱们的 SDK。
Q8
数据怎么分区,是按 key 分区的吗?
A
是的,数据是依照 key 进行分区的。不同的索引,对应的 key 可能会不同,所以每个索引可能会有不同的分区。
Q9
后续 OpenMLDB 升高应用门槛和老本有什么布局吗?
A
对于升高应用门槛方面,在下一个版本曾经有布局,包含集群的部署,启动,数据恢复等。
应用老本上,目前曾经有磁盘表的性能,能够在就义局部性能的前提下,升高应用老本。
Q10
是否反对图谱数据?
A
目前不反对,OpenMLDB 次要反对结构化的表格数据。
OpenMLDB 社区
在此感激大家对于本次 meetup 的大力支持,如果想进一步理解 OpenMLDB 或者参加社区技术交换,能够通过以下渠道取得相干信息和互动。
Github: https://github.com/4paradigm/…
官网: https://openmldb.ai/
Email: [email protected]
OpenMLDB 微信交换群: