乐趣区

关于数据库:首个机器学习实时特征平台测试基准论文被-VLDB-2023-录取

国内顶级数据库学术会议 VLDB 2023 将于 2023 年 8 月份在加拿大温哥华举办。近日,由清华大学、新加坡国立大学、以及 OpenMLDB 社区联结实现的科研成果 – 业界第一个谨严的机器学习实时特色平台测试基准,被大会录取并且受邀在现场报告。论文题目为:FEBench: A Benchmark for Real-Time Relational Data Feature Extraction

VLDB(Very Large Data Base)是计算机领域最为重要和出名的学术会议之一,和 SIGMOD 并列为学术界两大影响力最大的数据库会议,专一于探讨和钻研大规模数据管理和解决。该会议会集了世界各地顶尖专家、学者和工程师,旨在分享最新的研究成果、翻新技术和最佳实际,以应答解决大规模数据所带来的挑战。VLDB 的成绩对于推动数据驱动决策、智能零碎的倒退和翻新利用具备重要意义,对计算机科学和古代社会具备深远影响。

在本次被 VLDB 所入取的工作中,三方联结团队提出了工业界和学术界的第一个面向机器学习实时特色平台的谨严的测试基准,并且进行了开源。明天,基于机器学习的实时决策曾经在金融、批发、互联网、媒体、能源、医疗等畛域被广泛应用。这一类利用个别会分为实时特色和机器学习模型两局部,其中实时特色往往也是性能和成果的瓶颈。然而业界目前还没有一个被广泛承受的针对实时特色平台的测试基准(相似利用于数据库畛域的 TPC-H, TPC-DS 等测试基准)。一个被谨严且被宽泛承受的测试基准对于推动软硬件产品迭代、产品技术升级均有重大意义。因而,联结团队的工作补救了这一空白,推出了业界首个谨严的机器学习实时特色平台测试基准。团队收集了超过 100 个实用于实时决策利用的数据集,通过聚类、定量分析等形式,最终抉择了 6 个代表性数据集以及相应的特色计算逻辑,形成了整个测试基准。团队进一步对于 Flink 和 OpenMLDB 这两款在工业界被广泛应用的实时特色平台进行了测试和比拟,分享了相干的发现和洞察。

该论文将会在往年 8 月举办的 VLDB 2023 正式公开,届时咱们也将同步发表深度解析文章,敬请关注。目前其第一版的测试基准曾经开源,详情拜访:https://github.com/decis-bench/febench

理解更多

如果想进一步理解 OpenMLDB 或者参加社区技术交换,能够通过以下渠道取得相干信息和互动。

OpenMLDB 官网
https://openmldb.ai/

OpenMLDB GitHub 主页
https://github.com/4paradigm/OpenMLDB

OpenMLDB 微信交换群

退出移动版