共计 5710 个字符,预计需要花费 15 分钟才能阅读完成。
VLDB 简介
VLDB 会议的全称是 Very Large Data Bases Conferences,由 VLDB Endowment 主办,来自寰球各地的数据库相干畛域钻研人员、供应商、参与者、利用开发者等独特参加和关注的国内重大学术会议。其目标在于促成和替换全世界范畴内的数据库及其相干畛域中的前沿学术工作。VLDB 与 ACM 主办的 SIGMOD、IEEE 主办的 ICDE 合称数据库畛域三大顶级会议。而在发表论文难度和受关注水平上,VLDB 与 SIGMOD 堪称并驾齐驱。
值得一提的是,与少数计算机领域学术会议一年一次或两次的投稿周期不同,VLDB Endowment 自 2008 年以来建设了 PVLDB(The Proceedings of the VLDB),尔后以期刊的模式评审论文,每一个月为一次投稿周期,即每个月的 1 号为上个月投稿周期的截止工夫,一年有 12 次投稿机会。而审稿周期较传统期刊更短,论文作者个别会在一个半月到两个月的工夫内收到评审意见反馈。在每年的 VLDB 会议上,一年以来被 PVLDB 收录的论文将进行集中报告。
VLDB 2019
2019 的 VLDB 会议已是第 45 届会议,于 2019 年 8 月 26 日至 30 日在美国西海岸的驰名城市洛杉矶举办。大会议程包含 3 个主题演讲 (Keynote)、28 个学术论文报告分会 (Research Session)、4 个工业界论文报告分会 (Industry Session)、2 个工业界邀请演讲 (Invited Industry Talks)、2 个零碎展现论坛 (Demo Session)、7 个教程 (Tutorial),以及博士生论坛 (PhD Workshop) 和多个子研讨会 (Workshop)等。共历时 5 天,其中首尾两天是各个 Workshop,正会 3 天。
一共有 128 篇 Research Paper,22 篇 Industry Paper,以及 48 篇 Demo Paper 入选。与去年相比,收录的 Research Paper 和 Demo Paper 数量放弃根本稳固,而 Industry Paper 有了显著的晋升,从去年的 12 篇减少到往年的 22 篇。从投稿数量与录用率来看,Research Paper 投稿 677 篇,录用率 18.9%,Industry Paper 为 72/30.6%,Demo Paper 为 127/37.8%。与去年相比,Research Paper 的投稿数量略有降落,录用率则根本持平。
从工业界论文的收录数量减少能够看出,往年的 VLDB 会议学术界和工业界单干交换趋势进一步加强。而且除了 Industry Paper 以外,在 Research Paper 中也有许多工作是由企业或企业与高校联结实现的,例如 Google、Microsoft、IBM 等均有多篇 Research Paper 入选。大会的程序委员会中也能见到诸多业界人士负责分会主席或审稿人。
国内方面,往年由大陆高校(不含港澳台)和企业主导或参加的 Research Paper 共有 27 篇,数量上与去年相比略有晋升,其中清华大学、浙江大学等高校均发表了多篇论文。来自大陆高校的论文中,最次要的钻研方向集中在图数据和机器学习,其中有 7 篇论文与图数据相干。从今年大陆高校在 VLDB、SIGMOD 等数据库会议的论文发表状况来看,图数据始终是华人学者比拟强势的钻研方向。此外,在查问优化、隐衷爱护、空间数据、众包、区块链等主题上,国内高校也均有波及。国内业界对于数据库学术会议的参与度进一步提高,腾讯、华为等国内企业在本届会议上均有论文发表,钻研方向次要集中在 RDBMS 和分布式系统。
在本次 VLDB 会议上,腾讯公司也设立了展台,接下来,本文次要从论文散布和技术倒退动向对本届 VLDB 论文进行概览。
论文总体散布状况
为了便于统一安排论文报告分会的工夫长度,本届大会将论文粗略地依照钻研方向均分为了 28 个 Research Session 和 4 个 Industry Session,每个 Session 有 4 - 5 篇论文进行报告。
因为论文的钻研方向散布不平衡,热门的方向会安顿多个 Session,例如事务处理、查问优化、分布式系统和图数据,而论文数量较少的不同方向可能混淆在同一个 Session 中,因而各 Session 之间的界线和层级关系并不太清晰。
VLDB 2018 各畛域论文散布
因为存在一篇论文波及多个畛域的状况,因而图 1 中各个领域论文的数量之和大于了总论文数量。从图 1 的散布状况能够看出,关系型数据库(RDBMS)的钻研依然是支流,但总体数量上比去年(见图 2)有所缩小(往年 34,去年 42),占总论文数量的约 1 /4;其次是对于图数据和图数据库系统的钻研,相干论文波及了大规模数据图上的子图匹配、社团发现、带束缚的最短门路查问等经典算法问题,以及分布式环境下的图宰割等问题。除了关系数据模型的统治位置不可撼动之外,近年来图数据模型也逐步被利用于理论业务中。而无论是关系型数据、图数据或是其余数据类型,查问执行和查问优化始终是性能优化的外围问题。随着挪动互联网、物联网近年来的疾速倒退,一直催生了依赖于时空信息且实时性强的利用,因此时空数据和流数据的相干论文在本届会议上也占据了一席之地。此外,机器学习与数据库逐步分割严密,也有一些论文尝试应用机器学习算法来优化查问算法。
RDBMS 中各子畛域论文散布状况
在与 RDBMS 相干的论文中,咱们进一步依照其波及的子畛域进行细分,如图 3 所示。本届会议上无关事务处理的论文数量与去年(见图 4)相比有明显增加,分布式事务处理既是难点也是热点。而查问优化、存储优化、缓存优化这些与性能密切相关的主题始终是数据库畛域钻研的外围。此外,研究者们逐步意识到如何促成用户更不便直观地拜访数据库是一个须要解决的重要问题,学术界将其定义为数据可用性(Data Usability)问题,因此近年来也有不少论文围绕这一问题钻研了交互式拜访接口、数据可视化等技术。
来自工业界的论文
工业界的论文来自 Google、Microsoft、IBM、Amazon、Facebook、SAP、eBay,以及国内的腾讯、华为等企业。除了 20 篇 Industry Paper 之外,依据咱们的统计,在 Research Paper 中由企业独立实现或主导实现的论文有 11 篇,企业与高校单干的论文有 17 篇,占到 Research Paper 的 1/5;而 Demo Paper 中,也有 14 篇企业主导或参加的论文。由此可见工业界在数据库钻研中参与度之高,企业与高校的单干日益亲密。显著感到与学术界论文的区别是,工业界的论文更加重视零碎实现和业务落地,而学术界论文则侧重于某个技术难点或者说算法问题的攻关。两者的劣势联合则更有可能产出高质量的研究成果。
数据库技术倒退动向
咱们从本届 VLDB 论文中尝试察看总结数据库技术倒退的新动向,抛砖引玉,期待与读者独特交换。如下是本届大会论文探讨到的一些重要话题。
分布式事务处理
随着摩尔定律的停滞生效,单机存储和计算能力增长遇到了瓶颈,古代数据库系统也朝着分布式多机集群倒退,而其中遇到的最大的技术挑战即是分布式事务处理。如何放弃分布式数据的一致性,事务隔离性不同级别的高效实现,都有待进一步深入研究。在本届 VLDB 中,事务处理的相干论文数量也有了明显增加。
例如论文“Adaptive Optimistic Concurrency Control for Heterogeneous Workloads”提出了一个简略无效的 AOCC(自适应乐观并发管制)框架。依据查问读取的记录数,以及波及更新操作的并发事务的写大小,AOCC 自适应地抉择适合的 Validation 策略来升高开销,从而在不就义可串行化的前提下晋升异质负荷的性能。论文“Improving Optimistic Concurrency Control Through Transaction Batching and Operation Reordering”则通过事务的批量执行和操作的重排序来晋升 OCC 性能。凑巧,TDSQL 的第二代事务处理机制,也是基于 OCC 机制,期待能有机会和大家深刻进行探讨。
论文“SLOG: Serializable, Low-latency, Geo-replicated Transactions”指出,现有的反对异地备援(Geo-replicated)的数据库通常须要在三个方面做取舍:(1)严格可串行化,(2)低提早写入,(3)高事务处理吞吐量。该论文提出的 SLOG 零碎利用了物理分区的局部性特色,可能同时满足以上三个要求。
在事务处理中,数据的故障复原机制是很简单的一项。传统的数据库实现通常须要保护 WAL(Write Ahead Log)和数据自身的长久化存储,而且复原算法渗透到了零碎的各个模块,即数据库的各个模块在设计和实现时都须要思考复原性能的正确性,以放弃事务的原子性。论文“FineLine: Log-structured Transactional Storage and Recovery”中提出了 FineLine——一个事务存储和复原机制,舍弃了传统 WAL,将所有须要长久化的数据存储到一个繁多的数据结构,达到了数据库的长久化局部和内存中数据之间的设计解耦。
区块链技术 & Best Paper Award
区块链也是当下的热门话题之一,本届 VLDB 减少了一个对于区块链的独自 Session,共有 4 篇论文入围。值得一提的是,本届 VLDB 的 Best Paper Award 颁予了论文“Fine-Grained, Secure and Efficient Data Provenance on Blockchain Systems”。
这篇最佳论文的钻研动机是,区块链零碎还没有一个不便的办法来追溯数据的起源和变迁(Lineage,血统),只能依附回放事务来重现过来的状态,这种形式实用于大规模的线下剖析,然而不适宜线上的事务处理零碎。论文给出一个简略的例子:账户 A 给 B 转账,要求近期账户 B 的每日余额位于某一阈值以上,才可转账,现有零碎须要重放近期 B 账户每天的交易,能力作出转账的决策。为了解决这样的问题,该论文提出了 LineageChain 零碎,可能做到细粒度、平安高效地回溯区块链数据。LineageChain 基于 Hyperledger 实现,底层存储为 ForkBase (同一团队研发的面向区块链的存储系统,论文发表于 VLDB 2018,“ForkBase: An Efficient Storage Engine for Blockchain and Forkable Applications”)。论文提出了一种新型的索引,针对区块链数据起源和变迁的查问作出优化。在线交易进行时,LineageChain 可能精密、平安地保留下数据的变迁,并且对外提供简略的接口来拜访这些数据变迁。
这篇论文提及“The management of that history, also known as data provenance or lineage, has been studied extensively in database systems”,其实,这是对于历史数据的一种治理理念,其外围是认为“历史数据具备价值”。这一理念,使得数据处理系统的数据处理疆域扩大,延长到了历史数据的存储、治理和计算畛域,十分有意义。作为“Best Paper”,该文有许多值得咱们学习之处。而殊途同归的是,腾讯 TDSQL 在本届 VLDB 投中的《A Lightweight and Efficient Temporal Database Management System in TDSQL》一文,系统地论述了腾讯 TDSQL 对于历史数据管理的齐备计划和次要技术:从数据生命周期到全时态数据模型的建设、从事务处理到分布式系统的全局读统一,从查问优化到索引建设,从事务型生产零碎到剖析历史数据的剖析型集群的数据无损、性能无损的体系结构的一体化构建,表明了腾讯公司 TDSQL 零碎解决历史数据的齐备性、先进性,以及技术的前瞻性。
独一无二,AWS 在 2018 年底公布的 QLDB [Quantum Ledger Database (量子账本数据库) ],也意在解决历史态数据的存储、治理和计算。详情可参考《论亚马逊 QLDB 与腾讯 TDSQL 对历史数据的治理和计算》。
新硬件
新的存储硬件和计算硬件,例如 NVM、SSD、NUMA,SIMD、多核 CPU、GPU、FPGA 等,为数据库性能的 scale up 带来了新的机会。如何充分利用新硬件的劣势来进步数据库性能也是近年来的钻研热点之一。本届 VLDB 有多达 9 篇论文波及该方向,提供了应用 GPU、SIMD 减速 RDBMS 或者机器学习平台的并行计算能力,应用 NUMA 实现分布式数据库的高可用数据复制计划等新技术思路。
机器学习平台
机器学习、深度学习作为时下最为炽热的钻研畛域,也受到了数据库学者的宽泛关注。机器学习、深度学习算法通常是计算密集型工作,而且在理论利用中训练数据通常也远超单机所能接受的数据规模,因而如何利用大数据分布式存储与计算能力,为用户提供一站式的机器学习和深度学习平台服务,是两者的契合点。一个显著的体现是最近三年来的数据库畛域会议如 VLDB、SIGMOD 减少了机器学习相干的 Track。
应用机器学习算法优化 DBMS 性能
这是机器学习与数据库技术的另一个结合点。例如论文“Towards a Learning Optimizer for Shared Clouds”钻研了在多租户云数据库环境下,应用历史查问的执行统计数据进行训练学习,来预估将来查问的两头后果基数大小,从而领导生成更优的查问打算。此外,近两年的 VLDB、SIGMOD 也有应用机器学习模型来优化索引构造、存储、参数主动调优的相干钻研工作。
图数据库与图计算平台
相比于关系表构造,图模型更能灵便地示意事物实体之间的关联关系。随着常识图谱的遍及和利用,对图数据的钻研在数据库畛域占据了一席之地。但与关系表的 Lookup、Scan、Join 等基本操作不同,图的各种算法操作品种繁多,而且其中很多算法复杂度较高。大规模图数据的存储、查问和各种剖析计算,成为了新的技术难点。相干的钻研内容有图数据库和图剖析计算平台的构建。