目前,HTAP数据库成为数据库畛域最热门的话题之一,Gartner分析师甚至指出,HTAP曾经成为新一代数据库的入场筹码,HTAP为什么会火起来?如何实现HTAP能力?HTAP下一步是否会向着超交融HSTAP方向演进?整个数据技术栈是否会像十年前iPhone整合掉MP3、手机通信、相机等一样,被一个数据平台整合?本文通过采访相干专家对上述问题进行探讨。

天下大势分久必合合久必分,数据技术亦是如此。

千禧年后随着信息化和数字化倒退,数据技术走向凋敝,百花齐放。近年来,随着数字化转型深刻,数据价值愈发凸显,数据技术呈现了交融趋势。比方,软硬一体,湖仓一体,HTAP数据库等等。

近两年,咱们看到市场上除了炽热的HTAP数据库,还呈现了HSTAP数据库和HTSAP数据库的说法,多进去的S是什么?是新瓶装旧酒?还是数据技术交融下的新摸索?

炽热的HTAP乱花迷人眼

“在继分布式、NoSQL/NewSQL之后,国内数据库技术界的当红炸子鸡,非云原生、HTAP莫属。”去年DTCC2021中国数据库技术大会后,一位专家如此写道。

HTAP是TP与AP的交融,心愿用一套零碎,解决用户的TP和AP需要,这一数据库的交融趋势,不限于中国,在寰球都是一样的来势汹汹。比方,2022年 5月,Google Cloud 公布了主打HTAP的云端数据库AlloyDB, 6月,Snowflake公布了行存储引擎Unistore,正式进军HTAP。此前,包含MySQL公布Heatwave,加强剖析能力,也是退出了HTAP大战。

Gartner分析师甚至指出,HTAP曾经成为新一代数据库的入场筹码,HTAP能力成为数据库必备选项。信通院在7月中旬也启动了首批“可信数据库”-HTAP数据库产品评测……

2014年Gartner对HTAP数据库给出了明确定义,即须要同时反对OLTP和OLAP场景,基于翻新的计算存储框架,在同一份数据上保障事务的同时反对实时剖析,省去费时的ETL过程。也就是说,反对混合负载的数据库可能防止传统架构中在线与离线数据库之间大量的数据交互,同时也可能针对最新的业务数据进行实时统计分析。

HTAP炽热的背地是需要推动,越来越多的实时剖析场景呈现,比方,金融业中对实时性要求较高的风控、实时账单、实时促销等业务场景,以及新一代Web3.0、NFT、区块链等对实时数据敏感的畛域。在原来的架构下只能反对T+1或者T+N剖析,曾经不能满足需要,而省去ETL的HTAP数据库能够实现T+0的实时剖析。通常来讲,实现HTAP能够分为两大类,第一大类是将现有的 TP 与 AP 包装,通过一些中间件的形式将其连接起来再做封装,以相似中台的形式封装实现。比方,TP用了MySQL,AP用某数据仓库或者数据湖,两头用Flink串起来,且对用户通明,包装成一个绝对比拟对立的治理界面。实现起来容易,然而组件多,老本高。第二大类,交融架构,摈弃现有的 TP 与 AP 独立架构,从底层存储开始就将 TP 与 AP 的引擎交融起来,造成一套零碎。为了防止在线实时读写与批处理作业之间的资源烦扰,HTAP混合负载型数据库通常应用读写拆散或内存解决技术实现。一般来说,分布式数据库的多正本架构人造反对读写拆散技术,而基于传统架构的数据库往往采纳内存解决技术进行实现。不过,交融架构下的HTAP数据库也是乱花渐欲迷人眼。

矩阵起源CTO张颖峰认为,在数字化转型浪潮中,数据库将表演比以往更为重要的角色,在数据技术交融的大趋势下,当初的HTAP还有有余,矩阵起源提出了超交融HSTAP数据库的定位,多进去的“S”又是什么?

交融的下一站是HSTAP?

“为什么要加S呢?是指用户应用TP和AP时的数据结构和能力要求不肯定雷同,肯定要有货色在这两者之间做桥梁。”张颖峰介绍,在开掘数据价值过程中,数据库是企业数据资产或者数据平台的组成根底,如在一个数据中台中,用户须要基于OLTP(通常来自业务中台)的表做ETL工作,Join成宽表保留到OLAP用来做交互式剖析。为什么要有宽表呢?这有两方面的起因:其一是分析师建模不便,其二是减少许多维度字段,晋升查问效率。在这种场景下,以Flink为外围的数据流解决,成为了串起上下游的外围引擎,而其中的典型操作,就是Stream Join,把多个表实时连接成一张表保留到指标数据库,进一步资产化。单纯的HTAP,通常只能用于实时剖析,无奈满足这种通用场景的要求。

矩阵起源所提的HSTAP中的“S”指的是串联AP和TP的Streaming能力,即在HTAP数据库外部实现了数据库内置流解决能力。通过一种翻新的架构实际极简理念,把数据库的复杂度留给产品的研发阶段,而把简略、易用、好用的最终体验带给用户。

“咱们定义的HSTAP是指,在这个平台外面,无论是TP还是AP负载,用户都能够得心应手地去创立各种表,也能够得心应手用一个流,用相似于流的语法,把各种表连起来。”张颖峰强调。比方用户心愿对订单明细表进行剖析,须要Stream Join成一张宽表。那么,随着有订单明细表的数据更新,宽表也将自动更新,然而不必保护该更新机制。即把用户的ETL工作内置到数据库当中,这样就让一个数据库同时具备AP、TP和S(流)的能力。

在矩阵起源团队看来,当下的数据栈,包含数据库、数据仓库、数据湖,这些自身就不应该如此割裂。之所以割裂,这外面有技术的因素,也有历史因素,同时具备TP、AP、流三者能力的HSTAP会帮忙客户彻底突破数据孤岛问题,成为企业未来的智能化外围数据基础设施。“HTAP、流批一体、湖仓一体,这些新的技术趋势都能够蕴含在HSTAP的领域内。”张颖峰指出。

有人对此会有疑难,HTAP还没有做好,去做HSTAP不是天方夜谭、痴人说梦吗?

矩阵起源Global CTO田丰指出,实现一个HSTAP有两方面的挑战,一是架构方面的取舍。应用一款开源和成熟的数据库来扩大,会比较稳定而且容易疾速推出产品,但有十分惨重的历史包袱,无奈应答将来新型利用和基础设施的须要,因而MO(MatrixOne缩写)决定本人从头开始研发。 二是如何实现不同负载的资源隔离以及高效的资源分配。在这一点上,MO创新性的提出了贮存、计算和事务分层解耦的架构,使得资源分配能够随着各种负载的变动高效调配,并能够做到单种负载的独立扩大。


▲MatrixOne愿景架构图

去年成立的矩阵起源,其外围开创团队成员都是数据库畛域的资深人士,公司创始人&CEO 王龙,曾在腾讯云负责副总裁,对数据库有着独特的见解和洞察。Global CTO田丰博士师从数据库元老David DeWitt,多篇论文入选数据库顶会SIGMOD、VLDB。公司CTO张颖峰经验过互联网大厂,并在大型企业负责过技术负责人,深耕后端分布式存储等技术,既懂甲方也懂乙方。去年该公司接连取得两轮融资,取得资本的青眼。

从信息化到数字化,几十年来,数据技术栈不断丰富,从数据库、数据仓库、数据湖、湖仓一体,到流解决引擎Flink、批处理引擎Kafka等,因为技术以及历史倒退等多种起因,很多企业都以搭积木的模式积攒了丰盛的IT资产。现在数据技术走向了大交融,比方湖仓一体、HTAP,以及矩阵起源提出的HSTAP。很像十年前,iPhone智能手机的呈现交融了通信、音频MP3、视频MP4、相机等。现在,MP3曾经隐没,MP4演变为iPad等持续沉闷,便捷的智能手机代替了大部分业余相机和MP3的应用场景。

数据技术的超交融是否会像智能手机一样产生?

田丰认为,像智能手机一样,将来企业数据平台的交融是一个趋势,当初一个企业可能有MySQL、SQLite、Oracle、Spark、Flink、Clickhouse等多种数据库或者数据处理技术,而在将来一个公司所有数据或者大部分数据都会集中在一个整合的、简略易用、易运维、高性价比的数据平台上,最大水平保证数据的平安和牢靠,同时升高利用开发和治理的难度以及复杂度。不过因为过来数十年很多大企业曾经积攒了十几种甚至更多的IT零碎,整合的过程是漫长和波折的。矩阵起源心愿并置信MatrixOne这样的超交融数据库会是一个现实的载体。相比于生产级的智能手机,作为数字基础设施的数据库,其替换难度和老本都太高。而且没有任何一套架构或者一套零碎可能打遍天下,企业也不心愿零碎过重造成供应商锁定。田丰强调,MatrixOne并不是关闭的,而是会踊跃融入到凋谢的数据技术生态中,比方企业曾经部署了Flink计算引擎,MatrixOne会与之适配。但企业新建一个业务零碎,MatrixOne会是好的抉择。正是因为秉持开源凋谢的准则,MatrixOne从一开始便抉择了开源。

一个好的数据库是用进去的,数据技术交融趋势不可挡,HSTAP这个新理念将来会在更多理论场景中验证、倒退和成长。