关于dba:我们又错过了一艘船数据库的征程是星辰大海

6次阅读

共计 7965 个字符,预计需要花费 20 分钟才能阅读完成。

​导语 | 关系型数据库体系曾经走过了 50 年的历程,这期间数据库曾经成为数字化时代的外围组件。近年来,国产数据库更是百花齐放,走上历史舞台。在历史倒退的每个阶段,数据库技术都经验了哪些关键性的演进,在将来,数据库技术又将走向何方?本文由云和恩墨 CEO、腾讯云 TVP 盖国强在 Techo TVP 开发者峰会「数据的冰与火之歌——从在线数据库技术,到海量数据分析技术」的《万象更新——数据库技术的倒退与将来》演讲分享整顿而成,为大家详尽介绍数据库技术的要害演进阶段、当先的技术摸索方向,论述国内数据库倒退的最新动向。

点击可观看精彩演讲视频

一、数据库行业的三大趋势

我带来的主题是“万象更新”,明天,用这四个字来掂量中国的数据库畛域是恰到好处的,市场上大量国产数据库不断涌现,不同的国产数据库在不同的场景里找到了更广大的利用空间,这是数据库时代的中国时刻。

为了阐释这些观点,首先分享我对行业的一些判断。

1. 走进新数据库时代

首先我认为数据库的技术倒退通过了三个时代:从商业数据库时代到开源时代,再演进到明天——我称之为新数据库时代。留神,很多人把明天这个时代称作“云数据库时代”,然而我更违心用一个“新”字,因为国外和国内的数据库市场呈现出不同的倒退格局。

商业数据库时代次要是以 Oracle 为代表,衍生了一系列商业数据库软件公司,这个时代,很多国产数据库公司在十分晚期就开始了摸索。

第二个时代是以 MySQL 为代表的开源数据库时代,开源成就了互联网,明天大家应用了很多腾讯的服务、产品,为什么可能失去疾速的、便宜的甚至是收费的互联网服务?就是因为互联网的底座是由收费和开源的精力承载,开源技术成就了互联网。

第三,明天进入了新数据库时代。开源数据库技术依靠云产生了价值,过来开源技术很难被评估产生了多少商业销售和商业价值,但明天在云上它们能够被贩售,它的价值就能够被量度。昨天 Gartner 收回的报告提到微软数据库曾经超过了 Oracle,成为了寰球市场的第一,中国市场上腾讯云、阿里云和华为云是三大数据库的领先者,这阐明什么?这阐明在新的时代里云成为了数据库最重要的一个阵地。

然而中国的数据库畛域还呈现出了新的特质——百花齐放的数据库生态。因为国产数据库的自主翻新和迭代起步晚,仍要重走一遍国外的技术路,这是中国数据库呈现出的不同格局。TDSQL 是从 2012 年就开始的,明天有一系列的国产数据库在市场上锋芒毕露。

2. 数据库成为云上的终极之战

第二个大的趋势是什么呢?是数据库最终成为了云上的终极之战。

因为云最根本的特质是以 IaaS 为根底,当实现了 IaaS 这一层的建设,紧接着是 PaaS 层,PaaS 这一层就必须解决数据库的问题,谁可能率先买通 PaaS 层,谁就可能博得竞争劣势。

举个 AWS 的例子,AWS 在 2019 年发表将 7500 个 Oracle 数据库都彻底替换,为什么它是一个十分重要的事件?因为在每年甲骨文的寰球大会上,Oracle 都会讥笑一次亚马逊:你们在云上卖开源的数据库、卖你们本人的云数据库,但其实你却要从我这儿购买大量的 Oracle License。所以亚马逊就收回承诺,要把它们全副替掉,在 2019 年实现了。在这个替换的过程中最终出现进去的实质是什么?我援用了亚马逊在替换实现之后他们的首席布道官的一段话,他说咱们传统的 DBA 大部分工作工夫耗费在数据库的扩容、存储的扩容以及 License 许可的会谈上,而传统 DBA 所做的这些工作明天都能够通过云自助来实现,这是实质上的变动,这个实质的变动是互联网的技术、云的技术使得传统工作能够自动化实现,我认为这实质上是改革的外围。

3. toB 市场是数据库成败要害

在中国市场略有不同,我认为在中国市场未来会是一个私有云和混合云长期共存的时代,而且公有云依然会占有广大的市场。在这个倒退格局之下会呈现出一种什么样的数据库格局?

我把它概括为,将云的体验最终要转移到数据上,既然不是所有的数据库、数据都能上到私有云,那么咱们就须要将私有云那些最佳的用户体验、主动自治的个性转移到公有的数据环境部署上,这在剖析报告里被称为叫 TPC,是说仅仅有了 IaaS 和基础设施,不能成为一个真正的公有云,还须要具备互联网的用户体验、真正云的弹性伸缩等外围能力。所以我认为在数据库畛域,尤其在中国市场高低一步的格局就是云的体验云下化,最终云上和云下会趋于统一,云会成为将来惟一的基础设施提供状态,只不过还有私有、公有的两种说法而已,实质内核趋同。

二、数据库技术的学术界观点

方才谈的是咱们在工业界生产实践中看到的几大趋势:从商业到开源到云时代,从云上到云下,云上体验的云下化。咱们再来看看学术界在探讨什么,在思考什么。

近五十年间图灵奖所授予的 5 个数据库畛域的大神,第一个是巴赫曼,他是网状数据库的发起者。第二个是科德,他是咱们明天所在探讨的关系型数据库的缔造者,通过他 1970 年发表的一篇论文,催生了整个关系型数据库波澜壮阔的大格局,他在 1981 年取得了图灵奖。第三位是格雷,他是事务实践的深刻探索者,他在工业实现上是包含微软等数据库产品的灵魂人物。第四位是迈克尔·斯通布雷克传授,他在 2014 年取得了图灵奖,也发动了很多数据库我的项目的守业公司。和大家重点分享一下在 2021 年刚刚取得了图灵奖的乌尔曼,他的次要成就是在教学畛域,他写过十分驰名的龙书,是很多数据科学家的启蒙导师。

大家能够略微思考一下这样的演进过程产生了一些什么变动?从最早的实践奠基人到事务的探索者;再到斯通布雷克在工业界的产品化的尝试——从关系型行存到列存、到大数据,他摸索了很多畛域;再回归到明天咱们说乌尔曼,他是从学术界、从学校的教育开始,去从新思考这些数据库实践是不是依然有摸索、翻新、变革的可能性。我方才和李海翔老师探讨,他说最近他在思考的就是这样一些事件,试图从事务模型上再做出新的考虑翻新。所以我把它看成是关系型数据库实践倒退到山穷水复疑无路,但大家开始回头来看在这些基础理论上是不是还有柳暗花明的机会,这是我的观点。

乌尔曼传授在他最近的论文里提出了这样一个观点,叫“数据迷信之战”。所以大家曾经看到了我提到了两个和平,一场是说数据库是云上的终极之战,这是大家公认的;第二场是数据迷信之战。在很长一段时间内数据库畛域有一种乐观的声音,大家说数据库管理系统正在变得无关紧要,做数据库的人常常在谈的一句话是“咱们是不是又错过了一艘船”,这艘船是数据迷信。数据迷信的蓬勃发展、炽热的现状让做数据库的人感觉是不是咱们又错过了一班最好的邮轮。然而乌尔曼传授提出,数据库以及因为数据库研究所产生的技术依然是数据迷信最实质的内核,这个没有变,数据库系统的外围始终是如何尽最大的可能去解决最大的数据量,并且应该去钻研所有数据。我认为他把数据库的实质又从新论述进去了,咱们钻研数据库的人、钻研数据技术的人想做的是什么呢?就是存储所有数据,钻研所有数据,最初在这些数据里产生洞察。如果人工智能可能在数据迷信里施展真正的翻新作用,那这个世界能够变得更美妙,然而它的底座肯定是一些原生的数据。

三、Oracle 数据库的外围演进和翻新

1. 宏观演进

既然学术界有这样一些认识,认为存储所有数据、钻研所有数据依然是数据管理系统的实质,那我想跟大家回顾一下在明天数据库畛域里仍处于王者位置的 Oracle 是怎么走完这条路的。

我略微列举了一下从 Oracle8 到明天走过的要害历程。在 Oracle8 这个版本上,大家看到 Oracle 曾经推出了互联网版本 8i,Oracle 看互联网看得晚吗?不是,它从 1998 年开始就把产品定义为 i,为互联网而生,1998 年是什么时候?很多 90 后那时可能还在幼儿园,但那时的互联网曾经在探讨数据库了。Oracle 针对并行处理做研发、数据库原生的 XML 反对,这正好是我入行的时候,所以我最早就钻研了这个技术在数据库里的实现。到了 Oracle9i 做了什么?它做了集群,并且集群真正走向成熟了,就是共享存储的分布式集群,Oracle 开发本人的 Linux 发行版,开始做数据库的自动化技术。到了 2004 年 Oracle10g 的时候,做了 Oracle 自动化存储管理技术,这是一个十分胜利的产品,它间接导致了市场上做存储软件的一些公司隐没了,所以你能够设想它的影响力,这是十分重要的技术事件。

再到了 2008 年,进入 Oracle11 这个版本,它开始开发一体机产品,开始做数据库端的读写拆散等技术,然而留神在这里我重点标出了一个工夫点:2006 年,AWS 这时推出了 S3 技术,我认为 Oracle 数据库在倒退的历程中只错过了一件事件,就是云。当 AWS 在 2006 年推出 S3 的时候,Oracle 创始人在 2008 年是这样回复的,他说我认为云是用新瓶装了老酒,没有新的技术创新,是大家炒作的一个概念。可是咱们当初回头去看,他的判断出错了,也正是因为这一步的判断出错,大家看到了当初数据库畛域的领先者都是在云上胜利的这些厂商,比方微软的云胜利了,所以微软变成了数据库的第一,Oracle 降落到了第二位。所以咱们说洞察将来十分难,然而十分重要,它事关生死,这也是咱们明天在这里探讨数据库将来的起因。

咱们疾速向下推动,Oracle 在 2017 年推出的 12c 版本里开始做分布式,并不是像大家了解的 Oracle 没有分布式。在 2018 年的时候 18c 把它的集群也做成了分片式的架构,也反对了 IOT。到了 2019 年在 19c 中它反对了智能化的索引——我认为智能化索引是一个翻新,真正曾经用到生产实践中了。再到 20c——当初 Oracle 每年会公布一个版本,以年度进行命名,然而留神,因为疫情的起因其实 20c 没有公布,会合并到往年公布 21c——长久化内存被利用到数据库里了,这阐明什么?阐明 Oracle 数据库依然是一个具备创新力的产品,正在一直地把当先的技术用到数据库的内核中去,提供新的生产力,这里包含人工智能的索引,这些都代表了明天的前沿。包含它的多模、软硬联合——所以 Oracle 所走的这些技术路线在明天数据库畛域看起来少数都是对的,它只错过了云这一件事件。

2. 宏观演进

我方才讲的其实是几个宏观上的概念,在宏观上我找了一些小的要点跟大家剖析一下。

数据库明天着眼于性能向前演进最重要的是什么?是把原来的串行点打散变成并行点,其实就是微小的性能晋升,不论是 Oracle 还是 TDSQL,还是其余国产数据库,明天最次要的翻新、性能晋升是在做这样的事件。我举几个简略的例子:比方从 Oracle9i 的时候,开始把共享内存池进行分片拆分,拆成了七份;通过 ASM 把存储进行分布式地打散;把过程进行主从拆分。比方从 12c,把日志写过程变成了主从,在几十年的历程中 Oracle 的日志写过程只有一个,单过程写日志,然而从 12c 开始变成了主从,这是一个艰巨的扭转,咱们晓得绝大多数数据库的性能瓶颈会产生在日志的同步落盘上,大家都在做优化。19c 的实时统计信息,再加上到明天的 19c 智能化索引——其实这个智能化索引的思路比较简单,它就是把人的思维模仿进去,通过人的专家系统进行思考创立一个什么样的索引,去进行尝试确认,性能晋升保留,性能降落则删除——然而真正落到工业实现实属不易。在 20c 里,提出了主动的参数调节以及自治的主备切换等等,把这些能力都融入数据库中,这是 Oracle 走过的 40 多年的技术改革之路,它依然在这条路上向前飞驰。

四、以腾讯 TDSQL 为例,国产数据库的演进之路

咱们再来看国产数据库如何走技术演进之路。我后面提到了关系型数据库技术从 1970 年科德博士的一篇论文开始,曾经走过了 50 年的历程,这 50 年在咱们做数据库的人眼里,很多时候感觉关系型数据库曾经快到止境了,它将来的路在哪里?我认为关系型数据库将来的路应该在中国,为什么在中国呢?是因为中国有最宏大的数据基础设施、最集中式的数据利用零碎,所以这是我的判断。

如果咱们在中国看,至多很多业务零碎是省级集中的,而一个比拟大的省份就可能有上亿的人口,这样集中式的数据基础设施在国外是不可设想的。关系型数据库实践走到明天为什么能够有冲破?我认为就肯定是在利用中找到冲破,所以其实我也在看腾讯 TDSQL 的倒退演进进化,从让 TDSQL 逐渐地能用和走向成熟,这是实现了第一步迭代。第二步迭代,它必须在内部走到最广大的用户群体、用户场景去应用,最值得大家关注的案例就是微众银行。微众银行明天做到的是单日交易峰值有 6 亿笔,最高 TPS 能够达到 10 万笔,这是一个什么概念?6 亿笔的交易大家能够想像,这是多宽广的一个用户群体可能发明进去的交易,这样频繁的、高频的交易肯定会促使数据库一直地去欠缺、提高。如果大家用过 Oracle 的话会晓得 Oracle 数据库在生产零碎中能承载的交易峰值和并发的交易笔数,如果你可能见到一个超过每秒 1 万笔交易的 Oracle 数据库,曾经是一个微小的挑战,然而明天在互联网的模式下,在分布式的架构下,海量的利用、海量的高并发能够被反对,所以这是我认为在中国的场景下能够带来的催化剂,这些催化剂会促使数据库找到新的向上的空间。

开展来说,一旦一个开源数据库要利用到金融外围上,必须解决的外围问题是什么?第一个是数据安全问题,如何让数据保障一致性是相对可信赖的,TDSQL 进行了数据强统一的革新,主从节点默认是强同步的,这是一个技术创新。第二,当咱们应用了分布式架构,也就意味着须要治理的数据节点会迅速收缩,原来繁多的数据库存储,当初在这种架构下可能会有成千盈百的数据节点,这样成千盈百的数据节点不可能再依赖人去做数据保护,因为做不到了,所以这外面有一组数据,有 1 万个服务节点在微众银行运行,怎么办?它肯定要依赖于高度自动化的监控和故障解决伎俩,最好是不须要人染指,我认为这也是数据技术倒退的重要将来。有了这些之后,我方才提到整个 TDSQL 是基于分布式构建的,读写拆散是它的根本要义,这样一个零碎在反对这样的场景下逐步找到了将来的倒退之路。

这是一个两年前的案例,TDSQL 在张家港农商行的客户场景下,把过来的金融交易外围彻底代替。微众银行是一家互联网银行,它的先天劣势是没有历史包袱,然而对于一个传统银行,它的数据架构、数据利用是非常复杂的,不仅有交易、存取款、账户,还要有对账,这样简单的业务场景如何在一个新的数据库架构上落地,其实很艰难。这个案例腾讯和最终客户应该是通过两年多的工夫才推到线上,当初看来后果是十分好的,一主三备模式,秒级的故障切换,我始终在关注。

但这个案例里给我另外一个十分重要的信息是 TDSQL 所提供的赤兔和扁鹊零碎成为了自动化运维的一个根基,为什么我认为这十分重要?将来的数据库肯定不是一个繁多的数据库内核零碎,而应该是一个数据库生态体系,蕴含了自动化运维、自治的主备切换、自治的高可用等个性,这些个性也是 Oracle 明天在做的,我认为在将来会是十分具备竞争力的外围个性。

五、数据库技术倒退的将来方向

总结一下,方才是所察看到的行业利用的变动、数据库技术从实践到实际的变动、Oracle 的变动包含 TDSQL 的倒退,当初看数据库的演进将来应该是什么样?首先我说数据库的更迭代替肯定不是重走一次长征路,不能用国产数据库把商业数据库替换了,然而不好用,这样用户是没方法承受的,所以它肯定不应该是性能和体验的降级,而应该是降级,但如何能力降级?我认为这五大方向是咱们应该思考的:

第一是分布式,分布式能解决的是弹性伸缩、故障自愈,这两者同样重要,更重要的是当呈现故障的时候不须要人紧急染指,它能够自愈。

第二是智能化,将人工智能技术利用到数据库里,比方去解决 DBA 过来所面临的外围挑战。DBA 过来做优化,很大一部分工作是帮数据库去优化索引,所以 Oracle 在这一步上优先做的是智能索引,变成自动化,惯例的根底工作实现了,索引变成智能的,执行打算是可控的,那么数据库就不再须要特地多的人力染指。

第三是多模化,这一点是有争议的。我后面提到了亚马逊把 7500 个 Oracle 数据库替换成了本人的云数据库,能够设想会用多少个云数据库去替换原来的 7500 个 Oracle?很可能是 75000 个甚至是 75 万个,为什么?因为 Oracle 是一个多模数据库,外面能够存储大对象、IOT 等各种类型的数据,只管这种混合存储并不一定都可能达到最佳,然而对于用户呈现出的界面是最简略的。我认为数据库的倒退肯定也是分分合合的历程,走向分,最终也会走向合,繁多的界面输入对于用户是最佳的,如果扩散,那就要实现高度自动化。

第四是软硬一体,数据库技术肯定不是独立倒退的,它肯定能够依赖硬件技术的提高获得卓越的性能晋升,所以为什么很多数据库明天都在打造一体机?通过高速的网络以及高速 NVME 存储晋升整体的性能,所以软硬协同倒退不可短少,未来最外围的是数据库技术应该下压到 CPU 处理器一级去做优化,我认为这是能够做到的,而且在中国将来肯定也能够做到。

第五是云化交融,云会成为将来惟一的状态。尽管私有云和公有云依然是两个世界,然而会趋同,技术栈、用户体验都会趋同,而且云上体验云下化是数据库技术倒退当下一个最重要的趋势。

所以这五个观点交融在一起,代表了我对将来数据库倒退的一些判断。反复一下,如果国产数据库心愿让用户取得更好的体验而非降级,只有一个门路去补救,就是自动化,通过自动化的生态和工具去解决这方面的问题,内核可能还比不上国内一流水准,然而自动化能够帮忙用户不去面对底层简单的基础设施。

最初点一下题,叫 DBA 的冰与火之歌。已经很多 DBA 敌人一度陷入迷茫,尤其是在 Oracle 营垒的 DBA 们,他说在国产数据库的浪潮之下 Oracle 的 DBA 们还能生存吗?很多人常常问我会被历史淘汰吗?我说不会,首先咱们认为数据肯定会变成将来数字企业的外围资产,它会越来越重要,这是大家公认的一个前提。第二整个数据库的运行还是绝对简单的,它波及到了主机、网络、存储,是一个全栈的技能需要,具备肯定的技术壁垒,所以 DBA 们不要胆怯就业。第三从原来的数据库治理,你积攒的所有教训在明天能够找到更广大的待业空间,如果咱们充沛了解 Oracle 或者 MySQL 技术,你甚至能够变成一个国产数据库的产品设计师、产品治理师、内核开发者,如果你能把对国外数据库的先进技术变成产品设计和实现驱动,你就变成了咱们国产数据库的外围驱动力,所以国产时代咱们的路不是变窄了,是变宽了,职业路线更加广阔亮堂。DBA 这个群体是十分乐于摸索、分享、总结的一群人,只有咱们具备了这样的能力,将咱们原有的学习转移到新的技术路线上来一点都不简单。

最初我还有一个思考,新的时代,咱们做数据库的要记住这两句话:一主一备双引擎,商用开源两相宜。只学一个数据库肯定不够,商业和开源都要接触、学习,并且相互校对。有一个主修、一个辅修,能够抉择两个科目。在这个国产的时代,从短期看咱们往往是高估了难度,从长期看咱们总是低估了时机,春江水暖鸭先知,如果你意识到了这个行业的改革,尽早转型,尽早投身到国产数据库的浪潮中去,那咱们就是抓住机遇的第一批人。只有躬身入局,才可能当先一步。


讲师简介

盖国强

云和恩墨 CEO、腾讯云 TVP

云和恩墨创始人,ACDU 主席。中国地区最驰名的 Oracle 技术推广者之一,他的专著《深刻解析 Oracle》、《循序渐进 Oracle》等书籍受到 Oracle 技术爱好者的宽泛好评。2009 年,盖国强学生创立了云和恩墨,致力于为中国用户提供业余的数据服务、产品和解决方案,云和恩墨的 dbPaaS 产品和专家服务,曾经服务了国内外 500 多加企业级客户。2019 年,他发动创建墨天轮技术社区和 ACDU(All China DBA Union),致力于继续的数据常识和利用的流传和推广。

正文完
 0