关于chrome:对话阿里云李飞飞下一代企业级数据库6大技术方向

44次阅读

共计 5639 个字符,预计需要花费 15 分钟才能阅读完成。

简介:对话李飞飞,不仅仅是一次简略的采访,对老鱼来说,也是一种播种,因为,在数据库畛域李飞飞领有敏锐的触角,对数据库发展趋势有着独到的见解和洞察。

题图:DTCC 2020 大会专访合影(左:老鱼 右:李飞飞)

在 2020 年 12 月完结的 DTCC2020,“百库争鸣”或者是参会者最大的感触。据不齐全统计,目前有名有姓的国产数据库产品多达 200 种。

百花齐放,百家争鸣,这正是用户所须要的。数据库被国家列为“卡脖子”的 35 项关键技术之一。只有对数据库根底钻研越器重,参加的企业越多,关注的人越多,才有可能诞生更好的数据库软件。

下一个 10 年,数据库发展趋势是什么?用户须要什么样的数据库?这可能是很多从业者都想晓得的问题,而这些问题,在 DTCC2020 大会上就有答案。

大会第一天,阿里巴巴团体副总裁,阿里云智能数据库产品事业部负责人李飞飞就分享了他对数据库畛域的察看,并指出了下一代企业级数据库的 6 个关键技术方向。

家喻户晓,Gartner 最新颁布的 2020 年度寰球云数据库魔力象限评估后果,国内有 3 家厂商进入,其中阿里云更是挺进了第一营垒——领导者(LEADERS)象限。这意味着在云数据库这条赛道上,中国数据库并没有落后于人,并且真正走进世界一流。

很多人或者没留意到,往年 Gartner 将 OPDBMS(Operational Database Management Systems)和 DMSA(Data Management Solutions for Analytics)两个本是离开畛域合二为一,成为 CDBMS(Cloud Database Management Systems)。

为什么 Gartner 要这样做?因为 Gartner 认为“There is Only One Cloud Database DBMS Market”。这不仅意味着 CDBMS 魔力象限竞争更为强烈,含金量更高,也意味着一种趋势,数据库和数据仓库是能够交融的。

因而,阿里云对下一代企业级数据库关键技术的判断还是极具参考价值的。

但对于 6 种关键技术,外界其实还存在一些不同的声音。比方,有一种声音认为,HTAP 只是一种场景需要,并非一种趋势。分布式是将来吗?软硬件一体化是不是又回到了被锁定的老路?

为此,老鱼在会后特意专访李飞飞,就这些问题开展探讨。

以下为本次专访对话内容精选:

老鱼:在您看来,过来的 10 年,中国数据库技术倒退出现怎么的趋势?下一个 10 年会朝怎么的方向倒退?

李飞飞:过来十年,数据库畛域最大的趋势,我感觉是从传统数据库架构向云原生架构演进的趋势。

云厂商的崛起,是过来十年十分典型的特色。没有人会想到,忽然有一天,亚马逊也开始做数据库了,并悄无声息的就已达到了寰球数据库当先地位。我认为,这跟云计算新赛道带来的时机是密不可分的。

云计算带来的云原生技术体系催生了云原生数据库和云原生数据仓库。像 AWS Aurora,AWS Redshift, Snowflake, 阿里云 PolarDB、AnalyticDB(ADB)。我认为,都是新赛道带来的全新倒退时机,这是一个十分典型且有着时代代表性的趋势,向云原生演进。

另外一个大趋势,是分布式技术的深度倒退。过来十年,分布式技术从一个比拟高级的状态倒退到明天,有了明天的分布式数据库和分布式数据仓库。

接下来的十年,有哪些趋势?

第一、云原生和分布式会产生深度交融,架构上无缝交融,提供更好的弹性、高可用能力。

第二、智能化技术深度交融,在数据库中,如何用 AI 和相干技术,去做到智能化的运维管控,比方索引举荐,MySQL 治理、异样检测等。

第三、数据库大数据一体化,包含 HTAP 以及离在线一体化,在过来的十几年里,数据库畛域和大数据畛域是离开的,一个做离线,一个做在线,相安无事。但从利用角度或客户视角看,越来越多的客户和利用须要最好是一套零碎来解决数据从生产、解决、存储、生产全链路的过程,客户越来越心愿缩小数据挪动和存储老本,防止天天做数据同步。如果可能实现离在线一体化或可能实现 HTAP 事务剖析一体化或离线计算在线查问一体化,那这些问题都能够迎刃而解。这也是我认为,下个十年十分要害的趋势。这也是为什么 Gartner 将 OPDBMS(Operational Database Management Systems)和 DMSA(Data Management Solutions for Analytics)两个本是离开畛域合二为一背地的外围逻辑。

第四、多模,除了结构化数据,怎么去解决文本、图片等非结构化和半结构化数据?用数据库办法去交融解决这些数据。

第五、软硬件一体化,肯定要关注硬件倒退,比方:NVM、高速网络等新硬件对数据库系统设计带来的冲击。

第六、平安可信,这是个永恒的话题。不是最新趋势,但会一直演进。如何联合区块链技术在数据库系统里提供不可篡改性,如何将加密技术做到数据库里对数据进行全程加密爱护。


老鱼:对于 HTAP 还是颇有些争议。有观点认为,HTAP 只是一种细分应用场景,还谈不上不是将来数据库的趋势,并且不倡议把 OLTP 和 OLAP 业务齐全混合,认为在典型的 OLTP 解决场景就应用面向 OLTP 设计的数据库,否则,既达不到 OLAP 的扩展性,又无奈满足 OLTP 的实时、高性能等要求。您怎么看?

李飞飞:中国有句古话,鱼和熊掌不可兼得。如果,明天有人通知用户说“我明天做了个 HTAP 数据库能够替换传统的 OLTP 数据库,也能够替换传统的 OLAP 数据仓库,传统的 OLTP、OLAP 零碎都没有用了”,那是不可能的。

如果用户就是在线交易场景、高并发、读写抵触十分高,这种状况下还要做 OLAP,做多表聚合查问,是非常复杂的。此种状况下,和高并发事务放在一起,肯定会有挑战。

那为什么还要讲 HTAP,我认为并不是要彻底取代传统 OLTP 或彻底取代传统 OLAP 数据库,HTAP 有本人的市场。一些在线事务、在线交易的场景下,如果做一些不太简单的剖析,或者做简单剖析但隔离级别要求没那么高,对实时性要求也不那么高,在这种场景下,能不能做到既做 OLTP 又做 OLAP?那是有可能的。

比方,在咱们事务处理里,都做三正本,三正本里能够做行列转换,两个正本能够是行存,第三个正本是列存,去读列存正本,并保障高隔离机制高实时可见要求,在这种场景下是没问题的。但如果做非常复杂,时效性要求十分高的剖析计算,还是要专门的 OLAP 零碎。

另外,将离线和在线一体化,既能做在线交互式剖析也能做离线 ETL 是刚需。这个过程中,既然要做实时增、删、改、查又要做交互式剖析和简单离线计算(然而前提是在肯定的隔离级别以下,比方 RC),肯定会产生 HTAP 场景,但这个 HTAP 和现实中的 HTAP 既能反对高隔离级别、高并发还能做简单剖析是两个概念。

我感觉,将来的场景肯定是有简单剖析计算场景、数据库大数据一体化场景,不论从那种角度,OLAP 反对肯定级别的 OLTP,OLTP 做得十分好还能兼顾肯定的 OLAP,这种场景是存在的。


老鱼:这几年,分布式数据库十分火,很多企业都在试水,有胜利的,也有失败的,有种说法,数据量不上肯定规模,没有超高峰值,没有高并发的场景就没必要用分布式数据库,因为,很可能不能取得什么显著劣势。您怎么看?

李飞飞:在明天的演讲中,我旗帜鲜明的提到,不能为了分布式而分布式。明天分布式很火,有泛滥起因。在美国市场,分布式 OLTP 数据库商业化胜利的案例并不多。以 Oracle 为例,并没有将分布式作为最重要的主攻方向。

这其中包含美国分布式数据库鼻祖 Google Spanner 以及进去守业的 CockRoachDB,商业化规模也有待进一步晋升。分布式解决的外围问题是程度拓展问题,但有前提条件,你的业务逻辑和数据分布办法是根本完满匹配的,这样能够做到完满的并行分布式解决,这没问题。但现实很美妙,事实很骨干,很多业务场景没方法做到完满,即便能做到,业务逻辑随着工夫会变动,数据分布就可能会发生变化。

还有一种可能,一份数据有多个不同的业务,就像电商场景,既有买家又有卖家,你这数据到底是按买家 ID 来做,还是按卖家 ID 来做。不同业务场景需要不一样,无论是按哪个逻辑去做分库,最终会导致跨库分布式事务处理和分布式查问。在明天的场景下,如果要保障高级别的 ACID,高并发场景下如果业务逻辑和数据分布不统一,肯定会带来大的读写抵触和事务处理老本,这是分布式数据库无奈完满解决的问题。

咱们不能为分布式而分布式,而是要看业务场景,什么样的业务场景须要分布式革新?比方业务逻辑绝对成熟固定,数据分布也比较稳定,不大可能产生忽然的数据分布变动,这种场景下做一个分布式设计,那没问题,还能够提供完满程度拓展能力。如果不是这种场景,或者并非超高并发,大部分业务零碎和利用其实并不需要分布式革新。

传统单机零碎也有非常明显“短板”,用云原生能力对资源进行池化,实现资源解耦,能够对利用做通明集中式部署,能完满解决了这个场景。

再往后怎么办,将分布式能力和云原生能力联合起来,将两者的劣势联合起来。我感觉这才是下一代零碎应该去做的一些冲破。


老鱼:您方才提到的趋势里,有软硬一体,以前咱们常常吐槽友商一款产品软硬一体带来锁定。当初又回到了软硬一体的路上,这到底是提高还是倒退?

李飞飞:软硬一体,不能了解为软硬一体绑定部署,如果是软硬一体绑定部署就回到了以前那条老路上。尽管以前的产品有很多设计思维值得咱们借鉴,实际上,有些产品先于云厂商意识到资源池化、资源解偶的重要性,并早于云厂商做了这些工作,但很惋惜,是紧耦合的形式去做的,所以,市场的反馈没有那么好。

明天我讲软硬一体,并不是要去做这种软硬件紧耦合在一起的部署,而是说,要去联合硬件的特点来设计和优化数据库系统。尤其是能规模化部署的硬件,客户并不需要为软硬件一体化设计,因为这种硬件曾经是通用硬件,这个十分要害。

软硬件一体化优化,是每家数据库厂商都必须要做的,因为零碎实质是平安、高效的应用无限的硬件资源,必须联合硬件的特点来优化和设计零碎。但问题是,不能针对特定、非凡硬件去做紧耦合,这样倒逼用户去革新硬件,这个老本太大。然而对普适性硬件如果熟视无睹,不针对硬件特点去倒退会掉队。

总的来说,我想表白的软硬件一体化的逻辑,是针对具备普适性、规模化铺开的硬件,依据硬件一直倒退的个性,疾速敏锐捕获新个性,在数据库系统设计里把硬件个性施展进去。


老鱼:往年阿里云首次进入 Gartner 寰球领导力象限,您怎么对待这次入选?阿里云数据库将来将如何去放弃跟扩充本人的领导劣势?

李飞飞:阿里云只是中国数据库的一个代表。往年不仅阿里云进入寰球领导者象限,咱们看到,有 2 家友商也首次进入了魔力象限,我感觉,这是历史性冲破。

阿里云进入寰球领导者象限,代表着中国数据库行业整体程度曾经达到世界领先行列。进入第一营垒了,这是十分值得自豪和骄傲的,也给咱们后续的倒退奠定了十分好的根底。

尤其是往年 Gartner 将大数据管理剖析和传统事务数据库合二为一,在这个背景下获得这个问题,十分难能可贵。

咱们看到各大云厂商以及 Oracle、IBM 等老牌和新贵 Databricks、Snowflakes 都在外面。后续竞争,我置信每一年会越来越强烈,怎么去放弃?

第一,从市场中来、回到市场中去,贴着客户需要去倒退,而不是自嗨。

比方;明天咱们看到,阿里云在公共云市场份额十分大,但也看到混合云市场机会十分大,针对混合云市场,如何去打造咱们的产品和技术?这是新的挑战。这种挑战甚至能够说,美国云厂商遇到的挑战都没有咱们多。

中国互联网为什么在某种程度上倒退的比美国还要好?因为市场驱动、客户驱动、利用驱动,中国有这么多人口,有密集城市,所以中国的互联网利用在某些水平倒退的反而比美国好,因为它有驱动利用倒退和翻新的条件。在混合云市场,中国也具备这样的条件。

美国 IT 数字化水平十分高,进入云计算之前,其数字化水平十分高。所以美国的企业对拥抱私有云绝对中国市场是十分自然而然的事件。但中国市场不一样,中国市场有中国市场的特点。

传统政企对公共云的拥抱必定没有美国市场度高。所以,在中国混合云市场在相当长一段时间里会是一个外围赛道,这个市场上怎么发力?技术产品怎么设计?从市场需求登程,联合市场特点,做出一些差异化有特色的产品十分要害,这是第一点。

第二点,既然是寰球领导者,那么,在寰球市场上的体现就十分重要。阿里云不仅做中国市场,也要走出国门。在明天的环境下,在欧美市场会有一些挑战,但在东南亚市场,在欧美市场之外还有广大的市场空间等着咱们去增长。

这些市场,阿里云要直面国外云厂商的竞争,在与它们的 PK 中去博得客户。往年,阿里云能进入寰球领导者象限很要害的起因是,阿里云有很多海内客户,很多是从国外云厂商迁徙过去,这对 Gartner 而言,是十分重要的信号,阐明阿里云做得更好,客户用脚来投票,这是十分有说服力的。


老鱼:阿里云数据库产品线,往年相比去年有什么变动?

李飞飞:咱们会进一步聚焦,OLTP 外围产品是 PolarDB 及分布式版 PolarDB-X。OLAP 有两个外围产品,别离是云原生数据仓库 AnalyticDB 和云原生数据湖剖析 DLA。NoSQL 畛域也是两个外围产品,云原生多模数据库 Lindorm 和云原生内存数据库 Tair。

还有托管产品 RDS 和 NoSQL、和工具类产品。对托管产品,阿里云更多是在管控平台这一层投入,联合云原生和智能化的技术把托管的劣势施展进去。比方自动化实例治理、高可用等。

阿里云的外围思路还是聚焦在主赛道上,在外围自研产品上加大投入,托管产品和生态搭档达成很好的单干关系,施展托管平台劣势。比方 MongoDB,以前咱们还在 MongoDB 上投入研发,当初兵力都膨胀回来,咱们跟 MongoDB 签了个协定,用它的最新版,不是挺好的吗?从数据库内核产品再到运维服务再到利用开发 ISV,借助和倒退生态的力量是咱们的外围策略。

作者:老鱼笔记
原文链接
本文为阿里云原创内容,未经容许不得转载

正文完
 0