关于数据库:阳振坤从电动汽车看分布式数据库的发展和崛起

1次阅读

共计 5596 个字符,预计需要花费 14 分钟才能阅读完成。

电动汽车与分布式数据库,看似两个风马不相及的事物,其倒退门路却极为雷同:两者都在较晚期被创造,但都没有成为支流。

21 世纪初,受环境保护、温室效应和能源短缺等因素影响,电动汽车再次进入人们的视线,其外围价值却是主动驾驶,技术门槛十分高,须要具备十分复杂的实时零碎。同样是 21 世纪初,因为互联网业务的高并发和海量数据等解决需要,分布式数据库再次被提及,并掀起利用热潮,但分布式数据库的外围价值是单个零碎同时进行联机事务处理与联机剖析解决的能力(HTAP),同样是高技术门槛,须要具备十分复杂的实时零碎。

有需要便会有供应,市面上呈现两种新的产品:混合能源汽车与分库分表数据库。混合能源汽车看似兼备燃油汽车和电动汽车的长处,却因为燃油发动机不能无级平滑调速而无奈实现主动驾驶;分库分表数据库看似兼备集中式数据库和分布式数据库的长处,但因为分库分表中间件把数据分拆到多个数据库,所以无奈实现 HTAP。

本文将对电动汽车与分布式数据库的倒退进行剖析对照。

01、夹缝求生

1886 年 1 月 29 日,德国人卡尔·本茨 (Karl Benz) 申请了三轮汽车的专利(见图 1)[1],这一天被称为古代汽车诞生日。同年,德国人哥德利普·戴姆勒 (Gottlieb Daimler) 制成世界上第一辆四轮汽车。


图 1:世界上第一个汽车专利证书,卡尔·本茨,1886 年

1963 年,美国通用电气公司的查尔斯·巴赫曼(Charles Bachman)等人开发出网状数据库 IDS(Integrated Data Store,见图 2)[2],被认为是第一个数据库。

图 2:数据的随机存取,通用电气公司,1962 年

从 20 世纪初至今,一百多年的工夫里,燃油汽车都是汽车的相对支流。事实上,电动汽车还先于燃油汽车诞生。法国发明家古斯塔夫·特鲁维 (Gustave Trouvé) 于 1881 年创造了电动三轮汽车,并在巴黎市中心的瓦卢瓦街头试车胜利(见图 3)[3]。尽管如此,因为燃油以及发动机在功率体积比和功率分量比等方面的显著劣势,燃油汽车成为汽车畛域的首选。

图 3:世界第一辆电动汽车(1881 年)

相似地,从数据库系统诞生的近六十年的工夫里,集中式数据库是联机事务处理(OLTP)的惟一抉择,只管 1987 年呈现 Ingres Star 分布式数据库(见图 4)[4],但分布式事务的性能以及分布式系统的复杂性,使得分布式数据库仅在近十年数据量十分大的联机剖析解决(OLAP)场景失去了一些利用。

图 4:分布式数据库 Ingres Star 零碎架构

02、时来运转

正所谓“谁无暴风劲雨时,守得云开见月明”,形容电动汽车与分布式数据库的生存转折再适合不过。

21 世纪以来,人类面临环境污染、大气温室效应和能源短缺等的严厉挑战,寰球数以亿计的燃油汽车,其污染物排放、二氧化碳排放和能源消耗成千上万,促使人们寻求无污染、零排放、低能耗的汽车。

得益于大容量蓄电池和疾速充电技术的倒退,电动汽车再次进入人类视线。然而,电池大概 260 千瓦时 / 立方米的能量密度仍然远低于汽油和柴油的 8600 和 9600 千瓦时 / 立方米的能量密度,艰深地讲,汽车行驶须要能量,假如某个体积的电池蕴含的能量能够让汽车行驶 260 公里,那么同样体积的汽油和柴油所蕴含的能量能够别离让汽车行驶 8600 公里和 9600 公里,区别由此可见。而且,随着环境温度的升高,电池储电量会显著降落,这些因素导致电动汽车的续航里程有余,须要充电数小时的电池与几分钟就能加满的油箱更是无法比拟。

因而,传统汽车厂商更多地抉择制作混合能源汽车,即在燃油汽车上减少电池能源作为辅助,堵车或低速行驶时采纳电池作为能源以节约能源并升高污染物排放,失常行驶或高速行驶时则采纳燃油作为能源。此外,一些新兴汽车厂商如特斯拉等,则彻底摒弃燃油计划,开发了纯正以电池作为能源的电动汽车,也称为纯电动汽车。

与此同时,科技的提高与互联网的遍及,迫使越来越多的企业进行数字化转型,在人与人更便捷的互联互通、社会更加智能化的背地,是对业务零碎越来越频繁的并发拜访、越来越宏大的数据处理量。集中式数据库低廉的老本及其存储和计算极为无限的扩大能力都显得顾此失彼,企业不得不寻求性价比更好、存储和计算扩大能力更强的数据库。

分布式技术的倒退和云计算的遍及使分布式数据库“浮出水面”。然而,受限于分布式数据库更加简单、故障定位更加艰难、分布式事务性能有所升高、零碎成熟度有所有余等因素,传统数据库厂商抉择“业务分库分表 + 中间件”的解决方案,即基于集中式数据库,对业务进行较大幅度的革新和拆解、拆分,使每个拆解、拆分后的局部适宜于单个集中式数据库,这就是分库分表数据库。

当然,也有一些新兴数据库厂商如 OceanBase 摒弃了基于集中式数据库的解决方案,开发真正的分布式数据库,也称为原生分布式数据库。值得一提的是,原生分布式数据库实现了一体化 OLTP+OLAP,旨在一个零碎中进行联机事务处理与剖析解决,但真正实现“一体化”的计划极其艰难。

在很多人看来,电动汽车就是汽车把发动机和燃油换成了电动机和电池:

● 燃油汽车 = 发动机 + 燃油 + 底盘 + 车身 + 电气设备

● 电动汽车 = 电动机 + 电池 + 底盘 + 车身 + 电气设备

假使如此,传统汽车厂商凭借本身在大规模汽车生产、销售和服务等方面的丰盛教训,在电动汽车畛域获得成功仿佛不是什么问题。

事实并非如此。首先,2020 年,电动汽车的王者玩家——特斯拉的市值超过了丰田,成为寰球市值最高的汽车公司,紧接着在 2021 年,又超过了包含丰田汽车、大众汽车、戴姆勒、通用汽车、法拉利和宝马等在内的寰球次要汽车公司市值的总和。再来看这一组数据:2021 年,特斯拉新车交付量冲破 93 万辆,营收 538.23 亿美元,GAAP 净利润为 55.19 亿美元;同期,丰田交付约 1,050 万辆新车,净利润 211.7 亿美元。

为什么资本市场如此青眼特斯拉?为什么投资者认为特斯拉有很大的成长空间?

显然,特斯拉迈过了年产 20 万辆车的生死线,并同时放弃很高的毛利率和很快的增长速度,这是资本市场青眼特斯拉的前提条件。特斯拉的外围竞争力包含其电池治理等重要技术。当然,最基本的起因是特斯拉的主动驾驶零碎:

● 悠闲舒服是集体亘古不变的谋求,主动驾驶可能极大地升高汽车驾驶的劳动强度。

● 降本增效是企业永无止境的谋求,主动驾驶不仅节俭了人力,还可能显著地晋升汽车利用率(比方后半夜、高原地区等高风险驾驶环境以及其余不适宜人工驾驶的场景),从而极大地升高汽车总体领有老本。

● 电动机能够无级平滑调速,这是主动驾驶的必要条件,发动机无奈做到这一点,因而燃油汽车和蕴含发动机的混合能源汽车也就无奈实现主动驾驶。

● 主动驾驶零碎是十分复杂的实时零碎,须要长时间的、大量的理论场景打磨,门槛极高。这个极高的门槛,以及传统车载软件与主动驾驶零碎的微小差别,使传统汽车厂商转型到纯电动汽车以及进行主动驾驶技术的积攒,都面临极大挑战。

相似地,在很多人看来,分布式数据库就是把数据库的集中式的存储和计算硬件换成了分布式的存储和计算硬件:

● 集中式数据库系统 = 集中式存储 + 计算硬件 + SQL 子系统 + 事务子系统 + 存储子系统

● 分布式数据库系统 = 分布式存储 + 计算硬件 + SQL 子系统 + 事务子系统 + 存储子系统

假使如此,传统数据库厂商凭借本身在数据库的研发、推广和服务等方面的丰盛教训,在分布式数据库畛域获得成功仿佛不是什么问题。

理论状况也并非如此:

● 悠闲舒服是集体亘古不变的谋求,原生分布式数据库可能用一个零碎同时满足用户 OLTP 和 OLAP 的需要,即 HTAP,防止了数据在 OLTP 和 OLAP 两个零碎之间的复制、转换和加载(ETL),极大地简化了用户的操作,还防止了 ETL 导致的数据一致性问题。

● 降本增效是企业永无止境的谋求,原生分布式数据库一个零碎、一份存储,老本显著低于 OLTP 和 OLAP 两个零碎的两份存储,不仅显著升高用户总体领有老本,还防止了 ETL 导致的数据时效问题。

● 分库分表把业务及数据分拆到多个数据库,因而分库分表数据库无奈实现 HTAP。

● 集中式数据库联机事务处理曾经是开发艰难且十分复杂的实时零碎,分布式联机事务处理的开发则更加简单和艰难,须要长时间的、大量的理论场景打磨,门槛极高。这个极高的门槛,以及传统集中式数据库与原生分布式数据库在 SQL 优化器、事务处理和存储架构等方面的显著差别,使传统数据库厂商转型到原生分布式数据库并实现 HTAP 面临很大的挑战。

话虽如此,但不得不抵赖的是,特斯拉的主动驾驶零碎还有待进一步成熟,一些人对主动驾驶的安全性和可靠性仍然心存疑虑;原生分布式数据库的 HTAP 性能还有待进一步成熟,一些人对 HTAP 是否可能真正实用于生产零碎仍然心存疑虑。因而,应用体验就成了最好的广告。特斯拉因其短途续航、提速快以及主动驾驶的全新体验等个性,播种了泛滥“特迷”。它也是寰球惟一一家获得 NHTSA 五星碰撞安全等级的电动汽车品牌;原生分布式数据库因其高可用、低成本、智能运维、机器利用率低等个性,取得银行、证券、能源、电力、社保等泛滥行业的信赖,并被利用到了企业外围业务场景中。

03、开源凋谢

如果说上述内容是从社会倒退与科技进步的宏观环境比照电动汽车与分布式数据库的成长轨迹,它们是如此的类似,那么在宏观层面如某项产品的倒退,电动汽车与分布式数据库的倒退轨道形态也十分雷同,两者都遵循着“从大到小”的倒退策略与开源凋谢的心态。

从大到小

电动汽车以特斯拉为例,从跑车到高端型 SUV,再到紧凑型 SUV 与小轿车,从面向小众到面向公众;原生分布式数据库的代表 OceanBase 从集群版逐步演变出单机版,从面向宏大业务到兼顾小型业务。

这背地的倒退逻辑是什么?

在一款汽车刚诞生时,没有订购量,更不会疾速取得利润,因而,要做量产少、利润大的产品,前期当老本得以管制时,再量产利润空间小的产品。同样对于数据库来讲,比方 OceanBase 首先在支付宝这样海量数据的场景中落地,因为大业务不那么在意老本、机器配置,应用大容量的硬盘就比拟容易,利用高配置环境撑持业务,再逐渐优化,达到即使应用小配置,也能撑持大业务的指标。

开源凋谢

2014 年,特斯拉发表凋谢所有专利,在所有人狐疑其背地动机的时候,特斯拉曾经意识到了主动驾驶是对汽车行业的颠覆性翻新,即便其余企业领有同样的电动汽车制作能力,特斯拉也自信其可能保障在电动汽车市场的领导位置。彼时人们对电动汽车的认可度还很低,特斯拉须要的是电动汽车产业崛起。

2021 年,OceanBase 发表源代码开源,与外界共享寰球最当先的原生分布式数据库的外围。同样面对外界的质疑。OceanBase 动摇开源,一方面心愿聚焦用户价值,解决用户的具体问题,另一方面冀望与外界共建国产分布式数据库的生态,从另一条赛道超过“IOE”。

二者对开源技术的态度,正如《硅谷钢铁侠》一书中所形容的那样:“当马斯克在 2014 年发表特斯拉将公开其所有专利时,分析师们试图确定他是不是在作秀或者其中是否暗藏了不明动机或者陷阱。但马斯克的决定就是这么坦白,他心愿人们制作并购买电动车。马斯克认为,人类的将来取决于此。如果公开特斯拉的专利意味着其余公司可能更容易地制作出电动车,那么这对人类来说是无利的,这些理念应该是收费的。愤世嫉俗的人肯定会讥笑他的观点,但马斯克曾经打算好这么做,他在解释本人的想法时是真挚的,而且极为真挚。”

04、面向未来

明天,在汽车畛域,纯电动汽车失去了越来越高的认可:

● 特斯拉 Model 3 规范车型,厂家标称续航里程达到了 675km,超级充电桩 15 分钟最大减少 279km 续航里程,续航里程和充电速度都在凑近燃油车。

● 2021 年底,大众汽车发表,2026 年纯电动汽车占比 25%,2030 年纯电动汽车占比 50%,2040 年纯电动汽车靠近 100%。

● 2019 年,宝马的研发总监还在怒怼纯电动汽车:“欧洲不须要纯电动汽车,而燃油汽车至多还能存在 30 年以上的工夫”,然而,2021 年底,宝马发表 2030 年纯电动汽车至多占比 50%。

● 2021 年底,丰田汽车发表将在 2030 年前推出 30 款纯电动汽车。

明天,在数据库畛域,原生分布式数据库获得了很大的提高,越来越多 benchmark[5] 的榜首被原生分布式数据库所占据:

● 国内事务处理性能委员会 TPC 的联机事务处理 TPC-C 性能榜,其榜首地位被 OceanBase 原生分布式数据库在 2020 年 5 月占据,性能约 7.07 亿 tpmC。

● 国内事务处理性能委员会 TPC 的决策反对解决 TPC-DS 性能榜,10,000GB 榜首地位被 Alibaba Cloud AnalyticDB 原生分布式数据库在 2020 年 6 月占据,性能约 19M QphDS;100,000GB 榜首地位被 Databricks Photon Engine 原生分布式数据库在 2021 年 11 月占据,性能约 33M QphDS。

● 国内事务处理性能委员会 TPC 的决策反对解决 TPC-H 性能榜,10,000GB、30,000GB 和 100,000GB 榜首地位均被 EXASOL 原生分布式数据库在 2021 年 6 月占据,性能大概都是 23M QphH。

此外,原生分布式数据库在行业内也失去了越来越高的认可和越来越宽泛的利用。2020 年 11 月,中国人民银行正式公布分布式数据库金融行业标准,包含《分布式数据库技术金融利用标准 技术架构》、《分布式数据库技术金融利用标准 平安技术要求》和《分布式数据库技术金融利用标准 劫难复原要求》这三局部,以领导金融行业的分布式数据库实际。近几年,不仅互联网行业大量采纳原生分布式数据库,越来越多的银行、保险、证券、通信、能源和社保等行业的企业和机构也采纳了原生分布式数据库。

主动驾驶是纯电动车对汽车行业的颠覆式翻新,纯电动汽车是汽车倒退的必然选择;HTAP 是原生分布式数据库对数据库行业的颠覆式翻新,原生分布式数据库是数据库倒退的必然选择。

正文完
 0