这是一篇对于数据库的古代数据栈的译文,来自前亚马逊、微软、Meta工程师Luhui Hu的文章《NewSQL, Lakehouse, HTAP, and the Future of Data[1]》,帮忙咱们理解以后支流的数据库产品及将来趋势。

数据库是像编程语言和操作系统一样的根本技术。而业务需要进一步推动了技术倒退。在过来的30年里,从SQL到NoSQL、NewSQL,曾经呈现了数百种不同的数据库。它们有两个次要的工作负载:OLTP(在线事务处理)OLAP(在线剖析解决),其在各种硬件架构中,包含shared-everything (比方Oracle RAC), shared-memory, shared-disk, shared-nothing, and hybrid(比方Snowflake)。

数据库念旧情结

Charles Bachman在20世纪60年代初开发了第一个数据库,而在过来的30年里,数据库飞速发展。一开始,人们对数据库的不同查问和模型进行了摸索,包含SQL、XML和面向对象。通过十多年的竞争,Oracle、SQL Server和MySQL通过标准化查询语言SQL恪守ACID(原子性、一致性、隔离性、持久性),简直主导了商业市场和开源社区。

随着数据量、数据类型和数据处理复杂度的增长,NoSQL因性能效率、模式灵活性和新性能等首次亮相,例如MongoDB、Redis、Elasticsearch、Cassandra、Neo4J等。NoSQL有键值存储、文档数据库、面向列的数据库、图形数据库等。然而CAP定理[2]和扩大性能扼杀了它们的倒退。许多NoSQL数据库曾经为最终的一致性或去规范化进行了斗争或优化。NoSQL数据库的属性通常能够用一个涣散的BASE概念来形容,在恪守CAP定理的状况下,它更偏向于可用性而不是一致性。BASE代表了根本可用性、软状态和最终一致性。

古代数据库须要分布式和可扩大,呈现了许多机制来扩大数据库:复制(主-从或主-主)、联结、分片、合成、物化视图、SQL调优、NoSQL等。而Raft[3]和Paxos[4]是分布式数据库的两个重要的共识算法。

NewSQL[5]是一类古代关系型数据库,为OLTP工作负载提供与NoSQL雷同的可扩展性能,同时仍应用SQL并放弃与传统数据库一样的ACID。

"Data warehouse"这个名字是为OLAP数据库发明的,但当初曾经很少有人把它叫做数据库了。数据仓库是商业智能的外围组成部分,用于数据分析和商业洞察。当十年前大数据平台呈现的时候,它就黯淡了。人们从传统的数据仓库转移到应用数据平台,直到云计算从新赋予数据仓库以新的性能和可扩展性。

随着高性能和高可扩展性的数据云,一个新的时代呈现了,即一个新的数据平台生态系统——古代数据栈

云技术扭转游戏规则

云技术从根本上扭转了数据库的游戏规则,次要体现在两个方面:高效经营和零碎架构

云以两种形式实现了数据库的自动化或半自动化操作:云托管(半治理甚至齐全治理)和云原生。云重塑了数据库的架构,次要是通过解耦其存储和计算。存储或计算能够独立扩大,以提高效率、性能、灵活性和老本。这种解耦架构也能够为数据库系统整合不同类型的存储和计算,以实现整体的高性能和新性能。

解耦存储和计算可能是云计算的一个基本概念,但EMRFS(EMR文件系统)应该是解耦Hadoop文件系统(HDFS)在S3中存储HDFS的第一次致力。随同着这个方向,云NoSQL(如DynamoDB和BigTable)和云原生SQL数据库(又称云NewSQL)在多个云供应商(AWS、Azure、GCP等)激增。

对象存储是云中的晚期存储之一,如Amazon S3。S3是第一个对象存储服务,正如其名称(简略存储服务)所示,其目标很简略--按键放/取对象。但因为S3的简略性、低成本、高可用性、可扩展性等,它曾经成为云计算的根底。更进一步,它演变成了数据湖,作为S3查问的中央,比方S3 Select,Amazon Athena on S3,以及Amazon Redshift Spectrum on S3(EB级)。

NewSQL, Lakehouse,HTAP

几年前,咱们对NewSQL和Lakehouse(数据湖)感到兴奋。当初,在Databricks的鼎力宣传下,数据湖曾经成为一个热门词汇。没过多久,像Presto开发人员就意识到它只是在对象存储上运行疾速SQL,具备数据仓库性能和数据湖灵活性。随后,Dremio、Starburst和其余公司也很快退出了数据湖这支大军。

数据湖不仅仅是一个流行语,而是一个显著的、有意义的架构对立策略。它整合了数据湖和数据仓库,以进步性能、灵活性和老本效益,打消数据孤岛和ETL流程。它对立了所有数据,以简化数据工程流程,并一起反对BI和AI工作负载。

另一方面,HTAP随着Google的AlloyDB和Snowflake的Unistore公布,助长了热门的古代数据栈。同样,Oracle、SQL Server和其余公司简直在十年前就装备了这个性能。然而,目前的HTAP和Lakehouse有一个独特的指标,即打消从OLTP到OLAP或从数据湖到数据仓库的ETL。(TP与AP共存,缩小转换门路)

目前的HTAP是一个繁多的零碎架构,同时反对OLTP和OLAP工作负载,不像晚期的一些数据库,能够配置为OLAP或OLTP,但不能一起配置。有两种常见的HTAP架构:

  • • 在外部将OLAP和OLTP联结起来,作为一个繁多的HTAP零碎(例如TiDB);
  • • 将OLTP TP行在存储中,OLAP AP列在内存中或反之集成(例如AlloyDB和Oracle MySQL HeatWave)。

亚马逊Aurora是一个关系型数据库服务,齐全兼容MySQL和PostgreSQL。它是第一个云原生NewSQL数据库,并被从新开发以解耦数据库存储和计算。简略地说,它将传统数据库集群的存储对立为云存储,并容许独立扩大数据库计算层。这是一个云中的共享架构,与集群上的Oracle RAC不同。(集群存储改成云存储,计算层可扩大)

谷歌Spanner是另一个云原生NewSQL数据库。Snowflake采纳了相似的云原生架构,将存储和计算解耦用于云数据仓库。可怜的是,亚马逊Redshift推出较早,但采纳了像EMR一样的集群托管架构,在第一场战斗中输给了Snowflake。

数据的将来

现在,每个公司都是一家数据驱动的公司。数据曾经变得比以往任何时候都更重要。随着业务和技术的变动,数据库和数据堆栈一直疾速倒退。有五个激动人心的畛域在瞻望数据的将来:对立BI和AI,数据网格,多云策略,智能数据及数据资产。

对立的BI与AI

咱们对立所有的数据,以打消数据孤岛、ETL等。但这并不是指标,指标应该是开释所有数据的商业价值,并反对整个数据域的商业智能和人工智能,包含从描述性到诊断性、预测性剖析的所有数据分析。从数据到商业价值的过程往往波及多类数据人员:数据工程师、数据分析师、数据科学家、机器学习工程师等。对立BI和AI不仅能够打消数据孤岛和ETL,还能够简化数据管道,进步利益相关者的生产力。(比方国内的观远BI?)

特制的数据网格

数据库技术交融是一种趋势,如NewSQL、Lakehouse和HTAP。但正如咱们所知,NewSQL或数据湖依然是OLTP或OLAP的一种类型,CAP定理依然成立。目前的HTAP解决方案可能次要是OLTP或者适宜小的工作负载。

采纳目前市场上的HTAP作为大型企业的数据仓库或非结构化数据的数据湖简直是不事实的。特定用处的数据库能够在性能、可扩展性或特定用例(例如,工夫序列数据、图形、搜寻等)方面更好地满足不同的业务指标。(HTAP还是在某些中央有短板,非凡用处的数据库性能未纳入进去)

专用的数据库网状结构能够用一个交融层来形象数据库,以实现互连、对立的数据服务和统一的治理。然而,当咱们领有像量子计算或超高速网络、存储的超级弱小的计算时,状况可能会发生变化。

多云策略

多云策略在不挪动数据的状况下,联结了孤立的公共云和公有云。它能够通过多个云供应商进步服务的可用性,通过近距离计算缩小提早,实现特定云生态系统或市场的独特性能,通过更多的云产品扩大全局可用性,并增强数据合规性和法规。StarburstDremio是两个当先的多云数据平台的初创公司。多云策略也推动了数据察看性、数据编排、数据共享和数据协调的浪潮。

智能数据

对于人工智能和数据,有三个畛域的相互作用:AI for Data(AIData),AI for Database(AIOps的一部分)以及Data for AI(与特色工程和MLOps无关)。

智能数据是AI for Data,在数据品质、数据治理、数据血统、元数据、语义以及来自剖析和AI的新数据等方面实现数据智能化。

生成式人工智能将在智能数据中施展无足轻重的作用。到2025年,所有数据的10%将由生成式人工智能模型产生,这些数据能够是声音、视频、图像、文本、结构化数据等。它们是高质量的数据,内置丰盛的元数据。这意味着目前的数据库(包含数据湖),因为其丰盛的元数据和指数式增长,可能不是最佳抉择。(模型数据)

数据资产

这是一个组织或集体在数据库或存储中作为数字资产治理数据的准则。这样的数据库不仅是一个数据管理系统,而且还提供或整合了数据可察看性、平安和隐衷爱护、数据生命周期治理等。它与OLAP和OLTP无关,只管它在OLAP社区仿佛更沉闷。与组织的传统数据资产不同,它们能够属于集体。而后,这种数据资产能够被无缝地整合到web3中,并可能被铸成一个NFT。所以,随着web3的倒退,它的意义是很大的。

数据的重要性无处不在。瞻望数据平台和服务的倒退,在使商业和生存更便捷、更高兴,这些更令人激动。

援用链接

[1] NewSQL, Lakehouse, HTAP, and the Future of Data: _https://towardsdatascience.co...
[2] CAP定理: _https://zh.wikipedia.org/wiki...
[3] Raft: _https://en.wikipedia.org/wiki...\_(algorithm)_
[4] Paxos: _https://en.wikipedia.org/wiki...\_(computer\_science)_
[5] NewSQL: _https://en.wikipedia.org/wiki...


欢送关注我的公众号DS数说,原创技术文章第一工夫推送。

原链接传送门:https://mp.weixin.qq.com/s/21...