关于数据库:NewSQLLakehouseHTAP及数据的未来

48次阅读

共计 4358 个字符,预计需要花费 11 分钟才能阅读完成。

这是一篇对于数据库的古代数据栈的译文,来自前亚马逊、微软、Meta 工程师 Luhui Hu 的文章《NewSQL, Lakehouse, HTAP, and the Future of Data[1]》,帮忙咱们理解以后支流的数据库产品及将来趋势。

数据库是像编程语言和操作系统一样的根本技术。而业务需要进一步推动了技术倒退。在过来的 30 年里,从 SQL 到 NoSQL、NewSQL,曾经呈现了数百种不同的数据库。它们有两个次要的工作负载:OLTP(在线事务处理)OLAP(在线剖析解决),其在各种硬件架构中,包含 shared-everything (比方 Oracle RAC), shared-memory, shared-disk, shared-nothing, and hybrid(比方 Snowflake)。

数据库念旧情结

Charles Bachman 在 20 世纪 60 年代初开发了第一个数据库,而在过来的 30 年里,数据库飞速发展。一开始,人们对数据库的不同查问和模型进行了摸索,包含 SQL、XML 和面向对象。通过十多年的竞争,Oracle、SQL Server 和 MySQL 通过 标准化查询语言 SQL 恪守 ACID(原子性、一致性、隔离性、持久性),简直主导了商业市场和开源社区。

随着数据量、数据类型和数据处理复杂度的增长,NoSQL 因性能效率、模式灵活性和新性能等首次亮相,例如 MongoDB、Redis、Elasticsearch、Cassandra、Neo4J 等。NoSQL 有键值存储、文档数据库、面向列的数据库、图形数据库等。然而 CAP 定理 [2] 和扩大性能扼杀了它们的倒退。许多 NoSQL 数据库曾经为最终的一致性或去规范化进行了斗争或优化。NoSQL 数据库的属性通常能够用一个涣散的 BASE 概念来形容,在恪守 CAP 定理的状况下,它更偏向于可用性而不是一致性。BASE 代表了根本可用性、软状态和最终一致性。

古代数据库须要分布式和可扩大,呈现了许多机制来扩大数据库:复制(主 - 从或主 - 主)、联结、分片、合成、物化视图、SQL 调优、NoSQL 等。而 Raft[3]和 Paxos[4]是分布式数据库的两个重要的共识算法。

NewSQL[5]是一类古代关系型数据库,为 OLTP 工作负载提供与 NoSQL 雷同的可扩展性能,同时仍应用 SQL 并放弃与传统数据库一样的 ACID。

“Data warehouse” 这个名字是为 OLAP 数据库发明的,但当初曾经很少有人把它叫做数据库了。数据仓库是商业智能的外围组成部分,用于数据分析和商业洞察。当十年前大数据平台呈现的时候,它就黯淡了。人们从传统的数据仓库转移到应用数据平台,直到云计算从新赋予数据仓库以新的性能和可扩展性。

随着高性能和高可扩展性的数据云,一个新的时代呈现了,即一个新的数据平台生态系统——古代数据栈

云技术扭转游戏规则

云技术从根本上扭转了数据库的游戏规则,次要体现在两个方面:高效经营和零碎架构

云以两种形式实现了数据库的自动化或半自动化操作:云托管 (半治理甚至齐全治理)和 云原生 。云重塑了数据库的架构,次要是 通过解耦其存储和计算。存储或计算能够独立扩大,以提高效率、性能、灵活性和老本。这种解耦架构也能够为数据库系统整合不同类型的存储和计算,以实现整体的高性能和新性能。

解耦存储和计算可能是云计算的一个基本概念,但 EMRFS(EMR 文件系统)应该是解耦 Hadoop 文件系统(HDFS)在 S3 中存储 HDFS 的第一次致力。随同着这个方向,云 NoSQL(如 DynamoDB 和 BigTable)和云原生 SQL 数据库(又称云 NewSQL)在多个云供应商(AWS、Azure、GCP 等)激增。

对象存储 是云中的晚期存储之一,如 Amazon S3。S3 是第一个对象存储服务,正如其名称(简略存储服务)所示,其目标很简略 –按键放 / 取对象。但因为 S3 的简略性、低成本、高可用性、可扩展性等,它曾经成为云计算的根底。更进一步,它演变成了数据湖,作为 S3 查问的中央,比方 S3 Select,Amazon Athena on S3,以及 Amazon Redshift Spectrum on S3(EB 级)。

NewSQL, Lakehouse,HTAP

几年前,咱们对 NewSQL 和 Lakehouse(数据湖)感到兴奋。当初,在 Databricks 的鼎力宣传下,数据湖曾经成为一个热门词汇。没过多久,像 Presto 开发人员就意识到它 只是在对象存储上运行疾速 SQL,具备数据仓库性能和数据湖灵活性。随后,Dremio、Starburst 和其余公司也很快退出了数据湖这支大军。

数据湖不仅仅是一个流行语,而是一个显著的、有意义的架构对立策略。它整合了数据湖和数据仓库,以进步性能、灵活性和老本效益,打消数据孤岛和 ETL 流程。它对立了所有数据,以简化数据工程流程,并一起反对 BI 和 AI 工作负载。

另一方面,HTAP随着 Google 的 AlloyDB 和 Snowflake 的 Unistore 公布,助长了热门的古代数据栈。同样,Oracle、SQL Server 和其余公司简直在十年前就装备了这个性能。然而,目前的 HTAP 和 Lakehouse 有一个独特的指标,即 打消从 OLTP 到 OLAP 或从数据湖到数据仓库的 ETL。(TP 与 AP 共存,缩小转换门路)

目前的 HTAP 是一个繁多的零碎架构,同时反对 OLTP 和 OLAP 工作负载,不像晚期的一些数据库,能够配置为 OLAP 或 OLTP,但不能一起配置。有两种常见的 HTAP 架构:

  • • 在外部将 OLAP 和 OLTP 联结起来,作为一个繁多的 HTAP 零碎(例如 TiDB);
  • • 将 OLTP TP 行在存储中,OLAP AP 列在内存中或反之集成(例如 AlloyDB 和 Oracle MySQL HeatWave)。

亚马逊 Aurora 是一个关系型数据库服务,齐全兼容 MySQL 和 PostgreSQL。它是第一个云原生 NewSQL 数据库,并被从新开发以解耦数据库存储和计算。简略地说,它将传统数据库集群的存储对立为云存储,并容许独立扩大数据库计算层。这是一个云中的共享架构,与集群上的 Oracle RAC 不同。(集群存储改成云存储,计算层可扩大)

谷歌 Spanner 是另一个云原生 NewSQL 数据库。Snowflake采纳了相似的云原生架构,将存储和计算解耦用于云数据仓库。可怜的是,亚马逊 Redshift 推出较早,但采纳了像 EMR 一样的集群托管架构,在第一场战斗中输给了 Snowflake。

数据的将来

现在,每个公司都是一家数据驱动的公司。数据曾经变得比以往任何时候都更重要。随着业务和技术的变动,数据库和数据堆栈一直疾速倒退。有五个激动人心的畛域在瞻望数据的将来:对立 BI 和 AI,数据网格,多云策略,智能数据及数据资产。

对立的 BI 与 AI

咱们对立所有的数据,以打消数据孤岛、ETL 等。但这并不是指标,指标应该是开释所有数据的商业价值,并反对整个数据域的商业智能和人工智能,包含从描述性到诊断性、预测性剖析的所有数据分析。从数据到商业价值的过程往往波及多类数据人员:数据工程师、数据分析师、数据科学家、机器学习工程师等。对立 BI 和 AI 不仅能够打消数据孤岛和 ETL,还能够简化数据管道,进步利益相关者的生产力。(比方国内的观远 BI?)

特制的数据网格

数据库技术交融是一种趋势,如 NewSQL、Lakehouse 和 HTAP。但正如咱们所知,NewSQL 或数据湖依然是 OLTP 或 OLAP 的一种类型,CAP 定理依然成立。目前的 HTAP 解决方案可能次要是 OLTP 或者适宜小的工作负载。

采纳目前市场上的 HTAP 作为大型企业的数据仓库或非结构化数据的数据湖简直是不事实的。特定用处的数据库能够在性能、可扩展性或特定用例(例如,工夫序列数据、图形、搜寻等)方面更好地满足不同的业务指标。(HTAP 还是在某些中央有短板,非凡用处的数据库性能未纳入进去)

专用的数据库网状结构能够用一个交融层来形象数据库,以实现互连、对立的数据服务和统一的治理。然而,当咱们领有像量子计算或超高速网络、存储的超级弱小的计算时,状况可能会发生变化。

多云策略

多云策略在不挪动数据的状况下,联结了孤立的公共云和公有云。它能够通过多个云供应商进步服务的可用性,通过近距离计算缩小提早 ,实现特定云生态系统或市场的独特性能,通过更多的云产品扩大全局可用性,并增强数据合规性和法规。StarburstDremio是两个当先的多云数据平台的初创公司。多云策略也推动了数据察看性、数据编排、数据共享和数据协调的浪潮。

智能数据

对于人工智能和数据,有三个畛域的相互作用:AI for Data(AIData),AI for Database(AIOps 的一部分)以及 Data for AI(与特色工程和 MLOps 无关)。

智能数据是 AI for Data,在数据品质、数据治理、数据血统、元数据、语义以及来自剖析和 AI 的新数据等方面实现数据智能化。

生成式人工智能 将在智能数据中施展无足轻重的作用。到 2025 年,所有数据的 10% 将由生成式人工智能模型产生,这些数据能够是声音、视频、图像、文本、结构化数据等。它们是高质量的数据,内置丰盛的元数据。这意味着目前的数据库(包含数据湖),因为其丰盛的元数据和指数式增长,可能不是最佳抉择。(模型数据)

数据资产

这是一个组织或集体在数据库或存储中作为数字资产治理数据的准则。这样的数据库不仅是一个数据管理系统,而且还提供或整合了数据可察看性、平安和隐衷爱护、数据生命周期治理等。它与 OLAP 和 OLTP 无关,只管它在 OLAP 社区仿佛更沉闷。与组织的传统数据资产不同,它们能够属于集体。而后,这种数据资产能够被无缝地整合到 web3 中,并可能被铸成一个 NFT。所以,随着 web3 的倒退,它的意义是很大的。

数据的重要性无处不在。瞻望数据平台和服务的倒退,在使商业和生存更便捷、更高兴,这些更令人激动。

援用链接

[1] NewSQL, Lakehouse, HTAP, and the Future of Data: _https://towardsdatascience.co…
[2] CAP 定理: _https://zh.wikipedia.org/wiki…
[3] Raft: _https://en.wikipedia.org/wiki…\_(algorithm)_
[4] Paxos: _https://en.wikipedia.org/wiki…\_(computer\_science)_
[5] NewSQL: _https://en.wikipedia.org/wiki…


欢送关注我的公众号DS 数说,原创技术文章第一工夫推送。

原链接传送门:https://mp.weixin.qq.com/s/21…

正文完
 0