关于数据库:万字带你走过数据库的这激荡的三年

60次阅读

共计 25120 个字符,预计需要花费 63 分钟才能阅读完成。

本文收集了卡内基梅隆大学计算机科学系数据库学副教授 Andy Pavlo 从 2021 到 2023 间断三年对数据库畛域的回顾,心愿通过间断三年的回顾让你对数据库畛域的技术倒退有所理解。

对于 Andy Pavlo:卡内基梅隆大学计算机科学系数据库学副教授,数据库调优公司 OtterTune 的 CEO 兼联结创始人。

为了聚焦于数据库技术趋势演变,本文未对原文“寒暄式”结尾和正文性语句作翻译。此外,为了节约局部读者的工夫,本文分为“观点简述”及“历年回顾”两局部:在“观点简述”局部,你将理解到 Andy 这 3 年对数据库的认识、见解;在“历年回顾”局部,你将理解到该年具体的数据库畛域产生的事件,以及 Andy 对该事件的认识。

本文目录:

  • 观点简述
  • 历年回顾

    • 2023 年数据库回顾:向量数据库尽管大火,但没有技术壁垒

      • 向量数据库的崛起

        • Andy 说:向量数据库没有技术护城河
      • SQL 继续变好

        • 属性图查问(SQL/PGQ)
        • 多维数组(SQL/MDA)
        • Andy 说:SQL:2023 是个里程碑
      • MariaDB 的窘境

        • Andy 说:数据库的名誉比以往任何时候都重要
      • 美国航空因政府数据库解体而停飞

        • Andy 说:历史悠久的外围数据系统,是每个数据库从业者最大的噩梦
      • 数据库的融资状况

        • Andy 说:无论初创公司,还是高估值的公司日子都不好过
      • 史上最贵的明码重置

        • Andy 说:意料之外的小人物生存
    • 2022 年数据库回顾:江山代有新人出,区块链数据库还是那个傻主见

      • 放缓的大规模数据库融资

        • Andy 说:不只是 OLAP 畛域,OLTP 畛域前景也一样严厉
      • 区块链数据库还是那个蠢点子

        • Andy 说:有让人服气的用例才是合格的新技术
      • 新的数据系统

        • Andy 说:怅然看到数据库畛域的勃勃生机
      • 数据库先驱的去世

        • Andy 说:这是一个让人惆怅的音讯
      • 数据库的巨额财产和专制

        • Andy 说:Larry 干得丑陋
    • 2021 年数据库回顾:性能之争烽火起,不如低调搞大钱

      • PostgreSQL 的主导地位

        • Andy 说:PostgreSQL 只会在将来几年变得更好
      • 基准测试之争

        • Databricks vs Snowflake
        • Rockset vs Apache Druid vs ClickHouse
        • ClickHouse vs TimescaleDB
        • Andy 说:性能之争不值当
      • 大数据搞大钱

        • Andy 说:咱们正处在数据库的黄金时代
      • 消失的数据库们

        • ServiceNow 收买了 Swarm64
        • Splice Machine 破产了
        • 私募公司收买了 Cloudera
        • Andy 说:2022 年可能会有更多的数据库公司开张
      • 保持的回报

        • Andy 说:为 Larry 快乐

观点简述

从 2021 年衰亡的数据库性能之争,仿佛通过 2 年工夫的洗礼,热度有所升高,2022、2023 的数据库厂商们绝对 Peace 并没有发动过多的性能战。枯木又逢春,只管向量数据库存在已久,2023 年 vector database 又大火的一把。不过在 Andy 看来,向量数据库并没有技术壁垒:有多种现成的集成形式,可疾速集成向量能力到现有的数据库,这些集成形式甚至还有开源的,更是大大降低数据库厂商的集成老本。SQL 新标准 SQL:2023 在对图数据的反对上,尽管目前只是做了读查问的适配,在 Oracle v23c 给出了 Oracle 的图查问示例。不过,目前跟进 SQL/PGQ 的 DBMS 不多,像是 DuckDB 的实验性分支;此外,Andy 感觉 SQL/PGQ 对现有的图数据库并不会造成威逼,毕竟还有查问的性能问题须要攻克。在多维数组的反对上,SQL 新标准强化了数组性能,反对了真正意义上的数组——任意维度的数组。

在融资方面,2021 年是融资大年,各类数据库无论是初创还是老牌数据库厂商都能融到八位数的融资;到了 2022 年,上半年仍旧放弃着“好融资,融资高”的劲头,但在下半年融资状况渐入佳境,大额度的融资变少了,资金缩紧。这个状况连续到了 2023 年,除了市场融资变冷清之外,更多的资金集中到了同向量相干的畛域,尽管还是有一些数据库厂商“破局”胜利融到了钱。

在数据库可继续倒退方面,自 2021 年 Swarm64、Cloudera 被收买,Splice Machine 破产之后。随后的 2022、2023 年,MarkLogic、Ahana、EverSQL、Seafowl 也先后别离被 Progress Software、IBM、Aiven、EnterpriseD 收买,完结了他们的“独立”生涯。

这 3 年也产生了一些逸事,比方 Oracle 的联结创始人 Larry Ellison 尽管在 2018 年在亿万富翁排名中跌至第十位,然而在 2021 年重返第五位,甚至在 2023 年仅次于 Bernard Arnault、Elon Musk、Jeff Bezos 以 1,070 亿美元名列第四。此外,Larry Ellison 在 2023 年还花了 10 亿给 Elon Musk 来重置他的 Twitter 明码好持续他的推特之旅。习惯用子女名来命名数据库的 MySQL、MaxDB、MariaDB 之父 Monty Widenus 预计最近的日子不好过,因为 MariaDB 的公司和基金会产生了一些矛盾,不仅如此,它的市值还蒸发了 90%。

除了下面的一些事件,像是美国航空因政府数据库解体而停飞 11,000 多架飞机、区块链数据库是个蠢点子之类的指控,就得你翻阅历年回顾了。

历年回顾

2023 年数据库回顾:向量数据库尽管大火,但没有技术壁垒

英文原文:https://ottertune.com/blog/2023-databases-retrospective

向量数据库的崛起

毫无疑问,2023 年是向量数据库的一年。只管几年前相干的某些零碎早已存在,但去年人们对 LLM 及其上构建的服务(例如,ChatGPT)的宽泛关注让向量数据库成为大家的眼帘焦点。向量数据库旨在基于语义,而不仅仅是数据内容来提供更深层的数据检索能力,特地是针对非结构化数据。也就是说,应用程序能够搜寻与 主题相干 的文档(例如,“有 Slinging 相干歌曲的 hip-hop 个人”),而 不是蕴含精准关键字(例如,“Wu-Tang Clan”)的文档。

这种主题搜寻所依赖的“魔法”是 transformer),它将数据转换为一个固定长度的一维浮点数向量,称之为嵌入 Embedding。人类尽管不能间接了解这些嵌入的值,但嵌入的内容编码了参数和 transformer 训练语料库之间的某种关系。这些嵌入向量的大小从简略 transformer 的数百维到高端模型的数千维不等。

如果,咱们应用 transformer 为数据库中的所有记录生成嵌入,就能通过查找与给定输出在高维空间中最相近的记录嵌入来搜寻类似记录。然而,暴力比拟所有向量以找到最相近的匹配后果是十分低廉的。这种暴力搜寻的复杂度是 O(N d k),其中 N 是嵌入的数量,d 是每个向量的大小,k 是你想要的匹配数量——你可能不晓得这个复杂度代表什么,反正很蹩脚就是。

这也促成向量数据库的崛起。实质上,向量数据库只是一个带有特定索引数据结构的文档数据库,以减速对嵌入的相似性搜寻。不同于对查问进行精准匹配来找到最类似的向量,向量数据库用近似搜寻来生成后果,在速度和精度之间做了衡量,这种后果做出了“足够好”的折中。

在 2022 年区块链数据库神话崩盘之后,风投们嗅到了向量数据库的商机,再次变得兴奋。他们简直投资了向量数据库畛域的所有支流玩家(厂商)们。在 2023 年的种子轮融资中,Marqo 爆出了一个 520 万美元的种子轮,Qdrant 拿到了 750 万美元的种子轮,而 Chroma 则融到一个巨额的 1,800 万美元种子轮。同年 4 月,Weaviate 在 B 轮胜利融到 5,000 万美元。最抢眼的还是 2023 年 Pinecone 在 B 轮融到让人艳羡的 1 亿美元。很显然,向量数据库公司在正确的工夫点呈现在了正确的赛道。

Andy 说:向量数据库没有技术护城河

自从 LLM 在 2022 年末随着 ChatGPT 变成热点,在 不到一年的工夫,多家 DBMS 厂商便增加了本人的向量搜寻扩大,其中包含有 SingleStore、Oracle、Rockset 和 ClickHouse。同时,不少基于 PostgreSQL 的数据库产品也发表反对向量搜寻;有些应用 pgvector 扩大(像 Supabase、AlloyDB),而另外一些则应用其余的开源 ANN(近似最近邻算法,Approximate Nearest Neighbor)库,比方:Timescale、Neon。此外,当先的 NoSQL 数据库,像 MongoDB 和 Cassandra,也反对了向量索引。

咱们将多个 DBMS 对向量的疾速反对,和先前 JSON 数据类型的衰亡做个有意思的比照。在 2000 年代前期,原生存储 JSON 的 NoSQL 零碎变得风行(像 MongoDB 和 CouchDB)。但在之后几年工夫里,关系型 DBMS 的老牌厂商才增加了对 JSON 的反对,像 PostgreSQL、Oracle 和 MySQL 别离是在 2012、2014 和 2015 年反对的该类型。SQL 规范虽在 SQL:2016 中增加了操作 JSON 数据的函数,但直到 SQL:2023 才增加了官网的 JSON 数据类型。只管许多关系型 DBMS 曾经反对了概念上类似的 XML,这种适配的迁延还是让人唏嘘。

向量搜寻索引的疾速反对有两个可能的解释。第一个是能通过嵌入进行的相似性搜寻越发重要,以至于每个 DBMS 厂商都疾速推出了本人的向量版本并第一工夫发表该音讯。第二个是引入新的拜访办法和索引数据结构所需的工程老本如此低,以至于 DBMS 厂家们增加向量搜寻并不需要太多工作。大多数厂商甚至没有从头开始编写向量索引,而是间接集成了几个可用的高质量开源库之一,像是 Microsoft DiskANN、Meta Faiss。

DBMS 集成向量搜寻能力的老本如此低,向量 DBMS 厂商基本没有足够深的护城河来抵制现有 DBMS 的侵略,放弃竞争劣势。

我最近和两家公司 Pinecone 和 Weaviate(下面提到融资胜利的向量数据库厂商)的联结创始人聊过,他们能够走两条路(详情参考 Andy 对话 Weaviate CTO 的采访视频)。第一条路是,客户开始用向量 DBMS 作为“记录数据库”,厂商将为操作型工作提供更好的反对。最终,向量数据库会看起来更像风行的文档 DBMS,比方:MongoDB。接着,在五年内,像之前的 NoSQL 一样减少对 SQL 的反对。另一条路是,向量 DBMS 作为次级数据库,通过上游操作型 DBMS 的变更进行更新。就像人们应用 Elastic 和 Vespa 这样的搜索引擎 DBMS 一样。在这种状况下,向量 DBMS 能够在不扩大它们的查询语言或领有更结构化的数据模型的状况下生存。

旁注:我最近录制了一个对于向量与关系数据库的问答节目。在外面我提到了,每个关系型 DBMS 在将来五年内都将领有一个高性能的向量索引实现。

SQL 继续变好

往年 2024 年是 Don Chamberlain 和 Ray Boyce (RIP) 在 IBM 研究院创立 SQL 的五十周年。最后被称为 SEQUEL(Structured English QUEry Language,结构化英语查询语言)的 SQL,自 1980 年代以来,始终是与数据库交互的事实标准。只管 SQL 曾经很老了,但它的应用状况和性能始终在减少,尤其是过来的十年。

去年,ISO/IEC 9075 标准的最新版本 SQL:2023 面世。这次更新包含了不少用来解决各种 SQL 方言中的痛点和不一致性的“好用性能”,比方:ANY_VALUE)。值得一提的是,当中两个 SQL 加强性能,进一步减弱了对代替数据模型和查询语言的需要。不过须要留神一点,新的 SQL 标准蕴含这些内容,并不代表你喜爱的关系型 DBMS 会立刻反对这些新个性。

属性图查问(SQL/PGQ)

目前,SQL 反对对图进行只读查问。这容许应用程序在现有表上申明一个属性图构造。上面这个 Oracle v23c 的图示例,它记录了哪些人在哪支乐队中:

CREATE TABLE PEOPLE (ID INT PRIMARY KEY, NAME VARCHAR(32) UNIQUE);
CREATE TABLE BANDS (ID INT PRIMARY KEY, NAME VARCHAR(32) UNIQUE);
CREATE TABLE MEMBEROF (PERSON_ID INT REFERENCES PEOPLE (ID), 
                       BAND_ID INT REFERENCES BANDS (ID), 
                       PRIMARY KEY (PERSON_ID, BAND_ID));

CREATE PROPERTY GRAPH BANDS_GRAPH
   VERTEX TABLES (PEOPLE KEY (ID) PROPERTIES (ID, NAME),
      BANDS KEY (ID) PROPERTIES (ID, NAME)
   )
   EDGE TABLES (
      MEMBEROF
      KEY (PERSON_ID, BAND_ID)
      SOURCE KEY (PERSON_ID) REFERENCES PEOPLE (ID)
      DESTINATION KEY (BAND_ID) REFERENCES BANDS (ID)
      PROPERTIES (PERSON_ID, BAND_ID)
   );

它由 DBMS 决定是为属性图创立辅助数据结构(例如,邻接矩阵)还是仅跟踪元数据。你能够用 MATCH 关键字在 SQL 中编写图遍历查问,这个语法建设在现有查询语言(像是 Neo4j 的 Cypher,Oracle 的 PGQL 和 TigerGraph 的 GSQL)的根底上,并且兼容了新兴的 GQL 规范。以下查问返回每支乐队的成员数:

SELECT band_id, COUNT(1) AS num_members
   FROM graph_table ( BANDS_GRAPH
      MATCH (src) - [IS MEMBEROF] -> (dst)
      COLUMNS (dst.id AS band_id)
   ) GROUP BY band_id ORDER BY num_members DESC FETCH FIRST 10 ROWS ONLY;

截至 2024 年 1 月,我晓得的惟一反对 SQL/PGQ 的 DBMS 是 Oracle。DuckDB 的实验性分支尽管也反对 SQL/PGQ,但下面示例不能运行,因为两个数据库反对的语法略有不同。你能够从 CWI/DuckDB 研究员 Gabor Szarnyas 整顿的这个 SQL/PGQ 的优良资源列表中理解更多对于 SQL/PGQ 的信息。

多维数组(SQL/MDA)

从 SQL:1999 引入无限的单维度、固定长度数组数据类型以来,SQL 就反对数组类型。而 SQL:2003 更是加强了该性能,反对嵌套数组,而无需预约义最大基数。在 SQL:2023 中,SQL/MDA 局部更新反对了应用整数坐标的真正的多维数组,这些数组能够是任意维度。此外,Rasdaman 的 RQL 大大地启发了 SQL/MDA 语法,SQL 能够提供与其兼容,并与汇合语义正交的构造和操作数组结构。借此让应用程序只用在 SQL 中与多维数组交互和操作,而无需将它们导出,例如:到 Python Notebook。下表展现了在 CREATE TABLE 语句中应用 MDARRAY 数据类型的不同示例:

只管 SQL/MDA 标准在 2019 年以技术报告的模式呈现,但直到 SQL:2023 它才被正式纳入 SQL 规范。据我所知,除了 Rasdaman 之外,没有其余生产级别的 DBMS 反对 SQL/MDA 扩大。我能找到的惟一其余数据库是 ASQLDB,一个数据库 HSQLDB 的分支。

Andy 说:SQL:2023 是个里程碑

SQL:2023 修订版是 SQL 这种通用查询语言继续进化和改良的下一个阶段。当然,SQL 并不完满,也不具备真正的可移植性,因为每个 DBMS 都有本人的特点、专有个性和非标准扩大。就像我集体就十分喜爱 PostgreSQL 的 :: 转换操作符快捷方式。

尽管 SQL/PGQ(SQL 对图的反对)是个小事,但我不感觉它会立刻对图数据库造成威逼,因为曾经有多种办法将面向图的查问转换为 SQL。包含 SQL Server 和 Oracle 在内的 DBMS 都提供了内置的 SQL 扩大,能够容易地存储和查问图数据。Amazon Neptune 则是在 Aurora MySQL 之上的图数据服务层。Apache AGE 在 PostgreSQL 之上提供了一个 openCypher 接口。我预测其余支流 OLAP 数据系统,例如:Snowflake,Redshift,BigQuery,都会在不久的未来反对 SQL/PGQ。

但在一个 DBMS 中增加 SQL/PGQ 并不像增加新语法那样简略。要确保图查问性能良好,须要思考几个工程上的问题。例如,图查问执行多路连贯来遍历图。但当这些连贯的两头后果比根底表还大时,问题就来了。一个 DBMS 必须应用最坏状况下最优连贯(WCOJ,Worst-case optimal join)算法来更无效地执行两表联结查问,而不是通常用来连贯两个表的 hash join。另一个技术要点是应用因式分解来防止在连贯过程中物化冗余的两头后果。这种类型的压缩让 DBMS 躲避了一遍又一遍地用雷同的连贯记录导致内存耗尽的问题。

下面我提到的优化点,并不是说现有的图数据库都做到了。据我所知,像是 Neo4j、TigerGraph 等图数据库都没有实现。我惟一晓得的实现了优化的是滑铁卢大学的嵌入式图数据库 Kuzu。大多数关系型数据库也没有实现它们,至多我晓得的那些开源数据库没有。下面提到的 DuckDB 试验分支实现了 WCOJ 和因式分解优化,并在 2023 年的论文中显示,在一个行业标准的图基准测试中,其性能比 Neo4j 高出多达 10 倍。

我很久之前说过,SQL 可能在你出世之前就存在,到你逝世它仍然会存在。对于那些宣称自然语言查问将齐全取代 SQL 的说法,我仍旧不屑一顾。

旁注:从上次我公开说到 2030 年图数据库都不会在数据库市场上超过关系型数据库以来,曾经两年过来了。到目前为止,我还是对的。

MariaDB 的窘境

过来的一年,MariaDB 频频呈现在新闻报道中,而且大多数都不是什么好消息。独立于 MariaDB 基金会的 MariaDB 公司显然是一个凌乱的公司。在 2022 年,这家公司试图借壳 SPAC 上市,然而股票($MRDB)在 IPO 后的三天内立刻跌了 40%。而为了减速在纽交所上市进度的借壳操作也被公诸于世。到 2023 年底,MariaDB 公司股价自收盘以来跌了 90% 以上。

因为这些蹩脚的财务问题,MariaDb 公司发表了两轮裁员。第一轮在 2023 年 4 月,但同年 10 月他们进行了另一轮更大规模的裁员。公司还发表他们将关停两款产品:Xpand 和 SkySQL。前者是 MariaDB 公司在 2018 年收买的产品,过后它还被称为 Clustrix;我在 2014 年还参观了 Clustrix 的旧金山办公室,过后我感觉那里像个阴森的鬼城(办公室里一半的灯都燃烧了)。后者 SkySQL 的历史更加简单。最后它只是一个提供 MariaDB 服务的独立公司,在 2013 年与 Monty Program AB 合并。在 2014 年,合并后的 Monty Program AB + SkySQL 公司变成了明天的 MariaDB 公司。但在 2023 年 12 月,公司又发表 SkySQL 没有“死去”,而是作为一个独立公司从新回到了市场!

MariaDB 公司的状况如此蹩脚,以至于 MariaDB 基金会的 CEO 专门写文章,埋怨自从 MariaDB 公司上市以来基金会与公司的关系是如何好转,他心愿可能从新扫视彼此关系。雪上加霜的是,微软在 2023 年 9 月发表,将来不再提供作为托管 Azure 服务的 MariaDB,而是改为采纳 MySQL。可能有人不晓得,MariaDB 自身就是 MySQL 的一个分支,是 MySQL 的原创始人 Monty Widenus 在 2009 年 Oracle 发表收买 Sun Microsystems 后创立的。回顾下,Oracle 在 2005 年买了 InnoDB 的制造商 InnoBase,Sun 在 2008 年买了 MySQL AB。当初 MySQL 运行良好,MariaDB 却遇到了问题。戏剧来源于事实,多看看数据库市场你能吃到各种瓜!

Andy 说:数据库的名誉比以往任何时候都重要

过来的十年,数据库客户的精明水平有了大幅度的晋升。各家公司也不再能仅凭金玉其外; 败絮其中的性能数字、取代 SQL 的新查询语言,或是名人效应来“扮胜利直到真正胜利”了。数据库的名誉比以往任何时候都更为重要,其背地的公司名誉也同样重要。也就是说,这意味着软件自身的稳固很重要,其公司也得井井有条地运作。

开源数据库背地的公司如果开张了,很少数据库能持续倒退和凋敝。不过,PostgreSQL 算一个例外,只管明天咱们用的开源版本是基于加州大学伯克利分校的源码,而不是 1996 年被 Informix 收买的商业版本 Illustra。另一个例子是,为 MySQL 构建 InfiniDB OLAP 引擎的公司在 2014 年破产后,其 GPLv2 源码被接手并作为 MariaDB 的 ColumnStore 继续倒退。

相同,更多事实通知咱们,一旦领取最多开发费用的公司隐没,对应的数据库就会逐步衰败。唯二在某种程度上算是活下来数据库的例子是 Riak 和 RethinkDB。Basho 在 2017 年破产后,当初 Riak 由在 UK’s NHS 工作的一个人保护。RethinkDB 公司在 2017 年开张(鉴于创始人对女性在科技界的认识,这并不奇怪)后,数据库源码就被转移到了 Linux 基金会。只管基金会接手了我的项目,RethinkDB 仍处于活着的状态:该我的项目在 2023 年公布了一个新版本,但它们只是热修复,来解决一些已知问题。有趣味的话,你能够去 Apache 基金会档案室看看那些被遗弃的数据库我的项目。

只在云端提供数据库服务的 DBaaS,在稳定性上只会更蹩脚。因为如果公司失败,或是开始面临财务压力,他们就会敞开托管你数据库的服务器。Xeround 在 2013 年敞开云服务时,给了他们的客户两周工夫迁徙数据。为了降低成本,InfluxDB 在 2023 年 7 月删除整个 region 前给了客户六个月的工夫迁徙,但大家还是大吃一惊。

MariaDB 比个别的数据库守业公司处于更好的地位,因为 Monty 和其他人成立了一个治理开源我的项目的非营利基金。但当你是一个以盈利为目标的开源数据库公司,而帮忙你治理该 DBMS 运作的非营利组织公开示意你管理混乱的话,那就是一个坏兆头!与此同时,MySQL 在继续改善,Oracle 仍旧是那个从工程角度看不错的企业级数据库抉择。MariaDB 公司的凌乱将进一步促成人们转向应用 PostgreSQL。

MariaDB 必定不能失败,据我所知,Monty 没有更多的孩子能够用来给数据库命名了(例如:MaxDB、MySQL、MariaDB)。

小趣闻:MariaDB 取名自 Monty 的小女儿 Maria,MaxDB 取名自儿子 Max,MySQL 来自大女儿 My。

美国航空因政府数据库解体而停飞

在 2023 年 1 月 11 日,因为航行告诉 NOTAM 系统故障,联邦航空管理局 FAA 停飞了美国所有的航班。NOTAM 零碎向飞行员提供以纯文本编码的音讯,通知他们可能在航行门路上会遇到的意外和潜在危险。当 NOTAM 零碎在 1 月 11 日晚上解体时,间接导致美国大概 11,000 架航班无奈腾飞。所幸的是,其余国家运行着独立的、不受美国 NOTAM 故障影响的 NOTAM 零碎能失常腾飞。

依据 FAA 官网说法,这次故障是因为一个数据库文件损坏导致的。一名来自第三方承包商的工程师尝试用备份文件替换它,但后果是备份文件也有问题。2008 年也产生了相似的事件。

对于 FAA 在 NOTAM 所用的 DBMS 并没有公开信息。有一些报道称,NOTAM 依然在运行于 1988 年的两台 Philips DS714/81 大型机上。但这些 Philips DS714 机器没有咱们明天所知的操作系统;它们是 1960 大型机年代的遗物。也就是说,在 1980 年代 FAA 无奈为利用应用现有的数据库系统,即使是那些过后曾经存在的数据库,像是 Oracle、Ingres 和 Informix 都反对过后的各种 Unix。我感觉比拟正当的可能是,NOTAM 可能用 Flat File(比方:CSV)来自行治理数据。1980 年代由非数据库专家编写的利用程序代码负责从文件中读取 / 写入记录,复制到备用服务器,并在呈现故障时保护数据的完整性。

Andy 说:历史悠久的外围数据系统,是每个数据库从业者最大的噩梦

在无奈代替的传统硬件上运行要害工作零碎,应用的还是由早就退休的外部开发人员编写的自定义数据库拜访库,这是每个数据库从业者最大的噩梦。我很诧异它居然没解体得更早(除非 2008 年的故障是同一零碎),我感觉咱们应该给这个运行了 35 年的零碎一些掌声。

有音讯称,NOTAM 零碎每秒只解决 20 条音讯。依照古代数据规范,这个数据量真的很小,但别忘记,FAA 是在 1980 年代配置的这个零碎。数据库传奇人物,1998 年图灵奖得主 Jim Gray 在 1985 年写到,“一般”的数据库管理系统能够执行大概每秒 50 次事务(txn/sec),而十分高端的零碎能够达到每秒 200 次。作为参考,五年前,有人应用 1980 年代的基准测试(基于 TPC-A 的 TPC-B)在树莓派 3 上运行 PostgreSQL,大概达到了每秒 200 次事务。如果咱们不思考那些应用跨数据中心的强一致性复制(这会受到光速的限度)的零碎,古代单节点在线事务处理(OLTP)DBMS 能够在某些工作负载下实现每秒数百万次事务的吞吐量。NOTAM 在 1980 年代的峰值每秒 20 条音讯的吞吐量并没有推动过后的技术极限,而且显然明天也没有。

因为 NOTAM 没有将数据库与利用程序逻辑拆散,所以独立降级这些组件是不可能的。思考到在 1980 年代中期,关系模型的长处曾经家喻户晓,NOTAM 这种设计是该批评的。当然,并不是说 SQL 就能避免这次确切的失败(这是一个人为谬误),但独立性会让各个组件不那么轻便,更易于治理。

尽管如此,过后美国政府其实曾经在用商用关系型 DBMS。例如,Stonebraker 的 RTI(Ingres 厂商)在 1988 年的 IPO 申报文件中提到,他们现有的客户包含国防部和内政部、军事分支和钻研实验室。我置信过后美国政府的其余部门也在应用 IBM DB2 和 Oracle。因而,除非 NOTAM 有什么我不晓得的特别之处,不然 FAA 本能够应用真正的数据库管理系统。

停飞事件产生的时候,我正在阿姆斯特丹的 CIDR 2023 会议的返程中。侥幸的是,停飞没有影响入境的国际航班,我的飞机能够顺利地起飞。但我还是被困在纽瓦克机场,因为美国所有国内航班都停飞了。相熟纽瓦克机场的人都晓得,在这里待着并不是什么坏事。

延长浏览:你能够浏览我之前的文章,理解下为什么如果 NOTAM 数据库运行在 Amazon RDS 上,不太可能产生数据库解体。

数据库的融资状况

除了下面提到的向量数据库是风投的“新宠”之外,其余类型的数据库在 2023 年也是有融资的。但总体而言,往年的数据库融资流动比今年要冷清得多。

主动调优初创公司 DBTune 在欧洲实现了 260 万美元的种子轮融资。PostgresML 取得了 450 万美元的种子轮融资,来打造一个通过自定义扩大来反对从 SQL 调用 ML 框架的 DBaaS。TileDB 在秋季发表实现了 3,400 万美元的 B 轮融资,以此持续欠缺他们的阵列数据库管理系统。只管有着 13 年的历史,SQReam 还是取得了 4,500 万美元的 C 轮融资,来持续开发他们的 GPU 减速数据库管理系统。Neon 在 2023 年 8 月实现了 4,600 万美元的 B 轮融资,以扩大无服务器 PostgreSQL 平台。当然,2023 年的融资赢家再次是 Databricks,他们在 2023 年 9 月实现了 5 亿美元的 I 轮融资。尽管这是一笔巨款,但并不如他们在 2021 年 H 轮的 16 亿美元来得多。

Peter Boncz 和 Tianzhou Chen 揭示我了,还有 MotherDuck(DuckDB 的商业版本)在 2023 年 9 月实现的 5,250 万美元的 B 轮融资。另一个数据库产品 DBeaver,实现了 500 万美元的种子轮融资,来持续研发受欢迎的 multi-DBMS。

此外,2023 年数据库畛域也产生了一些收买。最大的一笔交易在年初产生,MarkLogic 被 Progress Software 以 3.55 亿美元现金收买。MarkLogic 是最古老的 XML 数据库管理系统之一(约 2001 年),而 Progress 领有 OpenEdge,一种更古老的数据库管理系统(约 1984 年)。IBM 收买了 Meta 的衍生公司 Ahana,该公司试图将 PrestoDB(它不同于曾经更名为 Trino 的 PrestoSQL)商业化。多云数据库服务提供商 Aiven 收买了 AI 驱动的查问重写器初创公司 EverSQL。EnterpriseDB 用 Bain Capital(私募投资公司)的资金收买了基于 DataFusion 兼容 PostgreSQL 的 OLAP 引擎的 Seafowl 团队。Snowflake 收买了两家初创公司:(1)由前斯坦福传授 Peter Bailis 打造的 Sisu Data,以及(2)由伯克利传授 Aditya Parameswaran 基于 Modin 研发的 Ponder。

Andy 说:无论初创公司,还是高估值的公司日子都不好过

我的风投敌人们说,他们在 2023 年看到了更多新公司的推介,但比今年签发的支票更少。这个趋势贯通所有初创畛域,数据库市场也不例外。大部分的风投注意力都在那些和人工智能 + 大型语言模型(LLM)有一点点关系的我的项目,这也正当,毕竟这是计算畛域的新篇章。

只管美国 2023 年的宏观经济指标有些踊跃的迹象,但科技产业仍旧缓和,每家企业都在削减老本。像 OtterTune(作者所在的公司)客户心愿咱们的数据库优化服务能在 2023 年帮忙他们升高数据库基础设施老本。这与公司早些年人们次要来找 OtterTune 进步数据库管理系统的性能和稳定性不同。咱们打算在 2024 年发表新性能,以帮忙升高数据库老本。回到大学,这个学期有比平时更多的学生请我帮他们找数据库开发的工作。这让我很吃惊,因为 CMU 的计算机科学学生始终不愁找工作,靠本人就拿到不错的实习和全职 offer,除了有次我最优良的本科生重写了咱们的查问优化器,但因为忘了问我,后果找不到暑期实习,最初在匹兹堡机场左近的迪克体育用品店做网页开发——他当初在 Vertica 工作得很开心。

如果美国的科技市场持续低迷不振,接下来的几年泛滥数据库初创公司都难有大倒退。小型的数据库初创公司要么会被大型科技公司或私募股权收买,要么就间接开张。然而,那些融到大笔钱且估值很高的公司也不好过。正如我之前说的那样,有些公司可能无奈 IPO,而且没有哪家大型科技公司会须要这些 DBMS,因为现在大家都有本人的数据库系统。因而,这些大数据库管理系统公司将面临三个抉择:承受升高估值的融资以放弃经营;通过私募股权取得反对,放弃经营(比方:Cloudera);被一家 IT 服务公司收买(比方:Rocket,Actian),这些公司将 DBMS 置于保护模式,但持续从那些被困的客户那里收取许可费,因为这些客户有他们无奈轻易迁徙的遗留应用程序。不过,这三条路对于数据库公司来说都不现实,应该会吓跑潜在的新客户。

最初,我要重述一句:不要问 Databricks 是不是会 IPO,而是它何时会 IPO。

史上最贵的明码重置

2023 年,数据库传奇大佬 Larry Ellison 春风得意。对于他本来卓越的职业生涯来说,2023 年也是一个标志性的一年。2023 年 6 月,他重返世界第四富裕的地位。Oracle 公司的股价($ORCL)在 2023 年上涨了 22%,略低于规范普尔 500 指数 24% 的回报率。此外,在 2023 年 9 月,Larry 第一次去了 Redmond,并与微软首席执行官 Satya Nadella 一起登台发表,Oracle 可作为 Azure 云平台上托管服务应用。随后同年 11 月,股东们压倒性地投票反对 79 岁的 Larry 持续负责 Oracle 董事会主席。

但 2023 年真正的大新闻是,Elon Musk 在 Larry 对 Musk 收买社交媒体公司投资了 10 亿美元后,亲自帮 Larry 重置了 Twitter 明码。正是这笔价值 10 亿美元的明码重置,咱们在 2023 年 10 月有幸看到了 Larry 的第二条推文,也是他十多年来的首条新推文。Larry 预报了他行将返回牛津大学的行程,起初他在那里发表在牛津大学成立埃里森技术研究院(EIT)。

Andy 说:意料之外的小人物生存

其实 Larry 发了什么基本不重要,重要的是 Larry 回归推特发推文。我偷偷打听过,Larry 偶然会看看推特,次要关注守业点子提案、祝愿以及不经意冒出的奇思妙想。

Larry 的推文之所以出乎意料,是因为人们个别会认为他总是忙于更雄伟的流动。毕竟,他领有一架 MiG-29 战斗机和一个夏威夷岛屿。他有很多更平凡的事件能够做。所以,当他抽出工夫在一个日益衰败的社交媒体上写推文,通知咱们他在做什么。这对咱们所有人来说,都是一个重大的生存事件。为此,Larry 不得不请他那个世界上最富裕的敌人来重置他的明码。尽管破费 10 亿美元,但当你领有 1,030 亿美元时,这都不是什么事了。

2022 年数据库回顾:江山代有新人出,区块链数据库还是那个傻主见

英文原文:https://ottertune.com/blog/2022-databases-retrospective

放缓的大规模数据库融资

正如我去年说的那样,2021 年是数据库融资的小年。随着投资者持续寻找下一个 Snowflake,大量资金涌向了新的 DBMS 初创公司。2022 年初看起来像是要再过一次 2021 年,有十分多的大额融资音讯。

融资狂欢在 2022 年的 2 月开始,Timescale 实现了 1.1 亿美元的 C 轮融资,Voltron Data 实现了 1.1 亿美元的种子轮 + A 轮融资,Dbt Labs 实现了 2.22 亿美元的 D 轮融资。Starburst 在 3 月发表了他们 2.5 亿美元的 D 轮融资来持续晋升他们的 Trino 产品。Imply 在 5 月拿出 1 亿美元的 D 轮融资用于开发他们的 Druid 商业版本。DataStax 在 6 月的 IPO 途中取得了 1.15 亿美元的资金。最初,SingleStore 在 7 月实现了 1.16 亿美元的 F 轮融资,而后在 10 月又融了 3,000 万美元。

2022 年上半年还有几家较小的公司实现了让人印象粗浅的 A 轮融资,包含 Neon 的 3,000 万美元 A 轮用来研发无服务器 PostgreSQL 产品,ReadySet 2,900 万美元 A 轮融资来研发查问缓存层,Convex 的 2,600 万美元 A 轮来持续开发他们基于 PostgreSQL 的应用程序框架,以及 QuestDB 的 1,500 万美元 A 轮来开发时序数据库。只管咱们 OtterTune 没有新的 DBMS 或相干基础设施,但咱们也在 4 月实现了 1,200 万美元的 A 轮融资。

然而,到了 2022 年下半年,大规模的融资轮进行了。只管晚期初创公司还是有较小额的融资进来,但更前面的公司再也没有九位数的美元融资了。

流解决引擎 RisingWave 在 10 月筹集了 3,600 万美元的 A 轮,Snowflake 查问加速器 Keebo 融到 1,050 万美元的 A 轮资金。在 11 月,咱们看到了 MotherDuck 的 4,500 万美元种子轮 + A 轮融资的新闻来开发商业化 DuckDB 的云版本,以及 EdgeDB 在 11 月的 1,500 万美元 A 轮融资。最初,是 SurrealDB 实现了 600 万美元的种子轮融资。我可能漏掉了一些其余公司,这不是一个详尽的列表。

在数据库畛域惟一其余值得注意的金融事件是,MariaDB 在 12 月的灾难性地通过 SPAC IPO,股价在首个交易日就上涨了 40%。

Andy 说:不只是 OLAP 畛域,OLTP 畛域前景也一样严厉

与 2021 年相比,在 2022 年大额融资轮缩小的起因有两个。最显著的是整个科技行业在降温,局部起因是人们对通货膨胀、利率和加密经济解体的担心。另一个起因是,有能力大额融资的公司在资金枯竭之前就实现了融资。

例如,Starburst 在 2021 年实现了 1 亿美元的 C 轮融资后,在 2022 年进行了它的 D 轮融资。在过来两年实现巨额融资的数据库公司,很快就须要再次融资来放弃增长势头。

坏消息是,除非科技行业有所改善,并且大型机构投资者开始再次将资金投入市场,否则这些公司们将面临窘境。市场无奈维持这么多独立软件供应商(ISVs)为数据库服务。这些领有十亿美元估值的公司惟一继续前进的法子是,进行首次公开募股或破产。这些公司对于大多数公司来说太贵了,无奈被收买(除非风投公司违心大打折扣)。

此外,进行大型并购的大型科技公司(比方:亚马逊、谷歌、微软)都有了本人的云数据库产品。因而,不分明谁会收买这些数据库初创公司。亚马逊没有理由在他们 Redshift 每年赚取数十亿美元时,去以 2021 年的 20 亿美元估值购买 ClickHouse。这个问题不仅限于 OLAP 数据库公司;OLTP 数据库公司很快也将面临同样的问题。

我并不是惟一一个对数据库初创公司的前景做出如此严厉预测的人。Gartner 分析师预测,到 2025 年,50% 的独立 DBMS 供应商将退出市场。显然我有本人的认识,我认为将来生存下来的公司是那些致力改善或者是强化 DBMS 的公司,而不是替换它们的公司(比方:dbt、ReadySet、Keebo 和 OtterTune)。

我无奈判断 MariaDB 借壳 SPAC“疾速上市”是否是个好主见。这种金融操作不在我的业余畛域(数据库)内。但既然这和前美国总统用他的社交媒体公司做的事件一样,我就权且认为它不是什么好主见。

区块链数据库还是那个蠢点子

对于 Web3 根本性转变了构建新应用程序形式这点,有很多夸大的说法。我有一个学生甚至因为我传授的是关系数据库而不是 Web3,愤然从我的课堂离席。Web3 静止的外围是在区块链数据库中存储状态。

区块链实质上是去中心化的扩散的日志构造数据库(即,账本),它们通过应用某种 Merkle 树的变体和 BFT 共识协定来保护增量校验和,从而确定下一个要入库的更新。这些增量校验和是区块链确保数据库日志记录不变性的形式:客户端应用这些校验和来验证之前的数据库更新没有被更改。

区块链是之前想法的奇妙联合。然而,厂商们认为去中心化账本是每个人构建 OLTP 应用程序必须的,这点是一种误导。从数据库的角度,除了加密货币之外,区块链数据库和现有的 DBMS 没有任何差异。此外,任何区块链在数据库安全性和可审计性比现有 DBMS 体现更好的说法,都是胡说。

如果说加密货币是区块链数据库的最佳实际,那么 2022 年加密市场的解体显然没有帮到它们,甚至是进一步妨碍了区块链数据库的倒退。当然我会疏忽 FTX 的崩盘(他们申请了破产爱护),毕竟它就是彻头彻尾的欺骗,和数据库一点关系都没。不过,我要指出,FTX 和所有其余加密货币交易所一样,并没有在区块链数据库上运行业务,而是应用了 PostgreSQL。

此外,其余与加密货币无关的区块链数据库用例,如交易和游戏平台,都因为不切实际或欺骗没有落地。

Andy 说:有让人服气的用例才是合格的新技术

评估某项技术的准则之一是,一旦厂商开始制作它的媒体广告,它就不再是“新”技术了。简略来说,像是 IBM 之类的厂商在打广告的时还没有进去让人服气的用例,那么这个产品永远也不会有用例。

举个例子,IBM 在 2002 年在一则商业广告中吹捧 Linux 是一个热门的新事物,但那时曾经有包含谷歌在内的成千上万的公司将 Linux 作为次要服务器操作系统应用了。所以,当 IBM 在 2018 年公布他们的区块链广告时,我就晓得这项技术除了在加密货币畛域有用,在其余畛域毫无用处。因为其余畛域没有一个问题是去中心化的区块链能解决,而中心化的 DBMS 不能解决的。

因而,2022 年 IBM 发表将敞开与航运巨头 Maersk 单干的供应链 IT 基础设施革新我的项目,也就不奇怪了,毕竟这正是 IBM 在广告中炒作的场景。

相比任意一个可信权威治理、只容许受信赖的客户端直连、用心编写的事务数据库,区块链数据库的效率低得可怕。除了加密货币(见上文)或者其余什么欺诈场景,事实数据世界的运行形式都是和其余数据库目前解决的那样。

信赖是一个失常运行的社会的基石。例如,我受权托管 OtterTune 网站的公司向我的信用卡免费,他们又信赖一个云提供商来托管他们的软件。没人会须要应用区块链数据库来进行这些“信赖”交易。

从工作量证实(PoW:proof-of-work)转换到不那么麻烦的权利证实(PoS:proof-of-stake),共识机制的确晋升了区块链数据库的性能。但这只影响数据库的吞吐量;区块链交易的提早依然以数十秒计算。如果解决这些长提早的办法是应用参与者较少的 PoS 区块链,那么应用程序应用 PostgreSQL 来认证这些参与者会更好。

你能够读一读 Tim Bray(XML 之父)同 AWS 高层外部探讨是否有区块链可行用例的精彩文章。值得注意的是,Tim 说 AWS 在 2016 年就得出过区块链数据库是数据问题的解决方案的论断,这比 IBM 推出区块链数据库广告早了两年!尽管 AWS 最终在 2018 年公布了 QLDB 服务,但它不同于区块链;它是一个中心化的可验证账本,不应用 BFT 共识。与亚马逊极为胜利的 Aurora 产品相比,QLDB 客户的采用率始终不太现实。

趣闻:在 FTX 崩盘(申请破产爱护)前的三周,有人和我说 OtterTune 的全职工程师人数和 FTX 在巴哈马的团队一样。这个人还说,既然工程师人数一样,OtterTune 应该像 FTX 那样更有前景,而且当初应该有 10 亿美元的年度经常性支出(ARR)。真是有意思呀。

新的数据系统

往年有不少新的 DBMS 软件的重大新闻:

  • Google AlloyDB:2022 年最让人震惊的音讯是 5 月份谷歌云发表了它们的新数据库服务。AlloyDB 不是基于 Spanner 构建的,而是一个修改版的 PostgreSQL,它拆散了计算层和存储层,并且反对在存储中间接解决 WAL 记录。
  • Snowflake Unistore:6 月份,Snowflake 发表了他们的新 Unistore 引擎,用“混合表”来反对 DML 操作的低提早交易。当查问要更新表时,变更会传到 Snowflake 的列式存储中。SingleStore 数据库的某个人有些冲动,说 SingleStore 在这个畛域有一些专利,尽管这个说法没啥实质性证据撑持。补充信息:SingleStore 和 Snowflake Unistore 有局部技术交加,你能够了解为他们存在肯定的竞争关系。
  • MySQL Heatwave:当 Oracle 发现 Amazon 从 MySQL 赚的钱比他们多后,终于在 2020 年决定为 MySQL 构建本人的云服务。但他们并没有仅仅做个 RDS(关系数据库服务)克隆版,而是用一个叫做 Heatwave 的内存向量化 OLAP 引擎扩大了 MySQL。2021 年 Oracle 还发表他们的 MySQL 服务还反对自动化数据库优化(但与 OtterTune 提供的优化服务不同)。到了 2022 年,Oracle 终于发现他们不是当先的云供应商,并向 AWS“抬头”在 AWS 上托管了 MySQL Heatwave。
  • Velox:Meta 在 2020 年开始构建 Velox,作为 PrestoDB 的新执行引擎。两年后,他们发表了这个我的项目并发表了一篇对于它的 VLDB 论文。Velox 并不是一个残缺的 DBMS:它不带 SQL 解析器、目录、优化器或网络反对。相同,它是一个带有内存池和存储连接器的 C++ 可扩大执行引擎。人们能够基于 Velox 构建一个成熟的 DBMS。
  • InfluxDB IOx:就像 Meta 的 Velox 一样,Influx 团队在过来两年始终在致力开发新 IOx 引擎。在 10 月,他们发表新引擎正式上线(GA)。InfluxDB 从零开始基于 DataFusion 和 Apache Arrow 构建了 IOx。值得庆贺下的是,我在 2017 年和 Influx 的 CTO 说应用 MMAP 是个坏主意后,他们在新零碎中摈弃了 MMAP。
Andy 说:怅然看到数据库畛域的勃勃生机

很快乐见证了 2022 年数据库畛域产生的这些事。我对 AlloyDB 的认识是,它是一个简洁的零碎,当中投入了让人感叹的工程量,但我还是不晓得它有什么翻新点。AlloyDB 的架构相似于 Amazon 的 Aurora 和 Neon,在 DBMS 存储中有个额定的计算层,能够独立于计算节点解决 WAL 记录。只管谷歌云曾经领有坚挺的数据库产品组合(比方:Spanner、BigQuery),但它们还是感觉有必要构建 AlloyDB 来尝试赶上亚马逊和微软。

须要关注的长期趋势是诸如 Velox、DataFusion 和 Polars 之类的框架的遍及。联合像 Substrait 之类的我的项目,这些查问执行组件的商品化意味着将来的五年内,所有的 OLAP DBMS 将在性能上大抵持平。

与其齐全从头开始构建一个新的 DBMS,或者是 hard fork 一个现有零碎(像 Firebolt fork ClickHouse),比方应用一个像 Velox 这样的可扩大框架。也就是说,每个 DBMS 都将具备同 Snowflake 十年前独有的雷同向量化执行能力。尤其是在云上,存储层对每个人来说都是雷同的(比方:亚马逊管制的 EBS/S3),那么辨别 DBMS 产品的关键因素将会是那些难以量化的事物,如 UI/UX 设计和查问优化。

数据库先驱的去世

在 2022 年 7 月有一个让人惆怅的音讯,Martin Kersten 去世了。Martin 是 CWI 的研究员,他是多个颇具影响力的数据库我的项目的引领者,包含 1990 年代最早的分布式内存 DBMS(PRISMA/DB)和 2000 年代最早的列式 OLAP DBMS(MonetDB)。因为他在数据库方面的奉献,Martin 在 2020 年因被荷兰政府授予皇家骑士名称。

MonetDB 的代码库还是其余几个 OLAP 零碎我的项目的跳板。在 2000 年代末,Peter Boncz 和 Marcin Żukowski fork MonetDB 它开发 MonetDB/X100,起初商业化为 Vectorwise(当初叫 Actian Vector)。Marcin 起初来到,联结别人独特创建的 Snowflake,采纳了原来他在 MonetDB 代码上开发的许多技术点。最近,Hannes Mühleisen 搞了个 MonetDB 的嵌入式版本 MonetDBLite,起初他又重写了我的项目,变成了当初的 DuckDB。

Martin 对古代数据库系统的奉献如此重大,以至于你如果应用任何古代剖析型 DBMS(像是 Snowflake、Redshift、BigQuery、ClickHouse),你就是在享受 Martin 和他的学生在过来 30 年开发的泛滥提高成绩。

Andy 说:这是一个让人惆怅的音讯

我晓得,相比 Mike Stonebraker(钻研数据库的计算机科学家,2014 年图灵奖获得者)这样的人,数据库钻研圈外人可能通晓 Martin 没那么多。我总把 Martin 看作是 Stonebraker 的欧洲版:他们都是多产的数据库研究者,高个子、肥壮、戴眼镜,年龄相仿。但 Martin 并不是像 Nintendo Smitch 山寨 Nintendo Switch 那样的山寨货。

除了钻研,在业余时间 Martin 也乐于同别人探讨数据库架构。我最初一次见 Martin 是在新冠暴发之前的 2019 年。咱们就他为什么认为在 MonetDB 中应用 MMAP 是正确的抉择争执了一个小时;他宣称因为 MonetDB 专一只读的 OLAP 工作负载,所以 MMAP 就够好了。其实有件事很对不住 Martin,就是那些他应答过的在 YouTube 观看我的数据库课程后,给他发邮件询问为什么 MonetDB 做出了我宣称的较差设计的学生。

我倡议你看下 Martin 在 2021 年 CMU-DB 研讨会的压轴演讲。我和 Martin 承诺在他的演讲中,我不会用 MonetDB 驳回 MMAP 这点让他分心。为了示意诚意,在这个视频的后面 60 秒,我找了个荷兰人录制一个仿皇家的 Martin 短片介绍。

数据库的巨额财产和专制

2022 年 5 月,《华盛顿邮报》报道说,Oracle 创始人和帆船爱好者 Larry Ellison 加入了 2020 年 11 月刚完结的选举的电话会议,与会的有美国总统和其余保守派首领。

电话会议集中探讨了总统的盟友和活动分子可能采取的、来颠覆总统选举的后果的不同策略。正如《邮报》文中指出的那样,目前尚不分明为什么政府要让 Larry 参加通话。一种猜想是,鉴于 Larry 不言而喻的弱小技术背景,他可能很适宜评估外国权势利用某种形式来应用卫星技术来近程操控美国选举的说法是否可行。

Andy 说:Larry 干得丑陋

置信 Larry 和我都厌倦了人们对他反对美国左翼的离谱舆论,甚至有人说这个电话是 Larry 做过的最蹩脚的事。这不是真的,要晓得这样的新闻和社交媒体舆论会让 Larry 感到惆怅。

我向你保障,Larry 只是试图用他作为世界第七富裕的人的巨额财产来帮忙他的国家。他参加这次通话是值得钦佩的,应该受到投诉。自在和公正的选举不是一件小事,不像划船较量,有时候只有你能赢,搞点小动作也没关系。Larry 用他的钱做了一些被人漠视的平凡事件,比方:为了活得更久,在抗衰老钻研上破费了 3.7 亿美元;投资了 10 亿美元帮忙 Elon Musk 经营 (?,那时候推特尚未被收买) 推特。所以,我反对 Larry 这个行为。

2021 年数据库回顾:性能之争烽火起,不如低调搞大钱

英文原文:https://ottertune.com/blog/2021-databases-retrospective

对数据库行业来说,2021 年是疯狂的一年,数据库的新人“超过”了老牌厂商,数据库厂商们为基准测试的数字争论不休,还有各种引人注目的融资轮次。好消息是不少,然而收买、破产或重组之类的不好消息,也让一些数据库隐没在数据库市场。

PostgreSQL 的主导地位

开发者的认知曾经产生转变:PostgreSQL 成为香饽饽,已是新应用程序的首选。它稳固牢靠,功能丰富,且在一直减少新性能。2010 年,PostgreSQL 开发团队采取了更踊跃的公布打算,每年公布一个新的次要版本,这里要感激下 Tomas Vondra。顺便提一嘴,PostgreSQL 是开源的。

现在,对很多零碎来说,PostgreSQL 的兼容性是一个显著亮点。这种兼容性是通过反对 PostgreSQL 的 SQL 方言(如 DuckDB)、线协定(如 QuestDB、HyPer)或整个前端(如 Amazon Aurora、YugaByte、Yellowbrick)来实现的。大公司们也跟进了这个趋势。谷歌在 10 月发表在 Cloud Spanner 中减少了 PostgreSQL 兼容性。还是在 10 月,亚马逊发表了 Babelfish 性能,将 SQL Server 查问转换成 Aurora PostgreSQL 查问。

数据库受欢迎水平的一个衡量标准是 DB-Engine 排名。这个排名不是很主观,得分带有一点水平的主观性,但就排名前十的零碎后果还是正当的。截至 2021 年 12 月,DB-Engine 排名显示,尽管 PostgreSQL 依然是第四大风行数据库(仅次于 Oracle、MySQL 和 MSSQL),但它在过来的一年里放大了与 MSSQL 的差距。

另一个值得思考的趋势是 PostgreSQL 在线上社区的提及频率。它给咱们提供了人们在数据库中探讨什么的信息。我下载了 Reddit 上 2021 年在数据库相干的所有评论,并计算了数据库名称的呈现频率,天然 PostgreSQL 在其中。我又穿插参考数据库的列表,合并了缩写(例如,Postgres → PostgreSQL,Mongo → MongoDB,ES → Elasticsearch),最初整顿出了前 10 个提及最多的 DBMS:

     dbms      | cnt 
---------------+-----
 PostgreSQL    | 656
 MySQL         | 317
 MongoDB       | 266
 Oracle        | 222
 SQLite        | 213
 Redis         |  88
 Elasticsearch |  70
 Snowflake     |  52
 DGraph        |  46
 Neo4j         |  42

天然,这个排名还是不迷信,因为我没有对评论进行情感剖析。但它分明地显示了,在过来的一年里,人们提到 Postgres 的次数远超过其余数据系统。常常有开发者发帖询问新利用该用什么 DBMS,线上社区的回应简直都是 Postgres。

Andy 说:PostgreSQL 只会在将来几年变得更好

首先,关系数据库系统成为新利用的首选必定是一件坏事。这表明 Ted Codd 在 1970 年代提出的关系模型的长久影响力。其次,PostgreSQL 是一个很棒的数据库系统。同所有 DBMS 一样,它有已知的问题和不足之处。然而有着如此高的关注,PostgreSQL 只会在将来几年变得更好。

基准测试之争

不同的数据库厂商之间在基准测试后果争议,往年并不少见。数据库厂商们试图证实他们的零碎比竞争对手的更快,这种做法能够追溯到 1980 年代末。这也是为什么 TPC(交易解决性能委员会)成立的起因,心愿能提供一个中立平台来监管性能比拟。然而,随着 TPC 在过来十年的影响力和遍及度的削弱,数据库们再次处于数据库基准测试和平的漩涡中。

让人印象粗浅的有三场基准测试争执。

Databricks vs Snowflake

Databricks 发表他们新的 Photon SQL 引擎在 100TB TPC-DS 测试中发明了新的世界纪录。Snowflake 还击说,他们的数据库速度是 Databricks 的两倍,并且 Databricks 运行 Snowflake 的形式不正确。Databricks 反驳道,他们的 SQL 引擎在执行和价格、性能方面都优于 Snowflake。

Rockset vs Apache Druid vs ClickHouse

ClickHouse 强势申明,与 Druid 和 Rockset 相比,CK 的老本效率方面更杰出。但没那么简略:Imply 立刻用 Druid 的新版本进行了测试,并宣称 Druid 取得了性能胜利。Rockset 也退出了探讨,说它的性能在实时剖析上比其余两个要好。

ClickHouse vs TimescaleDB

感触数据库市场的风向变动,采取老虎式行事格调的 Timescale 退出了性能和平。他们公布了本人的基准测试后果,并借此机会指出 ClickHouse 技术的弱点。在 Hacker News 上,第三方基准测试的相干探讨变得十分火爆。

Andy 说:性能之争不值当

在先前的数据库基准测试中,曾经有太多血淋淋的故事(参考:https://www.percona.com/blog/is-voltdb-really-as-scalable-as-…、https://www.youtube.com/watch?v=-TIUGC4X2q8&t=418s),我也曾是其中一员。但在性能竞争的路上,我失去了太多:不只是敌人,还有女朋友。随着工夫的流逝,当初我感觉性能之争不值得。

现如今主观地比拟数据系统更加艰难,因为云数据库管理系统有很多可挪动的部件和可调选项,往往很难确定性能差别的真正起因。实在的应用程序也不仅仅是一遍又一遍地运行雷同的查问。在提取、转换和荡涤数据时的用户体验,和原始性能数字一样重要。正如我在这篇对于 Databricks 基准测试后果的文章中通知记者的那样,只有老年人才关怀官网的 TPC 数字。

大数据搞大钱

自 2020 年下半年以来,价值至多 1 亿美元的风险投资轮次数量始终在稳步减少。2020 年有 327 笔这样的大宗交易,简直占总危险资本交易量的一半。截至 2021 年 1 月,价值 1 亿美元或以上的风险投资回合曾经超过 100 轮。

2021 年,大量投资资金涌向数据库公司。在经营数据库方面,CockroachDB 以 1.6 亿美元的融资轮次领跑筹资排行榜,在 2021 年 12 月它再次融了 2.78 亿美元。Yugabyte 实现了 1.88 亿美元的 C 轮融资。PlanetScale 为他们的 Vitess 托管版融到了 2,000 万美元的 B 轮。绝对较老的 NoSQL 簇拥者 DataStax 为他们的 Cassandra 实现了 3,760 万美元的危险融资。

只管这些融资金额都很惊人,剖析型数据库市场的竞争更为强烈。TileDB 在 2021 年 9 月筹集了一笔未披露金额的资金。Vectorized.io 为他们与 Kafka 兼容的流解决平台筹到 1,500 万美元。StarTree 不再低调,发表了用来打造商业化 Apache Pinot 的 2,400 万美元融资。有着附加性能的物化视图的 DBMS Materialize 发表他们在 C 轮取得了 6,000 万美元。Imply 为基于 Apache Druid 的数据库服务筹集了 7,000 万美元。SingleStore 在 2021 年 9 月筹集了 8,000 万美元,使他们朝着 IPO 迈近了一大步。

2021 年年初,Starburst Data 为其 Trino 零碎(前身为 PrestoSQL)筹集了 1 亿美元。Firebolt 是另一家不再低调 DBMS 初创公司,他们公布了基于 ClickHouse 分支的云数仓的 1.27 亿美元融资新闻。一家新公司,ClickHouse, Inc.,融了可怕的 2.5 亿美元,来以 ClickHouse 为主建设新公司,以及从 Yandex 取得应用 ClickHouse 名称的权力。

不过 2023 年数据库畛域融资的最大赢家显然是 Databricks,他们在 2021 年 8 月筹集了高达 16 亿美元的资金,遥遥领先其余数据库。

Andy 说:咱们正处在数据库的黄金时代

咱们正处在数据库的黄金时代,有很多优良的数据库能够抉择。投资者们正在寻找下一个像 Snowflake 一样能够 IPO 的数据库初创公司。2021 年的融资金额比以往数据库初创公司都要大。例如,Snowflake 直到成立五年后的 D 轮融资才有超过 1 亿美元的单轮融资。Starburst 在成立不到三年的工夫内就实现了 1 亿美元的融资。当初融资波及许多因素,比方:Starburst 团队从 TeraData 独立进去之前曾经在 Presto 工作多年,我感觉现在数据库的投入资金更多了。

消失的数据库们

遗憾的是,2021 年咱们也“送别”了一些数据库。

ServiceNow 收买了 Swarm64

该公司最后是开发在 PostgreSQL 上运行剖析工作负载的 FPGA 加速器。起初,他们转向仅应用扩大作为 PostgreSQL 的软件加速器。但他们未能取得关注,尤其是与其余资金富余的云数仓相比。在 ServiceNow 收买之后,目前依然没有音讯表明 Swarm64 产品是否会持续保护。

Splice Machine 破产了

Splice 推出了一种混合型(HTAP)DBMS,它联合了 HBase 和 Spark SQL,前者用来解决操作性工作负载,起初用来剖析数据。起初,他们推动提供一个用于操作性 / 实时机器学习利用的平台。然而,因为业余的 OLTP 和 OLAP 零碎在市场的主导地位,all-in-one 的混合系统在市场并没有获得什么停顿。

私募公司收买了 Cloudera

在 2010 年到 2020 年这十年的前期,技术重心从 MapReduce 和 Hadoop 技术转移之后,Cloudera 同这些技术一样在云数仓市场上失去了竞争力。只管我的项目仍旧在开发且在公布新版本,Impala 和 Kudu 的初创团队的大部分人都曾经到职。股价也跌破了 2018 年 IPO 的初始价。新投资者是否扭转公司场面,还有待察看。

Andy 说:2022 年可能会有更多的数据库公司开张

看到数据库我的项目或公司开张的新闻,总是让人唏嘘,但这也是数据库行业的残暴事实。开源可能有利于 DBMS 比开发它的厂商活得更久,但事实并非总是如此。因为数据库的复杂性,它须要全职人员继续地修复 bug 和新增性能。将一个只有躯壳(defunct)的 DBMS 的源码权和控制权转移到像 Apache 或是 CNCF 这样的开源软件基金会,并不代表这个我的项目就会神奇般地复苏。

例如,RethinkDB 在公司破产后捐给了 Linux 基金会,从 GitHub 上的迹象来看,这个我的项目曾经处于停滞状态(很少有提交,PR 也没有合并)。独一无二,另一个例子是 DeepDB:公司失败后,他们为代码创立了本人的非营利基金会,但素来没有人在下面工作。我预测,2022 年将有更多无奈与支流云厂商、下面提到的那些资金短缺的初创公司竞争的数据库公司开张。

保持的回报

近年来,Oracle 的联结创始人 Larry Ellison 运气不是很好。早在 2015 年,他还是世界上第五富裕的人。但世事难料,在 2018 年的亿万富翁排名中他跌到了第十位。

但这所有在 2021 年 12 月产生了转变,当 Larry 超过谷歌的联结创始人 Larry Page 和 Sergey Brin,再次登上世界第五富裕的地位。在 2021 年 12 月的某天,在发表公司季度盈利超过预期时,Oracle 股票达到过来 20 年单日第二高涨幅,Larry 也在一天之内赚了 160 亿美元。新闻媒体认为,这归功于投资者对 Oracle 胜利转向云服务非常有信念。

Andy 说:为 Larry 快乐

Larry 和我是旧相识,他重返财产榜第五位无疑是一个振奋人心的新闻。当他运气不好,仅仅是世界上第十富裕的人时,他可能有些忧郁。然而我很快乐看到他可能从低谷中走进去,回到他应有的排位。


以上为 Andy 传授三年来的数据库 review。如果你对数据库的倒退有本人的认识,记得留言哟~

参考资料

  • 2023 年数据库回顾原文:https://ottertune.com/blog/2023-databases-retrospective
  • 2022 年数据库回顾原文:https://ottertune.com/blog/2022-databases-retrospective
  • 2021 年回顾:https://ottertune.com/blog/2021-databases-retrospective  

翻译:GPT-4
校对:清蒸、木鸟


感激你的浏览 (///▽///)

对于 NebulaGraph:它是一款开源的分布式图数据库,自 2019 年开源以来,先后被美团、京东、360 数科、快手、众安金融等多家企业采纳,利用在智能举荐、金融风控、数据治理、常识图谱等等利用场景。(^з^)-☆ GitHub 地址:https://github.com/vesoft-inc/nebula

正文完
 0