关于数据库:2021-年数据库报告PostgreSQL-成开发者首选-Benchmark-测试陷混战

61次阅读

共计 4509 个字符,预计需要花费 12 分钟才能阅读完成。

刚刚过来的 2021 年底,不少技术畛域都对过来一年获得的成绩和下一年发展趋势做了回顾。作为数据库畛域备受关注的开源我的项目,OtterTune 也在年底出炉了一份“2021 年数据库”回顾报告。

据该报告显示,随着开发者的习惯产生转变,PostgreSQL 已凭借高可靠性及功能丰富等劣势成了宽广开发者们的新利用首选。过来的一年里,数据库社区仍旧热衷“Benchmark 性能测试争夺战”,也引发了对于一场数据库公司的投资募资大赛,一些老牌公司被收买或破产 …… 总之,一系列令人瞠目结舌的变动,堪称十分“精彩”了。

上面是对于本次报告的次要局部,一起来看看吧!

PostgreSQL 主导地位“凸显”

过来的一年里,开发人员的传统观念产生了转变:PostgreSQL 已成为他们首选的新应用程序。

据悉,早在 2010 年,PostgreSQL 开发团队就转向了更踊跃的公布打算,每年公布一个新的次要版本(H/T Tomas Vondra)(当然,PostgreSQL 是开源的)。

兼容性是 PostgreSQL 相比当初许多零碎的一个显著特点。这种兼容性是通过反对 PostgreSQL 的 SQL 方言(DuckDB)、wire 协定(QuestDB、HyPer)或整个前端(Amazon Aurora、YugaByte、Yellowbrick)实现的。该劣势也吸引了不少大公司纷纷退出 —— 去年 10 月份,谷歌发表在 Cloud Paner 中减少了 PostgreSQL 兼容性;同样在 10 月,亚马逊发表了将 SQL Server 查问转换为 Aurora PostgreSQL 的 Babelfish 性能。

掂量数据库受欢迎水平的一个指标,就是“DB-Engine rankings”数据库引擎排行榜。只管该排名并不完满,分数也有点主观,但它依然是前 10 名零碎的正当近似值。

据“DB-Engine rankings”数据库引擎榜单显示,截至 2021 年 12 月,PostgreSQL 排在最受开发者欢送的数据库(Oracle、MySQL 和 MSSQL 之后)第四名,在过来的一年中 PostgreSQL 进一步缩小了与 MSSQL 的差距。

另一个要思考的趋势,就是 PostgreSQL 在线上社区中被提及的频次(这为人们在数据库中议论的内容提供了另一个信号)。

据 PostgreSQL 创始人 Andy Pavlo 统计,(通过下载数据库中的 2021 个正文,并对 PostgreSQL 数据库名称的频率进行统计,穿插援用了从数据库数据库中理解到的每个数据库的列表,并对缩写进行整顿,如 Postgres → PostgreSQL,Mongo→ MongoDB,ES→ Elasticsearch),而后计算出最受关注的 10 个 DBMS:

只管这个排名并不迷信(因为没有对评论进行情绪剖析),但它也分明地表明,相较于其余数据库,PostgreSQL 被人们提及的频次要更多。常常有开发者发帖询问新应用程序该应用什么 DBMS,社区成员对此的答复简直都是 PostgreSQL。

对此趋势,Andy Pavlo 也发表了本人的观点:

首先,关系型数据库系统曾经成为“初创网站”应用程序的首选,这是一件坏事。这显示了 Ted Codd(关系型数据库之父)从 20 世纪 70 年代开始的关系型模型的持久力。其次,PostgreSQL 是一个很棒的数据库系统。只管它也有已知的问题和光明的角落,就像每个 DBMS 一样。然而,有了如此多的关注和生机,PostgreSQL 会在将来几年变得更好。

Benchmark 性能测试“大混战”

报告显示,2021 年里不同的数据库供应商之间对“Benchmark”测试后果没有什么好感。

想要证实本人的零碎比竞争对手快的供应商能够追溯到 20 世纪 80 年代末。这就是为什么 TPC 的成立是为了提供一个“无党派”论坛来主持。但随着 TPC 的影响和风行在过来十年中逐步削弱,人们当初发现自己陷入了新一轮的数据库“Benchmark”大混战。

往年,围绕 Benchmark 测试方面,次要有三场愈演愈烈的“街头混战”。

Databricks vs.Snowflake

此前,Databricks 发表,该公司的新 Photon SQL 引擎在 100TB TPC-DS 方面发明了新的世界纪录。Snowflake 立即还击,称他们的数据库比这个快了 2 倍,且 Databricks 谬误地运行了 Snowflake。Databricks 则反驳称,他们的 SQL 引擎提供了优于 Snowflake 的执行和性价比。

Rockset vs.Apache Druid vs.ClickHouse

ClickHouse 之前也公布音讯称,与 Druid 和 Rockse 相比,他们的老本效率十分高。先别急:作为回应,Imply 对 Druid 的新版本进行了一系列测试,并宣告了胜利。随后,Rockset 也退出了进来,称其实时剖析性能优于其余两款。

ClickHouse vs.TimescaleDB

与此同时,Timescale 嗅到“血腥”,也立刻“参战”。他们给出了本人的 Benchmark 测试后果,并借此机会指出了 ClickHouse 技术的弱点。尔后,对于第三方 Benchmark 测试的探讨成了 Hacker News 的热点话题。

对此景象,Andy Pavlo 评论称:在之前的 Benchmark 地盘争夺战中,数据库社区“流了太多的血”。作为一个已经也参加过这个游戏的一员,本人因而下来了很多,所以当初能够必定的说 —— 这不值得!因为云数据库管理系统有太多的流动部件和可调选项,因而通常很难确定性能差别的真正起因。真正的应用程序不仅仅是一个接一个地运行雷同的查问,接管、转换和清理数据时的用户体验与原始性能数据一样重要。正如此前本人发表的相干评论“只有老年人关怀 TPC 的官网数据”。

Big data:大数据,大投资

据相干数据显示,自 2020 年下半年以来,价值至多 1 亿美元的风险投资轮数量始终在稳步增长。光 2020 年,这些大型交易就有 327 宗(仅不到风投交易总量的一半)。截至 2021 年 1 月,有超过 100 家风险投资投资轮价值超过了 1 亿美元。

2021 年里,许多投资资金被投向了数据库公司。在事务型数据库畛域,CockroachDB 以 160 万美元领跑募资大赛,截止 2021 年 12 月该公司募资金额已高达 2.78 亿美元。与此同时,Yugabyte 也实现了 1.88 亿美元的 C 轮融资。作为 Vitess 的托管版本,PlanetScale 开启了 2000 万美元的 B 轮融资,而 DataStax 也在一轮风投中为其 Cassandra 业务募集到了 3760 万美元。

只管下面这些数量曾经足够让人大开眼界了,但剖析型数据库市场比这更加炽热。2021 年 9 月,TileDB 实现了一轮未走漏具体金额的融资引发业界关注,而 Vectorized.io 也为其兼容 Kafka 的流式平台募集到了 1500 万美元。StarTree 更是间接发表实现了一轮 2400 万美元的商业化 Apache Pinot 我的项目融资。随后,matviews-on-steroids DBMS Materialize 发表他们在 C 轮融资中募集到了 6000 万美元,Imply 公司也为其基于 Apache Druid 的数据库服务筹集到了 7000 万美元,还有 SingleStore 公司在 2021 年募集到了 8000 万美元,这让他们离 IPO 更近了一步。

2021 年年初,Starburst Data 公司为其 Trino 零碎(前身为 PrestoSQL)筹集了 1 亿美元。另一家机密成立的 DBMS 初创公司 —— Firebolt 则发表他们为其基于 ClickHouse 分支的新型云数据筹集了 1.27 亿美元。新公司 ClickHouse.Inc. 也筹集了惊人的 2.5 亿美元 ……

尽管如此,但以上募资都不迭 Databricks,其最大的资金来源是 2021 年 8 月筹集了 1.6 亿美元,这也让其余所有人惊掉了下巴。

对此,Andy 评论称:咱们正处在数据库的黄金时代,有很多很好的抉择。投资者们正在寻找可能成为“下一次雪花”般 IPO 的数据库初创公司,而这些筹款金额比以前的数据库初创公司要多(如 Snowflake 在推出 D 系列产品前,其售价还未超过 1 亿美元。Starburst 在成立不到三年的工夫内实现了一轮价值 1 亿美元的融资 ……)当初有很多因素与资金无关,但现在有更多的资金投入。

留念 or“祭祀”

过来的一年里,也有一些令人遗憾的事件,比方去年咱们也“辞别”了一些数据库畛域的敌人。

ServiceNow 收买 Swarm64

Swarm64 公司最后是一家 FPGA 加速器,用于在 PostgreSQL 上运行剖析工作负载。随后,该公司转而成为应用扩大的 PostgreSQL 的纯软件加速器。但它们未能取得后续倒退能源,尤其是与其余资金短缺的云数据仓库相比。在被 ServiceNow 收买之后,Swarm64 仍未有任何对于 Swarm64 产品的后续音讯。

Splice Machine 破产

Splice 正在推出一种混合(HTAP)DBMS,它联合了针对事务型工作的 HBase 和针对剖析的 Spark SQL。而后,他们推动为操作 / 实时 ML 应用程序提供一个平台。但因为专用 OLTP 和 OLAP 零碎的主导地位,一体式混合系统未能在数据库市场获得停顿。

私募股权公司收买 Cloudera

过来的几年里,MapReduce 和 Hadoop 技术逐步更不上潮流,Cloudera 在云数据仓库市场上也就没有了同样的吸引力。Impala 和 Kudu 的大多数原始工程团队曾经来到了公司,只管这些我的项目仍在开发中,但并公布新版本。自 2018 年以来,该股已跌至低于其 IPO 价格。该公司的新投资者是否扭转公司的颓势还有待察看。

“看到数据库我的项目或公司开张,总是令人惆怅的事件,但这就是数据库行业的实质”。Andy 示意,开源或有助于 DBMS 比创立它的公司更长命,但并不总是如此。因为其复杂性,数据库须要全职工作人员来修复缺点并增加新性能。挪动源代码权限和行将生效的 DBMS 管制到开源软件基金会(如 Apache 基金会或 CNCF)并不意味着该我的项目将奇迹般地复苏。预计明年会有更多的数据库公司破产,这将会让很多公司无奈与次要的云供应商和上述资金短缺的初创公司竞争。

挑战与时机

后疫情时代对许多人来说,都会是一个比拟艰巨的期间,但有挑战就会有时机。

早在在 2015 年,甲骨文联结创始人 Larry Ellison 还是寰球第五首富。但世事难料,2018 年这位亿万富翁就从排行榜上跌至第 10 位。

好在事件产生了转折,在 2021 年 12 月,超过了谷歌 Larry Page 和 Sergey Brin,重回寰球第五首富。Larry Ellison 在 2021 年 12 月一天就赚了 160 亿美元,因为甲骨文的股票在过来的 20 年里迎来了第二次大涨,公司业绩比预期要好。

这个的故事,置信对于数据库社区及所有人来说,无疑都是振奋人心且感人的。对于同样将数据库视为本人生命里除家庭外最重要局部的 Andy 来说更是如此。

数据库是一个具备不凡韧性和创新能力的行业,咱们独特期待 2022 年定会是个光明的一年。

查看残缺报告:https://ottertune.com/blog/20…

正文完
 0