关于数据库:2023数据库发展趋势展望

46次阅读

共计 5024 个字符,预计需要花费 13 分钟才能阅读完成。

2022 年是魔幻年,2.24 号,NineData 创始人叶正盛正在里面爬雪山团建,谈着刚刚打响的俄乌和平。4 月招聘一位上海员工,但因为疫情管控只能近程报到,杭州亚运会也被迫推延,随后几个月大家都笼罩在暗影中,唯有世界杯带来了高兴,但原打算 12.18 号一起看决赛,没想到公司霎时阳了一半,看球流动也被迫勾销。好在疫情疾速消停,和家人度过一个大团圆春节。

2022 也是玖章算术守业残缺的第一年,团队、NineData 产品和技术都突飞猛进,其中特别感谢所有反对的敌人(客户、老朋友、投资人和业务搭档),也结识了很多守业的前辈,向各位学习。

叶正盛,作为数据畛域 20 年的从业者,曾负责过阿里云数据库产品的整体规划,经验了不一样的 2022,想谈谈 2023 年可能会不一样的数据库。

一、百仓大战,剑拔弩张

2020 年 Snowflake 上市,市值冲高到 1000 亿美金,数据仓库市场从新被点燃,要晓得,二十年数仓王者 Teradata 市值也不到 50 亿美金。

2010 当前,数据仓库也始终被大数据概念碾压,好像是落后技术代表,然而通过 10 年倒退,人们逐步意识到大数据窘境,个别的企业投入大、落地难、技术架构简单,大数据巨头 Cloudera 在 2021 年黯然退市。而数据仓库是更成熟的理念,也是企业外围需要。

2020 年开始,谁会是中国的 Snowflake,这个是投资人和技术创业者最关怀的事件。中国做数据技术的大牛们开始陆续投身到守业浪潮里,并且拿到不少的启动资金,后期有积攒的公司产品陆续面世,尽管很多还在孵化期,但参与者谁都晓得,百仓大战,剑拔弩张。

不论是 OLAP 还是 HTAP 都在面向同样的业务场景,防止不了兵戎相见。如果是在大公司外部孵化,还能够有稳固的公司外部业务撑持,然而在内部市场就天壤之别。内部市场是充沛竞争的,并且是有机会的,不容许守业公司缓缓研发,如果市场被瓜分完了,并且还有生态劣势,那后发者会更难冲破,须要投入更多的资金并且更考验公司的业务能力。市场竞争是残暴的,软件技术产品竞争和互联网产品相似,未来都会是赢者通吃,兴许只有前三能活好。

二、根底软件国产化浪潮

达梦 IPO

中国软件技术蓬勃发展,在互联网畛域基本上实现了自主可控,这外面应用了大量的开源技术和自主研发的平台,然而在传统 IT 畛域,尤其是大型政企市场,外围根底软件依然由国内巨头霸占。

大家都分明,国产化浪潮是大趋势,这不只是因为政策导向,而是中国根底软件技术曾经蓄势待发,只有大力发展市场经济,政策决策不犯错误,国产化是必然趋势。有如中国的电视、手机、汽车等畛域,中国企业不仅是看中国,而是曾经开始走出国门。

再回到数据库畛域,2022 年,达梦曾经提交了上市申请,预计是 500 亿人民币的市值,大家都十分期待能胜利 IPO。达梦是我十分钦佩的公司,如果中国数据库只留下一款产品,那达梦数据库是强力竞争者。不论是产品的成熟度还是对核心技术的掌控以及市场的影响力,我认为达梦都是国内的领导者。

2023 年,心愿达梦可能胜利上市,这将极大加强中国企业倒退核心技术的信念。要晓得,很多中国企业对根底技术是极度不足信念的,甚至不惜走盗版、仿冒、贴壳包装这种低劣操作。

三、分布式与 HTAP 交融

数据库号称是计算机软件的明珠,而分布式始终是数据库畛域大难题,OceanBase、Spanner、TiDB、CockroachDB、PolarDB-X、Vitess 都是畛域的先行者。中国在这个畛域曾经处于寰球当先的程度,然而从市场需求来看,分布式是面向海量数据的问题,是大型零碎需要,导致市场拓展压力大。Oracle 和 MySQL 这些数据库也推出过分布式数据库性能,但并没有失去市场的认可。从技术角度来看,分布式技术是简单的,运维会更简单,根本是要业余团队能力搞定。

市场需求和技术的复杂度,导致分布式尽管有技术的制高点,然而业务拓展十分艰难,可能 80% 的场景都很难施展分布式数据库价值。分布式数据库必须要能开掘更广泛的业务场景。

个别零碎的并发和数据没有那么大,外围需要是在线业务办理和报表剖析,数据量广泛在 1TB 以内,甚至没有数据库管理员,所以大部分企业级软件(ERP、CRM)要思考规模化推广,都反对应用了单个数据库来解决在线业务和报表查问需要,数据仓库也临时不建。所以在企业级软件里 HTAP(OLTP+OLAP)是数据库的默认需要,Oracle、DB2、SQLServer 几大数据库在 OLTP 和 OLAP 方面都是领导者,这个足以证实 HTAP 在通用市场的重要性。

咱们看见 TiDB 和 OceanBase 两大分布式数据库都在发力 HTAP 能力,尽管大家的技术计划齐全不同,然而要解决的问题是类似的,HTAP 外围是要同时具备 TP 和 AP 能力,并且 AP 不能影响 TP 的响应工夫。TiDB 应用了不同的引擎来解决 OLTP 和 OLAP 需要,通过内置的数据传输来解决数据同步问题。OceanBase 与 Oracle 等传统数据库相似,应用了一套引擎来实现,没有数据同步问题,通过加强资源隔离能力来解决 AP 对 TP 的烦扰。我感觉技术难度都十分大,TiDB 的计划会更适宜互联网公司,而 OceanBase 的计划更适宜企业级市场。

在企业级市场外围数据库场景里 HTAP 是标配,HTAP 理论是局部数据库在补足与支流商业数据库差距提出的问题,我印象中已经 HANA 宣传过比拟多。Oracle、DB2、SQLServer 等数据库在 TP 和 AP 方面都十分强,这些产品在简单 SQL 多维查问能力是十分优良的,不论是执行优化、诊断剖析、资源隔离都是业界当先,然而在分布式扩展性方面落后了,因为互联网企业在分布式方面有更高的性价比要求,所以才有了明天分布式数据库、大数据的新格局。

HTAP 能力在中小型零碎(数据量不到 TB 级,数据采集起源繁多)里是十分有竞争力,这也是很多企业应用了 Oracle、SQLServer,在数据量还没有增长起来不须要建设数据仓库的起因。不论是企业日常运维还是简略 BI 剖析,如果能在繁多数据库里实现,对于业务软件研发效率和运维都是微小的劣势,很多商场、医院、工厂都是这么解决的,有些互联网晚期产品也是不必 AP 倒退起来的。

HTAP 对于大型外围零碎的价值在缓缓降落,外围起因是大型零碎数据量大、并发高,所以资源隔离更加简单,数据起源也有多个渠道甚至是多个供应商。所以企业应用独自的 AP 零碎能够有更好的性价比,这样也能保障 TP 业务的稳定性。第二个起因是大型企业要具备更弱小的数据分析开掘能力,须要保留大量历史数据做趋势剖析和预测,如果应用原始的 TP 或者 HTAP,一份数据是很难满足的,所以更须要独自的 AP 零碎。

我了解明天很多 TP 产品在加强 AP 能力是正当的,不论是在繁多引擎做还是通过数据复制多种引擎做都是有价值,也是成长为将来企业外围数据库必须要具备的能力,然而也要看到企业大型场景应用独自 AP 是更正当的数据布局。

四、迈向云数据库 3.0

云数据库是近 10 年来数据库畛域最大的变动,仍然会是将来 10 年的主线,联合云计算做数据库曾经是海内外根本共识。我把云数据库倒退分为三个阶段,每个阶段不是说提一个架构就行,而是须要在市场上等到验证,一款产品要能取得寰球 10 亿美金或者中国 10 亿人民币的支出,这里 RDS、Aurora、PolarDB、DynamoDB 都失去了市场验证。

第一阶段是以 RDS、EMR 这类托管服务为代表云数据库 1.0,这个阶段核心技术是构建云管控平台,具备根底的开源数据库内核批改能力,确保内核能即时更新并且发现重大 bug 时能够疾速修复,对客户最大价值是晋升了数据库运维效率和稳定性。

第二阶段是以 AWS Aurora、阿里云 PolarDB 引领的存储计算拆散架构为代表的云数据库 2.0,这个阶段须要对数据库 IO 架构深刻了解,充分发挥云平台的劣势,联合分布式存储,把数据库做成面向云的存储计算拆散架构,须要对数据库的 IO 模型彻底革新,第二阶段相比第一阶段的 RDS 最重要是晋升了数据库弹性扩大能力。

第三阶段是指在云上构建 Serverless+HTAP 的云原生数据库,称为云数据库 3.0。这须要对数据库做更彻底的重构,要融入到云架构骨髓,会波及到数据库的计算引擎重构,并且要面向云建设新的商业模式,甚至要从新定义面向数据库的开发模式,这将是更难的冲破。在 NoSQL 和数据仓库曾经走在后面,尤其是云厂商全新构建的产品,如 AWS 的 DynomoDB,阿里云的 MaxCompute 和 Google 的 BigQuery,然而在云数据库最重要的关系型模型还没有齐全冲破,海内也还是摸索中,Serverless 是难点,HTAP 是刚需,我感觉明天大家都还有工夫和机会去引领这个翻新。

这三个阶段的产品会共存,毕竟云计算还没有齐全遍及,随着云计算的全面遍及,云数据库 3.0 的竞争力将大幅加强。

五、新数据暴发

计算机让人类有了第二个大脑;互联网让你我远在天边,近在眉睫;挪动互联网让人们的生存更加便当、美妙。

咱们来到了数据时代,新数据在不停的产生,数字、文字、语音、图片、视频曾经充斥了世界,IDC 预测 2025 年寰球数据量将达到 175ZB,随着物联网和 AIGC(AI Generated Content)的成熟,数据又将迎来大爆炸。

物联网尽管没有当初人们设想对家庭带来微小改革,然而咱们曾经感触到智能车联网、机器人时代就要降临,这必将带来海量的新数据处理需要。

咱们看到面向物联网设计的时序数据库在蓬勃发展,国内有 TDEngine、DophinDB、YMatrix、GreptimeDB、IoTDB、Lindorm 等等,国内上的 InfluxDB、TimescaleDB、OpenTSDB、Prometheus,尽管国内的产品起步早,然而中国的产品倒退迅速,物联网场景也更加丰盛,很有机会引领时代。

在图片、视频充斥屏幕的时代,面向新媒体数据的辨认剖析会有更多场景,尤其是与 AI 联合,Milvus、Pinecone 等产品都在这个畛域摸索。AIGC 概念会给数据库带来新的变数,明天数据库是用来采集、存储、剖析数据,如果未来数据库也具备了 AIGC 的能力,那就能够本人产生并存储数据,咱们曾经领教了 ChatGPT 的威力,数据和 AI 的联合会带来有限设想。

过后序数据库在面向海量数据场景倒退时,而另外一个守业热潮是图数据库。图数据库是 NoSQL 浪潮的重要分支,也是最须要翻新的畛域。文档、时序等数据库实质上是关系型数据库的非凡场景优化,而图数据库是在彻底重构数据存储与检索模型,图数据库更像人脑思考模型,而明天大量的数据组织是按计算机模型筹备的,所以这是微小的挑战,必须要在输出和输入侧都发生变化才可能胜利。咱们也看到 Neo4j、TigerGraph、Nebula、Galaxybase、Neptune 等产品在不停摸索,目前次要是场景化冲破,期待能在新数据暴发时代发力。

六、古代数据栈 MDS

Modern Data Stack,简称 MDS。这是 2020 年圈子里开始探讨的理念,晚期是 dbt 和 Fivetran 提出来的,Modern Data Stack 翻译过去是古代数据栈,随着新数据暴发,联合以后数据需要和技术特色,实质是云原生的实时多源数据管理产品体系。

从技术和市场的角度看,繁多数据库曾经无奈满足各种客户场景,所以客户须要各种数据源对立治理,面对业务竞争,客户会要求数据能更实时的传输和解决,同时要能简洁易用、安全可靠,另外云数据库是大方向,所以 MDS 实质是云原生的实时多源数据管理产品体系。

Snowflake,Fivetran 是具备了一些 MDS 特色,提供了简洁易用的云服务,并且可能实时处理各种数据,在国内市场失去了宽泛的利用。另外阿里云 DTS、AWS 的 DMS,是云厂商推出的数据传输类产品,玖章算术 NineData(NineData- 让每个人用好数据和云 - 玖章算术)是新一代云原生数据管理服务,这些产品都是面向云时代设计的解决多种数据源实时数据管理问题,包含存储、开发、传输、备份等等,是 MDS 的落地实际。MDS 的思维在继续酝酿,置信很快会在畛域内绽开,十分期待。

写在最初

2023 年,咱们会走出疫情,国家对平台和民营经济的反对,信念逐步回归,一切都在向好的方向倒退。守业是艰巨的,然而创业者肯定是乐观的,尽管看见了遍地的机会,然而咱们更须要好高鹜远,在产品技术和商业模式上一直冲破,我置信中国根底软件很快会在中国崛起并服务寰球市场。

正文完
 0