报告编委
爱剖析
黄勇 合伙人 & 首席分析师
张扬 合伙人 & 首席分析师
洪逸群 高级分析师
任理 分析师
中国信通院云大所
魏凯 中国信通院云计算与大数据研究所副所长
序言
数字化时代,数据应用场景出现多元化趋势,数据规模也随之爆发式增长。海量异构数据的爆发式增长,对数据库的存储和计算能力提出了更高的要求。剖析型数据库因其在解决海量实时数据时具备优良的存算和治理能力,近年来博得了市场的青眼。
剖析型数据库最早的定义是指从扩散的数据源中抽取、清理和会集各类结构化数据,造成面向特定剖析主题的、绝对稳固且能反映历史变动的数据汇合,并通过 OLAP(联机剖析解决引擎)来对这些数据进行剖析,即通常意义的数据仓库。其中 OLAP 数据库概念最早由关系型数据库之父 E.F.Codd 于 1993 年首次提出,他认为用户的决策分析须要对关系型数据库进行大量计算能力失去后果,OLTP(联机事务处理)曾经不能满足终端用户对数据库查问剖析的须要,因而,E.F.Codd 提出了多维数据库和多维分析的概念。OLAP 数据库的提出引起了很大的反应,OLAP 数据库作为一类产品同 OLTP 数据库显著辨别开来。
在尔后近 30 年的演进中,剖析型数据库先后呈现了共享存储架构数仓、大规模并行处理(MPP)架构数据仓库以及数据湖等技术架构。近年来,随着企业数据分析需要的一直晋升,具备流批一体和存算拆散,能通过元数据层在数据湖上实现数据管理性能的智能湖仓受到了更多关注,剖析型数据库迎来新阶段—智能湖仓。随同企业数字化转型策略深刻推动,剖析型数据库外延也在一直扩大,咱们认为当下的剖析型数据库是指为应答企业治理、业务、数据分析师、数据科学家等人员对数据的各类剖析和利用需要而提供的各类数据存储和计算引擎,包含传统数据仓库、云数据仓库、数据湖等,以及目前正在衰亡的智能湖仓。
后疫情时代背景下,剖析型数据库在更多业务场景中实现了更宽泛的利用,如流调溯源、时空剖析等,剖析型数据库市场也迎来了爆发式增长。近些年国内剖析型数据库守业公司日益涌现,产业资本一直涌入,取得融资的公司数量及额度均大幅增长。据公开材料统计,2013-2021 年,主打数据分析场景的数据库企业成立数量为 11 家,占总数据库企业总成立数量的 24%,融资次数共计约 40 余次,融资总额约近 50 亿元人民币。竞争强烈的市场,哪些公司具备真正后劲;以后炽热的市场是否只是一场泡沫;“智能湖仓”阶段后,剖析型数据库又将向哪个方向倒退,本报告将进行一一梳理和具体解答。
魏凯
中国信通院云计算与大数据研究所副所长
目录
前言:为什么要钻研剖析型数据库
1、剖析型数据库的定义与倒退历程
\2. 剖析型数据库的技术演进趋势及其驱动因素
\3. 中国剖析型数据库市场规模
4.剖析型数据库厂商要害竞争因素
5.剖析型数据库市场竞争格局
6.国内代表厂商剖析
结语:国内剖析型数据库厂商的时机
前言:为什么要钻研剖析型数据库
随着数据成为驱动社会与经济倒退的外围生产因素,作为要害数字基础设施的数据库,其技术趋势和市场格局正在经验激烈的变动。
一方面,数据规模的迅速收缩,以及大量创新性的数据分析和利用场景的呈现,对剖析型数据库的存储和计算能力也提出了更简单的要求。
另一方面,为应答新的趋势,国内外传统数据库厂商、新锐数据库厂商和私有云厂商等各类厂商近年来纷纷加大对剖析型数据库的投入和布局,它们或推出了新一代的智能湖仓产品,或对传统的数据仓库、数据湖进行了重大降级。
变动也意味着时机,为了挖掘出该畛域具备后劲的代表性公司,本报告将具体梳理剖析型数据库的倒退历程和技术演进趋势,重点说明中国剖析型数据库市场的价值和倒退空间,建设剖析型数据库厂商的评估模型,并对重点公司的产品技术、研发能力、商业模式、行业落地状况进行剖析。
一、剖析型数据库的定义与倒退历程
剖析型数据库的诞生
剖析型数据库最早是从交易型数据库衍生而来。在数据库诞生和倒退的晚期,其利用场景次要是对数据进行对立的存储、治理和拜访,因而用户须要数据库可能实现对数据的增改删操作,也即联机事务处理(OLTP),此类数据库被称为交易型数据库(也称事务型数据库)。随着用户的需要从查看单个交易数据逐步衍生出对交易数据的汇总、比照等剖析需要,数据仓库在 1980 年代开始呈现。始终到 1993 年,关系型数据库之父 Edgar F. Codd 正式提出联机剖析解决(OLAP)的概念后,剖析型数据库的概念也由此正式诞生。
剖析型数据库的定义及其延长
剖析型数据库最早的定义的是指从扩散的数据源中抽取、清理和会集各类结构化数据,造成面向特定剖析主题的、绝对稳固且能反映历史变动的数据汇合,并通过 OLAP 引擎来对这些数据进行剖析,也即通常所说的数据仓库。
随着企业数据分析需要的一直变动,以及技术的继续演进,剖析型数据库的定义和外延也在一直延长。咱们认为,当下的剖析型数据数据库是指为应答企业治理、业务、数据分析师、数据科学家等人员对数据的各类剖析和利用需要而提供的各类数据存储和计算引擎,包含了传统的数据仓库、数据湖,以及目前正在衰亡的智能湖仓。
剖析型数据库的倒退历程
剖析型数据库曾经经验了数十年的倒退,期间随同了多个要害概念的提出,以及泛滥厂商推出的重要产品,这些事件成了串联剖析型数据库倒退历程的要害节点,也大抵勾画出了剖析型数据库的演进趋势。
图 1: 国内外剖析型数据库倒退历程重要节点
2. 剖析型数据库的技术演进趋势及其驱动因素
剖析型数据库诞生至今,曾经经验了共享存储架构数据仓库、MPP 数据仓库、数据湖三代的倒退,目前正在往第四代智能湖仓方向演进。在这一倒退历程中,驱动剖析型数据库代际演进的因素次要包含了利用场景、数据以及计算环境三个层面一直产生的变动,也由此造成几代剖析型数据库在技术架构、性能和性能层面的基本差别。
表 1:剖析型数据库的代际演进
第一代剖析型数据库——共享存储架构数据仓库
基于数据库的共享存储架构数据仓库是剖析型数据库最早的状态,其能够追溯到诞生于 1970 年代末到 1980 年代初的 Oracle、DB2。在该阶段,企业的数据分析的利用场景较繁多,次要是面向管理层提供若干固定报表。数据类型为结构化数据,数据量也绝对无限。
技术架构层面 ,对于该阶段的数据分析需要,企业通常是建设一套用于剖析查问的历史数据库来会集不同事务型数据库的原始数据。
性能层面 ,共享存储架构数仓具备很强的稳定性,反对各类 SQL 规范,以及 ACID 个性(即数据库的原子性、一致性、隔离性、持久性)。
性能层面 ,因为共享存储架构数仓的计算节点可能拜访任意的存储节点,其须要装备专有物理硬件,其性能优化良好。但共享存储架构的毛病是可扩展性较差,个别扩大到十几个节点就会遇到瓶颈,因而当数据量达到千万、亿级别时,数据的计算就会呈现延时。
第二代剖析型数据库——MPP 数据仓库
最早的 MPP(大规模并行处理)数据仓库是 Teradata 于 1984 年推出的基于专有硬件的无共享架构 MPP 数仓,起初也呈现了基于 x86 通用服务器的 MPP 数仓 Greenplum、Vertica。在该阶段,企业数据分析的利用场景曾经从面向多数管理人员提供固定报表,转变为面向业务人员提供更宽泛的批处理报告、BI 和可视化,以反对业务决策。与此同时,企业须要解决的数据类型仍旧是结构化数据,但数据量呈现了快速增长,达到了 GB 或 TB 级。
技术架构层面 ,为了应答上述的数据分析需要,专用于 OLAP 的剖析型数据库从事务型数据库中分离出来,造成了沿用至今的数据仓库。数据仓库的设计是为了反对疾速的数据查问和数据分析工作,其技术架构是建设了一套数据流,通过事后定义 Schema 的形式,将事务型数据库中的结构化数据通过 ETL 操作,造成“表”构造的数据写入数据仓库中。与此同时,数据仓库在数据组织形式上开始广泛应用列存储取代交易型数据库的行存储,因为列存储具备主动索引、缩小总 I /O、利于数据压缩等劣势,数据仓库因而得以极大地晋升其查问性能。
图 2:数据仓库架构
性能层面 ,因为 MPP 数仓底层的数据仍旧由事务型数据库提供,并且通过长时间的倒退,其 SQL 规范,以及 ACID 个性的稳定性和可靠性变得更高。但 MPP 数仓仅能解决结构化数据,无奈解决半结构化和非结构化数据。
性能层面 ,MPP 数仓采纳无共享存储架构,各计算节点都有独立的存储节点,因而并行处理和扩大能力更好,可能满足大数据量(GB 或 TB 级)下的高并发、高性能需要,并且其可扩展性相比共享存储架构有了较大晋升。但当集群扩大到数百节点时,MPP 数仓仍然会呈现性能瓶颈,扩容老本同样不菲。
第三代剖析型数据库——数据湖
以 Hadoop 为代表的数据湖呈现在 2005 年之后。在该阶段,因为互联网的衰亡,企业须要解决的数据呈现出多类型、大规模的特点。一方面,数据类型除了蕴含大量结构化数据,为蕴含了各类半结构化数据(如 CSV、XML、日志)、非结构化数据(如文档、图片、音频、视频)。另一方面,数据量从 GB 或 TB 级进一步晋升至 TB 或 PB 级。与此同时,企业的数据分析的利用场景曾经变得更加丰盛,除了传统的数据查问、固定报表,也呈现了大量面向业务监测和洞察的自助式剖析,并且呈现了肯定的实时性数据分析场景。
技术架构层面 ,为了承载对大量结构化、半结构化、非结构化数据的存储与解决,Hadoop 体系应用 HDFS 做数据存储,能够灵便地以低成本存储任意类型的原始数据,应用 Mapreduce、Spark 等引擎做大数据计算。随着 Hive、SparkSQL 等大数据组件的呈现,企业能够基于 Hadoop 实现数据仓库(SQL-on-Hadoop)的性能,行将数据湖的数据通过 ETL 到数据仓库,以反对 BI 等利用。与此同时,Storm、Flink 等流解决引擎,也可能肯定水平满足企业实时数据处理的需要。只管 2015 年后,云服务商提供的对象存储如 AWS S3 大量取代公有部署的 HDFS,存储老本升高很多,但基于数据湖的大数据架构根本没有扭转。
图 3:数据湖架构
性能层面 ,因为数据湖中各种类型数据都是按原样存储,采纳剖析时写入 Schema(schema-on-read)的模式,因而数据湖的 SQL 规范、ACID 个性反对较差,其数据版本控制和索引性能也有余,并且 Hive 自身不反对单条记录的批改,这些起因导致数据湖难以取代 MPP 数仓对结构化数据的解决能力。
性能层面 ,SQL-on-Hadoop 在软件上实现了存储节点和计算节点的相互独立,能够分别独立扩大,因而其节点能够扩大至数千规模。因为实际中,企业部署 Hadoop 次要还是基于物理机,在硬件层面,其计算与存储资源依然是绑定的。
第四代剖析型数据——智能湖仓
以后企业数据分析与利用需要的变化趋势
在解析第四代剖析型数据库在技术架构、性能和性能层面的特色之前,咱们须要首先理解近年来数据分析的利用场景、数据以及计算环境等方面产生的重大变化趋势,以及现有的剖析型数据库在应答这些变动时的次要缺点。
首先,企业数据分析的利用场景变得更加宽泛。 数据正在成为业务翻新的外围,基于数据分析,企业能够预测客户行为、提供个性化的客户体验、预测市场趋势、制订业务策略等,从而进步企业的竞争力。与此同时,数据分析门槛的升高使得企业外部越来越多的业务人员成为数据消费者,并向“人人都是分析师”的方向演进。
在这样的背景下,企业外部的数据分析与利用数量急剧增长,除了传统基于结构化数据的 BI 利用,实时数据处理与剖析的需要在疾速减少。与此同时,大量的创新性的 AI/ML 利用层出不穷。依据爱剖析预测,头部企业潜在 AI/ML 利用场景数量最多可达到 5000 到 10000 例,中长尾企业的 AI/ML 利用场景数量可达到 100 到 1000 例。
图 4:企业潜在 AI/ML 利用场景数量
测算逻辑: 场景指人工智能技术可能利用的最小单点利用,如点餐 APP 智能举荐,潜在利用场景通过(企业外部零碎数)*(每个零碎中能够利用人工智能替换人工操作或规定模型数量)进行估算
表 2:重点行业典型数据智能翻新利用场景
其次,企业的总数据量以及实时数据正在以前所未有的速度爆发式增长。 随着互联网的深刻倒退,以及云、5G 等基础设施的成熟和衰亡,大规模的应用程序、挪动设施、边缘设施的联网导致数据规模激增,大量企业须要解决数据量将达到 PB 级,甚至更高。依据 IDC 的数据,到 2025 年寰球数据总量将达到 175ZB,而其中有超过 25% 为实时数据。
图 5:2025 年寰球数据总量及形成
最初,企业业务和剖析零碎上云正在减速。 随着企业的业务零碎、剖析零碎在往云端逐渐迁徙,其数据分析系统也因而在云端进行部署,以充沛利云的可扩展性和相干技术资源。依据 IDC 的数据,到 2025 年寰球 49% 的数据将存储在私有云中。只管国内市场因为政策监管、企业接受度等起因,国内企业上云步调不如国外激进,但长期而言,这一趋势不会扭转。
传统剖析型数据库应答以后需要的次要缺点
在实践中,大量企业还在应用传统的数据仓库和基于数据湖的大数据解决方案,并且很多企业外部有多套数据系统并行,满足不同的数据分析需要。但因为诸多起因,这些解决方案通常存在以下次要的缺点:
存储计算资源难以弹性扩大,制约了大数据量下数据分析的性能和速度。 无论是 MPP 数仓还是本地部署的 Hadoop 大数据解决方案,其存储和计算资源都是耦合的。这种设计通常会导致存储资源冗余而计算资源有余,扩大老本高,并且节点扩大会存在下限。面对大数据集,企业可能须要破费数小时或者更长时间来查问数据,从而限度了大数据分析的性能和速度。
不足优化的性价比,资源耗费大、老本高。 一方面,在数据湖加数仓的两层架构中,数据会首先被 ETL 到数据湖中,之后再被 ETL 到数仓中,这会在零碎中引入额定的复杂性,不仅须要付出大量的 ETL 作业老本,并且将数据从数据湖复制到数仓中也会须要领取两倍的存储老本。另一方面,因为数仓应用的是专有数据格式,将这些数据或工作负载迁徙到其余零碎也会产生额定的老本。
对人工智能和机器学习等高级剖析的反对有余。 以后风行的 TensorFlow、PyTorch 和 XGBoost 等机器学习零碎很难在现有剖析型数据库之上高效运行,因为这些零碎从数仓或数据湖中读取大型的数据集时须要写非常复杂的非 SQL 代码,并且数据湖自身短少数仓丰盛的数据管理能力,如 ACID 个性、数据索引、数据版本控制等,进一步加大了读取数据的难度。
零碎架构简单,稳定性差,治理和保护老本高。 企业在过往多年的倒退中,因为技术能力、资源、制度流程等多种因素的限度,采取了很多长期的数据计划。一方面,企业会在原有数仓和大数据系统中,依据需要一直做降级、打补丁。另一方面,因为数据仓库和数据湖都存在各自的有余,为了满足不同的数据处理与剖析需要,企业常常会建设独立的零碎来解决数据,例如独自建设的数仓、数据湖、流数据处理平台等。这些因素导致企业理论的数据系统架构非常复杂,技术债权累计,零碎的治理和保护老本十分高。
图 6:典型多套零碎并行的企业数据平台
第四代剖析型数据库“智能湖仓”的诞生
通过剖析近年来数据分析的利用场景、数据以及计算环境等方面产生的变动,以及现有的剖析型数据库在应答这些变动时的次要缺点,咱们认为,下一代的剖析型数据库必然会朝着加强剖析性能、晋升易用性、升高应用老本的方向倒退。
在这样的技术趋势下,Databricks 于 2016 年推出 Delta Lake,旨在在数据湖上反对相似 DBMS 的数据管理性能,而随着 Databricks 于 2020 年率先在业内提出 LakeHouse 的概念,智能湖仓由此开始衰亡。
在国外市场,Snowflake 推出了数据云产品,在其云上数据仓库的根底上减少了数据湖的性能。亚马逊云科技基于 Amazon S3 构建数据湖,绕湖集成数据仓库、大数据处理、日志剖析、机器学习数据服务实现智能湖仓。在国内市场,私有云厂商如华为云、阿里云,新锐数据库厂商如滴普科技也于近年推出智能湖仓产品,并播种了一批行业头部客户。
图 7:智能湖仓架构
智能湖仓在技术架构、性能和性能层面次要具备以下次要特色:
通过元数据层在数据湖上实现数据管理性能。 智能湖仓应用规范文件格式(如 Parquet)将数据存储在对象存储中,并在对象存储上构建元数据层,从而在元数据层实现诸如 ACID 事务处理、版本控制等数据管理性能,使得多种计算引擎能够共享对立的数据存储。同时,通过对缓存、辅助数据结构(如索引、统计信息)和数据布局进行优化,智能湖仓也具备了良好的 SQL 性能。
流批一体,简化零碎架构。 智能湖仓能够实现批处理与流解决的对立,通过 CDC(Change Data Capture)将业务零碎数据实时抽取到数据湖,实时加工后传输至 OLAP 零碎中对外服务,实现端到端过程的分钟级时延。与此同时,零碎架构失去简化,大幅升高了系统维护以及数据开发工作的难度。
云原生、存算拆散。 基于云原生架构,智能湖仓存储和计算资源失去无效拆散,企业能够基于需要灵便地对存储和计算资源进行别离扩大,且扩大需要简直没有限度,从而实现对大规模数据查问与剖析的高性能,并显著升高 TCO(Total Cost of Ownership)。
3. 中国剖析型数据库市场规模
中国剖析型数据库市场倒退的驱动因素
近期因素:企业数据处理与剖析需要降级
剖析型数据库市场倒退的近期驱动因素是企业的数据处理与剖析需要的降级。面对新的数据处理与剖析需要,企业原先的数据系统存在诸多限度,因而须要对剖析型数据库的性能也进行相应降级,这些需要包含:
超大规模结构化数据的查问:满足对百万甚至千万级表单数据查问的的高性能;
- 实时数据处理:满足大规模实时数据处理的需要;
- AI/ML 利用:提供大规模 AI/ML 利用开发的数据读取和相干性能反对;
- 对立存储与分仓隔离:解决数据孤岛问题,并针对不同业务需要进行数仓建设;
- 现有零碎架构运维简单:现有数据平台多个零碎并行,治理和运维老本高。
受产业个性、行业和企业倒退阶段,企业数字化水平等因素影响,国内企业在实践中对上述因素的需要水平存在较大差别。对此,咱们对多个行业企业的相干需要进行了调研,发现金融、能源、先进制作、批发等行业企业目前存在多个显著的数据处理与剖析需要降级因素。
图 8:重点行业数据处理与剖析需要降级因素
远期因素:剖析型数据库全面迭代
企业对剖析型数据库的性能降级需要,近期内会存在沿用传统的数据仓库或数据湖进行性能降级,以及采纳全新智能湖仓两种门路。长期来看,咱们认为,将来的企业都会是高度数字化的,在须要解决的数据规模以及数据分析场景广泛性方面也都会趋于对立,企业都须要构建对立数据存储与计算底座,而传统的剖析型数据库因为本身的种种局限性,将会逐步被智能湖仓取代,企业将实现剖析型数据库的全面迭代。
图 9:将来企业的数据平台架构
中国剖析型数据库市场规模与增速
剖析型数据库包含了数据仓库、数据湖以及智能湖仓,因而,剖析型数据库的市场规模为这三者的市场规模之和。
依据 IDC 的数据,2021 年,中国数据仓库市场规模为 87.1 亿元人民币,大数据平台软件市场规模为 162.8 亿元。其中,IDC 定义的大数据平台的存储计算引擎蕴含了数据湖和智能湖仓两类。因而,能够认为 2021 年中国剖析型数据库的市场规模为当年数据仓库与大数据平台市场规模之和,为 249.9 亿元。
同时,依据 IDC 的预测数据,到 2024 年,中国数据仓库市场规模为 168.5 亿元,中国大数据平台软件市场规模为 352.9 亿元。综上数据,预计 2024 年,中国剖析型数据库市场规模将达到 521.4 亿元,复合增长率 CAGR 为 27.7%。
智能湖仓在将来将逐渐代替传统的数据仓库和数据湖,其潜在可触达的市场即为整个剖析型数据库的市场。作为下一代剖析型数据库,智能湖仓可能间接在数据湖的低成本存储上实现相似数据仓库的数据结构和数据管理性能,从而兼具了传统数据仓库与数据湖的数据存储与计算能力,在性能、性能、老本等方面具备显著劣势。因而,咱们认为长期来看,随着企业数据量的进一步增长,剖析场景的更加丰盛,智能湖仓将逐渐代替传统的数据仓库和数据湖,其潜在可触达的市场规模即为数据仓库与大数据平台软件的市场规模之和。
图 10:中国剖析型数据库市场规模及增速
测算逻辑补充:
1、数据仓库和大数据平台软件市场规模数据都蕴含了本地部署和云端部署两种模式。
2、大数据平台软件还包含了数据开发、数据资产治理、平台监控治理等经营管理工具。因为数据湖或智能湖仓厂商通常也会提供这些软件服务,因而能够认为大数据平台软件市场规模属于这类厂商可能触达的市场规模。
4.剖析型数据库厂商要害竞争因素
剖析型数据库市场参与者泛滥,为了更精确地判断市场格局,了解次要厂商的竞争劣势,咱们从五个维度梳理了剖析型数据库厂商要害竞争因素,包含:厂商背景、自研能力、技术架构、商业模式、行业落地。
厂商背景:团队背景和产品定位
厂商背景可能反映厂商在相干畛域的底蕴、研发实力、倒退策略等,次要关注成立工夫、团队背景、产品定位等信息。
厂商成立的工夫较早个别意味着其在数据库市场有较深厚的积攒,这类厂商有着较高的市场知名度,产品通常成熟稳固,服务的客户数量也较多,而近年来新成立的厂商通常在产品技术层面有较大翻新,可能满足企业疾速变动的数据处理需要。
团队背景反映的是厂商在数据库产品方面的技术积攒和研发教训,头部数据库厂商的外围团队成员通常来自国内外老牌数据库大厂、私有云厂商,或者顶尖院校。
产品定位则反映厂商在剖析型数据库畛域产品能力、服务客群、服务范畴等。
技术架构:技术路线和场景实用能力
厂商的剖析型数据库产品采纳不同的技术架构,代表了其技术路线和场景实用能力的不同。目前市场上支流厂商提供的剖析型数据库包含了前文所述的第二代到第四代,即 MPP 数据仓库,数据湖(基于 Hadoop 生态)以及智能湖仓。
表 3:不同技术架构剖析型数据库要害指标
自研能力:欠缺性能、进步稳定性、保障安全性
自研能力较强的厂商可能把握剖析型数据库的外围代码,从而在数据库的性能迭代和治理运维方面提供原厂级服务,具备较强的竞争劣势。厂商把握外围代码能够从源头解决软件的外围问题,一方面,厂商因而能够主导产品的性能迭代,并针对不同客户的个性化需要做定制化性能;另一方面,厂商能够在网络存储计算资源、平安管控等方面做更深的优化,提供原厂级的数据库治理运维工具,以晋升数据库的性能,并使得数据库具备更高的稳定性和安全性。
剖析型数据库厂商的自研能力蕴含两种形式,即自研数据库内核或基于开源技术做源码级革新并回馈开源社区。自研数据库内核的在数据仓库厂商中较常见,但国内外支流数据湖和智能湖仓厂商通常都是基于开源技术做二次开发。例如,智能湖仓厂商次要基于 Netflix 开源的 Iceberg 或 Uber 开源的 Hudi 做商业化版本产品,典型厂商产品如基于 Iceberg 的滴普 FastData、基于 Hudi 的华为 MRS、基于 Flink+Iceberg 的网易 Arctic 平台等。只管 DataBricks 目前曾经开源了其 Delta Lake,但 DataBricks 之外,市场上暂无支流的相干商业化版本产品。
图 11:剖析型数据库厂商自研形式、指标与价值
基于开源技术做二次开发,厂商能继续给开源社区做奉献,并在开源社区的具备较高技术影响力是要害。厂商对源代码的更改如果不被支流社区接收,其产品技术与存在与支流社区脱节,产品稳定性有余的危险。
因而,对于剖析型数据库厂商,尤其是智能湖仓厂商,咱们应重点关注其与开源社区的分割紧密度,以其在开源社区的技术影响力,只有厂商对开源技术的二次开发能继续回馈到支流社区,在支流社区建设较当先的位置,并能够肯定水平上影响开源社区的技术倒退门路,才能够被认为具备较强的自研能力。
商业模式:提供数据平台全栈产品和服务
商业模式层面,国外厂商以提供数据库产品为主,而在国内市场,因为企业的数字根底建设整体上较落后,企业通常须要厂商提供出数据库产品之外,搭建数据平台所需的工具组件,以及相干施行和咨询服务。
国内厂商根据不同分类,其商业模式也有相应差别。传统的数据库厂商通常只为企业提供数据库产品,以及数据库运维工具和部署服务;大数据解决方案提供商,包含数据湖或智能湖仓厂商除了提供数据库产品,通常也会提供包含数据开发、数据治理、数据资产治理等搭建数据平台所需的工具组件,以及针对数据平台搭建的施行和咨询服务。这其中,厂商间的次要差别在于,各厂商的数据平台相干的工具组件数量和功能完善度存在肯定区别,受限于服务过的客户范畴和教训积攒,其施行和咨询服务的效率和体验也存在优劣之分。
咱们倡议重点关注可能提供欠缺数据平台全栈产品,以及施行和咨询服务经验丰富的厂商,这类厂商通常能满足更多类型的客户需要,取得更多的市场份额。此外,私有云厂商在商业模式也存在肯定特殊性,这类厂商尽管也能提供数据平台相干的产品、施行和咨询服务,但其侧重点在于为企业提供云端部署的标准化数据库产品,且其通常会将数据库产品与自家云基础设施服务绑定销售,定制化服务通常只面向行业大客户。
图 12:剖析型数据库厂商典型商业模式
行业落地:在行业畛域的教训积攒
剖析型数据库在行业的落地状况反映的是厂商的产品技术能力失去行业客户的验证水平,以及在行业畛域的教训积攒状况。不同行业企业因为其所需解决数据量、数据类型、剖析场景存在差别,其对剖析型数据库的性能、性能、老本等方面的要求也各有不同。例如金融、能源等行业头部企业通常都有着 PB 级超大规模的数据,须要数据库具备千万级单表查问的高性能,对数据的实时处理能力要求也很高,因而,剖析型数据库厂商如果能取得较多金融、能源行业头部客户的应用,意味着厂商在超大规模数据的计算查问、实时数据处理层面具备很好的性能体现,且数据库产品稳定性较高;而批发行业企业存在大量探索性的剖析场景,且对数据存储与解决的老本较敏感,因而,厂商如果积攒了较多批发行业企业,则阐明其在批发畛域有较深的行业了解,能满足这类企业个性化的剖析场景的需要,且产品具备较高的性价比。
5.剖析型数据库市场竞争格局
剖析型数据库市场参与者泛滥。在几十年的倒退历程中,剖析型数据库曾经经验过四代演进,传统数据库厂商通过一直迭代产品满足用户需要,仍然是该市场中的次要参与者。近年来,随着数据成为企业最重要的生产因素,企业对数据存储与解决变得更加简单,国内外市场中涌现出了一批新锐的数据库厂商,他们在产品设计上采纳了最新一代湖仓一体的的架构设计,而各大公有云厂商也推出了面向多种利用场景的剖析型数据库产品。
图 13:国内外剖析型数据库市场代表厂商
注:局部最近几年新成立的数据库厂商,主推传统 MPP 数仓或数据湖产品,同样归为传统数据库厂商。
因为公司底蕴,技术路线等起因,不同类型厂商在产品技术能力、商业模式、客户积攒等方面存在诸多差别,因而具备相应的劣势与有余。
传统数据库厂商
传统数据库厂商蕴含两类,一类次要提供传统的 MPP 数仓,另一类次要提供基于 Hadoop 生态的数据湖服务。这类厂商很多都有着悠久的历史,甚至随同着几代数据库的倒退至今,如 Oracle、Teradata 等。
劣势
稳定性和安全性高。 成立工夫较久的传统数据库厂商,其产品通过长期的打磨迭代,曾经失去大量客户的应用和验证,因而其通常具备很高的稳定性和安全性。例如,Cloudera 基于 Hadoop 生态先后推出了大数据平台 CDH 和 CDP,尤其目前的发行版产品 CDP 在计算引擎、多种剖析性能、管理工具、资源调度等方面都做了大量深度优化,并且 Cloudera 在寰球有 700 多名研发工程师,能保障用户取得稳固的应用体验。同时,借助共享数据体验技术(SDX)、CDP 中的平安和治理性能,CDP 可能实现不同云上企业数据安全、隐衷和合规的一致性。
客户根底好。 在剖析型数据库开始衰亡的晚期,一些传统数据库厂商凭借当先的产品和技术,欠缺的管理工具和服务,占据了大量市场份额,并统一连续到当初。以 Oracle 为例,在国内市场,大量金融、电信等行业企业至今还在应用基于 Oracle 数据库构建的数据仓库。而在国外市场,大部分世界 500 强,以及更多中小型企业也是 Oracle 的用户。随着剖析型数据库的技术倒退,Oracle 也一直与时俱进,推出了云数仓产品 Oracle ADW,从而满足更多客户的需要。
有余:
技术架构传统。 传统数据库厂商通常都是沿用原先的技术架构,针对新的性能需要做技术升级和大补丁,由此会造成零碎架构越来越简单,治理和运维老本高。同样以 Cloudera CDP 为例,只管最新版的 CDP 曾经在混合云和多云部署、存算拆散、多功能剖析做更多的反对,但 CDP 仍然沿用了 Hadoop 生态体系的技术,目前 CDP 中曾经蕴含了多达 39 个开源我的项目,涵盖存储、计算、流解决、编排、SQL、NoSQL 等多种组件,这样的零碎架构非常复杂,治理保护老本高。同时,这种传统架构对一些新的性能反对有余,例如,不反对数据库之上提供残缺的数据链路等。
新锐数据库厂商
劣势
技术架构先进、满足多种剖析场景。 新锐数据库厂商在技术架构上很多采纳了全新一代的设计,包含了湖仓一体、流批一体、云原生等,并且对存储计算引擎做了大量优化,可能以低成本、高性能满足企业的多种剖析需要。以滴普科技为例,其智能湖仓产品 FastData 底层采纳了对立的数据存储,通过对立技术元数据层实现欠缺的数据管理能力,并对接各类剖析引擎,满足企业对多模数据对立存储与解决,以及批处理、流式计算、交互式剖析、机器学习等各类剖析需要。同时,FastData 采纳流批一体架构,可能实现 PB 级数据秒级实时剖析。
有余
客户接受度有待晋升。 新锐数据库厂商在产品技术层面具备当先劣势,但企业用户对新一代的剖析型数据库的接受度还有较大晋升空间。一方面,大中型企业通常数字化程度较高,它们在传统的数仓、数据湖建设上曾经有了较大投入,其数据平台中曾经有了大量的业务利用和 ETL 工作,间接迁徙的工作量和老本十分高。因而,目前企业通常都是呈现大量新的数据存储和解决需要的时候,才会引入智能湖仓。另一方面,区别于国外企业对于上云的激进步调,国内企业整体上上云步调较慢,很多企业目前还是采纳本地部署的模式,难以施展云原生带来的麻利、弹性、低成本等多种劣势。
私有云厂商
劣势
产品类型丰盛、满足多种利用场景。 私有云厂商通常会提供多种类型的剖析型的数据库,满足企业各类剖析需要。以阿里云为例,其剖析型数据库产品包含云原生数据仓库 AnalyticDB MySQL 版、AnalyticDB PostgreSQL 版,实时数仓 Hologres、大数据计算服务 MaxCompute、基于 Hadoop 的大数据平台 E-MapReduce,智能湖仓 Data Lake Formation。
有余
销售绑定云服务,短少中立性。 私有云厂商在 IaaS、PaaS 和 SaaS 层提供了丰盛的产品和服务,其在销售数据库产品时,通常会绑定其 IaaS 层的存储、计算资源、以及相干的运维服务,这会升高企业的抉择范畴,减少应用老本。
服务能力有余。 私有云厂商的业务重点是在云端为企业用户提供标准化的产品,而国内大量企业目前还偏向应用私有化部署的模式,应答这类需要,私有云厂商通常会与生态合作伙伴单干,将实时部署服务外包,不足原厂服务会造成我的项目品质参差不齐。此外,对于局部企业的定制化性能需要,私有云厂商通常也难以满足。
剖析型数据库典型产品分类
重点关注国内提供新一代剖析型数据库的厂商。一方面,因为厂商底蕴、定位等方面的不同,国内外很多厂商会提供多种类型的剖析型数据库产品,咱们认为新一代架构的剖析型数据库产品智能湖仓在解决大规模数据,反对多种剖析场景方面具备当先的劣势,将来将会逐渐成为剖析型数据库市场的支流。另一方面,因为信创政策的影响,国内企业,尤其是金融、电信、能源等国有企业在应答将来剖析型数据库降级需要时,根本都会抉择国内厂商的相干产品。
图 14:国内外剖析型数据库典型产品分类
6.国内代表厂商剖析
南大通用 GBase
南大通用自 2004 年成立以来,专一于数据库软件的自主翻新,放弃产品核心技术和底层代码自主可控,旗下剖析型数据库和交易型数据库产品齐全依附自研,2014 年通过引进 Informix 数据库源代码推出了高端事务型数据库,逐步形成全技术栈的数据库产品和服务。
图 15:南大通用 GBase8a 倒退大事记
技术架构层面,南大通用外围产品 GBase 系列数据库随着客户需要场景的更迭,倒退出多种架构来反对不同的业务需要。其中面向数据分析市场的,次要是剖析型数据管理系统 GBase 8a 和对立数据平台 GBase UP。GBase 8a 以大规模并行处理、列存储,高压缩和智能索引技术为根底,具备满足各个数据密集型行业日益进步的数据分析、数据挖掘、数据备份和即席查问等需要的能力。最新的超大规模集群版本 GBase 8a MPP Cluster 单个集群反对部署 300 个以上的数据节点,整套集群可解决 15PB 以上数据。
GBase UP 是交融自有 MPP 数据库、事务型数据库和开源 Hadoop 生态系统的大数据平台产品,兼顾大规模分布式并行计算、稳固高效的事务处理,以及 Hadoop 的多种结构化与非结构化数据处理技术,可能适应 OLAP、OLTP 和 NOSQL 三种计算模型的业务场景。
商业模式层面,南大通用通过构筑产品上下游生态体系晋升市场竞争力,将本身数据库产品与国内云平台、操作系统、处理器、中间件等进行深度适配,改良产品并且翻新商业模式,推出适应行业的销售策略。截至目前,南大通用 GBase 系列数据库已与国内次要厂商的上千款软硬件产品实现兼容适配认证,并继续增强与集成商、云厂商、软件开发商以及开源社区的生态单干,深入产品联合与优化。
GBase 8a 曾经在金融、电信、能源等行业服务超过 2000 家企业,次要包含中国移动、中国联通、中国电信、银监会、公安部、安全部、工信部、国税总局、国家海洋局、中国石油等重要部门和大型国央企,部署节点超过 25000 个,治理超过 200PB 数据。
滴普科技 FastData
滴普科技成立于 2018 年,是国内当先数据智能产品及服务提供商,其外围产品云原生数据智能平台 FastData,蕴含外围实时湖仓引擎 DLink,旨在为企业建设湖仓一体和流批一体的剖析型数据库。公司研发人员占比 85% 以上,核心成员是来自华为、阿里、AWS、IBM、Oracle 等头部厂商多年的数据库产品技术专家。
技术架构层面,FastData 对底层各个技术栈进行了对立,从而实现湖仓一体与流批一体。FastData 在数据存储中采纳对立的数据存储格局,通过对立元数据层兼容 Hive Meta Store 接口,可实现 Flink、Trino、Hive 等罕用大数据分析、计算引擎的无缝接入和良好的互操作性,并且应用对立的 SQL 编辑器反对各支流的 SQL 类操作。同时,FastData 基于 Iceberg、Flink 和 Trino 引擎做了大量技术优化,用一套架构实现数据的采集、转换、存储和剖析的实时能力(分钟级)。
图 16:滴普科技 FastData DLink 架构
自研能力层面,滴普科技与开源社区分割严密,其在客户服务过程中联合客户的理论场景和需要,在元数据管理、数据存储格局和数据分析性能上做了大量工作,例如,滴普科技联结 Iceberg 社区在索引和维表等技术之上做了加强和优化,大幅晋升了数据查问性能;在对立元数据之后,滴普科技在 Trino 和 Flink 之上构建了对立的 ANSI SQL 层,提供了统一的应用体验,进一步晋升易用性。滴普科技将这些 Flink、Iceberg、Trino 等开源组件上的优化和新个性逐渐回馈开源社区,在开源社区具备较高的活跃度和影响力。
商业模式层面,滴普科技在数据库产品之外也为企业提供数据平台全栈产品以及相干服务。FastData 能为企业全栈数据经营治理能力,包含提供欠缺的数据治理体系和数据资源盘点工具;通过开发、公布、运维的全链条管道治理,实现诸如荡涤、统计、归档等各类 ELT 工作的高效开发和智能运维;提供数据资产管理工具对数据资产进行可视化治理、加工及服务,通过指标 / 标签 / 模型等元素实现对企业业务场景的数据化,并提供数据资产的编制和经营能力等。与此同时,滴普科技也为客户提供施行和咨询服务,为企业提供高质量和具备性价比的原厂服务,并能满足客户的定制化开发需要。
滴普科技在精益制作、商业流通、生物医药、金融科技、能源双碳等畛域服务过 100 多家头部客户,包含百丽国内、新华联、九洲电器、科伦药业、百果园、OPPO、VIVO 等,并与深圳市龙华区、佛山市顺德区、攀枝花东区等政府单位单干。滴普科技 FastData 可能很好地满足不同行业企业对剖析型数据库的需要。例如,在批发行业,FastData 的湖仓一体能力能够很好地反对摸索式剖析和自助剖析,帮忙企业实现数据驱动的治理和业务翻新;针对先进制作、半导体等行业面临海量数据的疾速去重问题,FastData 能够满足高并发、低提早的 PB 级数据处理需要。
华为云 MRS
华为云 MRS 是华为云于 2020 年推出的原生数据湖服务,是华为云大数据云服务产品 FusionInsight 的存储计算引擎。华为云 FusionInsight 专一于为政企客户构建企业级数据湖提供残缺的数据存储、计算、经营治理产品和解决方案服务。
技术架构方面,MRS 云原生数据湖是湖仓一体、云原生的数据湖解决方案,次要是基于云原生的存算拆散架构部署大数据环境,并对离线、实时、逻辑三种数据湖构建了对立的底层架构。在数据处理层面,引入 Hudi 简化数据入湖链路、采纳增量解决框架,实现数据增量更新、T+ 0 实时入湖;增强了自研的 HetuEngine 数据虚拟化引擎进行跨源跨域对立 SQL 拜访,实现不同专题数据之间进行联结剖析;以及将 Clickhouse 用于自助式 OLAP 剖析。
MRS 在有余在于其全套计划是通过集成华为外部产品(如 GaussDB 数据库)和第三方厂商产品(如永洪 BI 工具)来笼罩数据基础设施和大数据处理流程各个阶段的能力,不同产品组件的连贯和对立治理方面的性能不够欠缺。
图 17:华为云 MRS 架构
自研能力方面,FusionInsight 放弃凋谢路线,先后在开源社区奉献 CarbonData 和 openLooKeng 等大数据组件,在 Hadoop 社区奉献达到 Top2、Spark 社区奉献达到 Top4。
客户服务层面,MRS 的客户根底笼罩寰球 60+ 国家和地区、3000+ 政企客户,目前聚焦在政府、金融、运营商、大企业等行业,在 IDC 公布的中国大数据平台市场份额评估中间断三年排名第一。
结语:国内剖析型数据库厂商的时机
随着国内企业数字化转型的减速推动,剖析型数据库市场无望迎来重大时机。在近期,金融、先进制作、能源、批发等行业当先企业因为其数据量大、剖析场景更多样、实时性要求低等因素会率先对剖析型数据库性能进行更新降级。在远期,大部分企业都将会是高度数字化的,它们的次要业务都由数据驱动,因而须要采纳新一代的数据存储与计算引擎,不便满足更多样化剖析需要,并且具备高性能、低成本等特色。
正是因为上述因素的推动,剖析型数据库经验了四代的继续演进,并在技术架构、性能和性能方面一直进化。咱们认为,传统的剖析型数据库包含数据仓库、数据湖在当下仍然能满足一些企业的局部需要,并且它们也仍然会在市场中存在较长的工夫,但作为下一代剖析型数据库智能湖仓因为其具备的诸多劣势,必然会逐步成为大部分企业的外围数据底座。
在这一趋势下,国内数据库市场也无望借助智能湖仓的衰亡实现弯道超车,诞生出数据库畛域的头部公司,扭转在交易型数据库为主的时代,数据库市场被国外巨头把持的场面。而为了实现这个指标,就须要国内的数据库厂商踊跃拥抱剖析型数据库的发展趋势,并继续在技术研发上做大量投入,抓住行业倒退时机。