为了帮忙大家及时理解中国数据库行业倒退现状、梳理以后数据库市场环境和产品生态等状况,从 2022 年 4 月起,墨天轮社区行业剖析钻研团队出品将继续每月为大家推出最新《中国数据库行业剖析报告 》, 继续流传数据技术常识、致力促成技术创新与行业生态倒退,目前已更至第十六期,并公布了共计 122 页的 2022 年度剖析报告。
墨天轮 8 月《中国数据库行业剖析报告》已正式公布(点击即可跳转,欢送大家下载查阅),本期报盘点了墨天轮“中国数据库风行度排行”、新品公布、投融资等业内资讯,以此展示以后数据库市场倒退前沿动静。
本期报告重点 聚焦数据仓库,具体介绍其架构演进、技术原理,并盘点总结五大技术个性与六大发展趋势 ,首发【 寰球数据仓库产业图谱】,最初精选国内外典型的数据仓库产品案例介绍其原理个性,以期率领大家更加全面、深刻地把握数仓技术相干知识点与利用实际。
一、数据库排行榜及前沿动静
本章节目录
- 8 月中国数据库风行度排名剖析
2023 年 8 月的墨天轮中国数据库风行度排行榜共 286 个数据库参加排名,本月排行榜前十中,头部变动加剧。其中,OceanBase 间断九个月夺魁,TiDB 排名较上月回升一位至第二名,阿里云 PolarDB 间断两个月排名继续攀升本月已至第四名。
本月排行榜中一批有后劲的产品排名较上月有所回升,在第 10-50 名这一赛段不少数据库势不可挡冲进赛场。诸如百度自研并开源的 OLAP 数据库 Apache Doris 排名较上月回升一位至第 16 名;阿里云 Hologres 是 8 月新增参加排名的数据库,其排名直逼前二十来到第 22 名;星环科技打造的分布式关系型数据库 KunDB 本月排名回升 3 位至第 28 名;北京大学王选所数据管理实验室研发的面向 RDF 常识图谱的开源原生图数据库系统 gStore 本月排名回升至第 31 名;贝格迈思(Bigmath)自主设计研发采纳 C ++ 开发的新型智能数据库 AiSQL 产品 BigInsights,本月排名较上月迅速攀升 63 名,现位列第 33 名等。
- 数据库行业倒退动静
报告整顿了近期业内较受关注的 投融资、新品公布 等资讯。其中,2023 年 8 月,财政部会同工业和信息化部钻研起草了对于数据库、操作系统、通用服务器、杀毒软件、中间件、便携式计算机、台式计算机、一体式计算机、工作站等政府洽购需要规范,数据库政府洽购需要规范别离包含分布式数据库和集中式数据库两类。此外,星环科技自主研发的企业级交互式数据检索统计分析平台 Transwarp Scope 2.5版本公布,报告对其个性性能进行了解读;数据库初创公司 Neon 取得 4600 万美元融资;Oracle 发表全面推出 MySQL HeatWave Lakehouse,使客户可能像查询数据库内的数据一样疾速地查问对象存储中的数据。此处因篇幅所限仅截取局部图片,具体内容可查阅报告。
二、数据仓库概述及技术演进
本章节目录
- 数据仓库根本概述
在没有数据仓库的时代,数据分析人员须要收集、荡涤、整合来自多个数据源的数据,并为每个决策反对环境做局部数据复制,过程耗时长并且准确率低。且因为零碎迭代更新快,数据源通常是曾经下线的旧业务零碎,这为数据分析工作削减了难度。在此倒退背景下,数据仓库(Data Warehouse) 应运而生。
报告第二章具体介绍了 数据仓库的起源、分层架构、基本特征以及架构的演变、倒退历程。数据仓库是来自一个或多个不同起源的集成数据的地方存储库,将以后和历史数据存储在一个地位,用于为整个企业的员工创立剖析报告,具备面向主题、集成性、非易失性、时变性等个性。
而从 1990 年 Inmon 提出数据仓库概念至今,数仓的架构也经验了屡次演进,已由 最后的传统数仓架构——离线数仓库——离线大数据架构、Lambda 架构、Kappa 架构以及 Flink 的火寒带出的流批一体架构,一直不便用户能以最天然、最小的老本实现实时计算。
此外,报告还总结了数仓从萌芽摸索到全企业集成时代、企业数据集成时代、凌乱时代–“数据仓库之父”间的论战、实践模型确认时代以及数据仓库产品百家争鸣时代的倒退历程坐标轴,望帮忙读者纵向把握其倒退脉络,具体内容可查阅报告。
- 数据仓库技术解析
报告通过架构图展现了 数据仓库的外围组件 :地方数据库、ETL(提取、转换、加载)工具、元数据和拜访工具,并具体解析了 数据仓库的五大关键技术:查问优化器、MPP 架构、向量化、列式存储和数据压缩。
查问优化器的次要指标是抉择最优的执行打算,以最小化查问的执行老本,从而进步查问性能;而 MPP 架构能够减速对来自多个源的数据进行预处理操作,以便将数据整顿成适宜剖析的模式;向量化能够进步数据分析的效率,故被广泛应用于数据加载、转换、数据分析、简单查问等操作中;列式存储相比行式存储压缩率更高、读写效率更快,且能解决品质更高的数据;在数据仓库中,通常采纳行和列相结合的形式进行压缩,以进步存储效率。此处仅简略列举并截图展现了局部个性,欲了解具体内容查阅报告。
数字化转型浪潮卷起各种概念席卷而来,为帮忙大家梳理辨别,本章最初也介绍了数据湖、湖仓一体、智能湖仓等一些与经常易与数据仓库混同的相干术语的概念,感兴趣的敌人能够下载报告查阅。
三、数据仓库现状及将来趋势
本章节目录
报告第三章则从倒退层面对 数据仓库的现状、发展趋势 进行了剖析。目前中国数据仓库市场依然存在厂商倒退历史较短、市场规模较少、上云过程较美国绝对滞后等问题。但中国企业的数字化场景更加丰盛,数字化的需要也更加迫切。整体来看,中国数据仓库市场的发展潜力非常微小,在将来较长时间内将经验快速增长。IDC 预测,到 2027 年,中国数据仓库软件市场规模将达到 27.3 亿美元,2022-2027 的 5 年市场年复合增长率(CAGR)为 25.7%。
面对新技术的层出不穷,数据仓库将来会朝着 实时剖析、云原生 Serverless、湖仓一体、HTAP、数智交融以及流式数仓等方向 倒退,报告对这六类发展趋势均进行了具体解读,此处因篇幅所限并未作详尽截图展现,大家可下载报告查阅。
最初,报告整顿公布了【寰球数据仓库产业图谱】,以开源与商业、中国与国外两个维度对寰球数仓产品进行辨别,望帮忙大家深刻把握数仓产业倒退,下载报告可查看高清版。
四、数据库产品典型案例剖析
报告最初一章选取了国内外较为典型的数据仓库产品作为案例,介绍其外围架构、性能个性与利用实际等。
其中国外产品蕴含弹性数据仓库 Snowflake,具备残缺的 SQL 反对和半结构化和 schema-less 数据模式反对,是一种多租户、事务性、平安、高度可扩大的弹性零碎;数据仓库市场的奠基者 Teradata,次要实用于构建大规模数据仓库应用程序,其已于 2023 年正式发表将逐渐完结在中国的间接经营;谷歌的齐全托管的企业数据仓库 BigQuery 可帮忙用户通过机器学习、天文空间剖析和商业智能等内置性能来治理和剖析数据,利用云数据仓库助力数据驱动型翻新。
国内产品蕴含面向实时剖析的现代化数据仓库 Apache Doris,是一款基于 MPP 架构的高性能、实时的剖析型数据库,不仅能够反对高并发的点查问场景,也能反对高吞吐的简单剖析场景;分布式逻辑数据仓库 GBase 8a,其次要市场是商业剖析和商业智能市场,可利用于政府、党委、平安敏感部门、国防、统计等领有海量业务数据的行业;华为云企业级云分布式数据仓库服务 GaussDB(DWS) 是一种基于云基础架构和平台的在线数据处理数据库,提供即开即用、可扩大且齐全托管的服务;最初介绍了星环研发的助力企业构建一站式实时数仓 ArgoDB 以及阿里云研发的一站式实时数据仓库引擎 Hologres。此处仅展现本章节中局部内容,大家能够下载报告获取更多内容。
本文仅对 8 月《中国数据库行业剖析报告》的局部内容进行了摘录、整顿,更多残缺、具体内容大家能够下载报告全文理解,也欢送各位数据行业同道交换、探讨、建言献策,咱们一起见证、独特助力中国数据库产业的发展壮大!
报告全文下载地址:https://www.modb.pro/doc/116039
往期报告下载
- 2022 年 4 月 -2023 年 8 月中国数据库行业剖析报告合辑
- 2022 年中国数据库行业年度剖析报告
更多精彩内容尽在墨天轮数据社区,围绕数据人的学习成长提供一站式的全面服务,继续促成数据畛域的常识流传和技术创新。增加社区墨天轮小助手(VX:modb666)可获取更多技术干货。