共计 3187 个字符,预计需要花费 8 分钟才能阅读完成。
# MatrixOne 从入门到实际——初识 MatrixOne
一、简介
1、MatrixOrigin
矩阵起源 是一家数据智能畛域的翻新企业,其愿景是成为数字世界的核心技术提供者。
物理世界的数字化和智能化无处不在。咱们致力于建设凋谢的技术开源社区和生态系统、打造世界级的团队、并通过业界当先的技术创新和工程能力,实现数据在数字世界中的任意存储和任意计算,帮忙用户开释数据的后劲和创新力(Store Anywhere, Compute Anywhere, Innovate Anywhere)。
2、MatrixOne
MatrixOne 是一款致力于 One Size Fits Most 的超交融异构数据库。
MatrixOne 通过超交融数据引擎 HSTAP 实现繁多数据库系统反对 事务性(TP,Transactional Processing)、剖析型(AP,Analytical Processing)、流式(Streaming)等多种数据负载,通过异构云原生架构实现繁多数据库系统反对 私有云原生、公有云、边缘云部署和应用。从而简化开发运维,消简数据碎片,晋升数据端到端存算性能和开发麻利度。
二、技术架构
MatrixOne 是第一个开源的分布式 HSTAP 数据库,反对 OLTP、OLAP 和 Streaming,应用单个主动调优存储引擎。
HSTAP 对 HTAP 数据库进行了从新定义,HSTAP 旨在满足繁多数据库内事务处理(TP)和剖析解决(AP)的所有需要。与传统的 HTAP 相比,HSTAP 强调其内置的用于连贯 TP 和 AP 表数据流解决能力。为用户提供了数据库能够像大数据平台一样的应用体验,也恰好得益于大数据的凋敝,很多用户曾经相熟了这种体验。MatrixOne 以起码的集成工作,让用户解脱大数据的限度,为企业提供所有 TP 和 AP 场景的一站式笼罩。
MatrixOne 作为一个从零开始打造的全新数据库,并在其余 DBMS 中引入了多种翻新和最佳实际。采纳解耦存储和计算架构,将数据存储在 S3 云存储服务上,实现低成本,计算节点无状态,可随便启动,实现极致弹性。在本地部署可用的状况下,MatrixOne 能够利用用户的 HDFS 或其余反对的分布式文件系统来保留数据。MatrixOne 还装备了兼容 S3 的内置代替计划,以确保其存储的弹性、高可靠性和高性能,而无需依赖任何内部组件。架构如下:
1、集群管理层
Cluster Managerment Layer 这一层负责集群治理,在云原生环境中与 Kubernetes 交互动静获取资源;在本地部署时,依据配置获取资源。集群状态继续监控,依据资源信息调配每个节点的工作。提供系统维护服务以确保所有零碎组件在偶然呈现节点和网络故障的状况下失常运行,并在必要时从新均衡节点上的负载。集群管理层的次要组件是:
- Prophet 调度:提供负载平衡和节点 Keep-alive。
- 资源管理:提供物理资源。
2、Serverless 层
Serverless Layer 层是一系列无状态节点的总称,整体上蕴含三类:
- 后台任务:最次要的性能是 Offload Worker,负责卸载老本高的压缩工作,以及将数据刷新到 S3 存储。
- SQL 计算节点:负责执行 SQL 申请,这里分为写节点和读节点,写节点还提供读取最新数据的能力。
- 流工作解决节点:负责执行流解决申请。
3、日志层
Log Layer 作为 MatrixOne 的繁多数据源 (即 Single source of truth),数据一旦写入日志层,则将永恒地存储在 MatrixOne 中。它建设在咱们世界级的复制状态机模型的专业知识之上,以保障咱们的数据具备最先进的高吞吐量、高可用性和强一致性。它自身遵循齐全模块化和合成的设计,也帮忙解耦存储和计算层的外围组件,与传统的 NewSQL 架构相比,咱们的架构具备更高的弹性。
4、存储层
Storage Layer存储层将来自日志层的传入数据转换为无效的模式,以供未来对数据进行解决和存储。包含为快速访问已写入 S3 的数据进行的缓存保护等。在 MatrixOne 中,TAE(即 Transactional Analytic Engine)是存储层的次要公开接口,它能够同时反对行和列存储以及事务处理能力。此外,存储层还包含其余外部应用的存储性能,例如流媒体的两头存储。
5、存储供给层
Provision Layer作为与基础架构解耦的 DBMS,MatrixOne 能够将数据存储在 S3/HDFS、本地磁盘、本地服务器、混合云或其余各类型云,以及智能设施的共享存储中。存储供给层通过为下层提供一个对立的接口来拜访这些多样化的存储资源,并且不向下层裸露存储的复杂性。
三、外围个性
1、超交融引擎
超交融引擎
交融数据引擎,单数据库即可反对 TP、AP、时序、机器学习等混合工作负载。
内置流引擎
利用独有的增量物化视图能力,无需跨数据库即可实现实时数据流解决。
2、异构云原生
异构对立
反对跨机房协同 / 多地协同 / 云边协同,实现无感知扩缩容,提供高效对立的数据管理。
多地多活
MatrixOne 采纳最优的一致性协定,实现业内最短网络提早的多地多活。
3、极致性能
高性能
特有的向量化执行引擎,反对极速的简单查问。单表、星型和雪花查问都具备极速剖析性能。
强统一
提供跨存储引擎的高性能全局分布式事务能力,在保障极速剖析性能的同时反对更新、删除和实时点查问。
高可用
存算拆散,反对存储节点与计算节点独立扩缩容,高效应对负载变动。
四、利用场景
- 数据一致性及高牢靠、零碎高可用、扩展性和容灾要求较高的金融行业
- 有高并发 OLTP 事务要求和极速 OLAP 剖析要求的混合场景
- HSTAP 一体化场景
OLTP 和数仓构建场景
. . . . . .
. . . . . .
五、用户价值
简化数据开发和运维
随着业务倒退,企业应用的数据引擎和中间件越来越多,而每一个数据引擎均匀依赖 5 + 个根底组件,存储 3 + 个数据正本,每一个数据引擎都要各自装置、监控、补丁和降级。这些都导致数据引擎的选型、开发及运维老本昂扬且不可控。在 MatrixOne 的一体化架构下,用户应用单个数据库即可服务多种数据利用,引入的数据组件和技术栈缩小 80%,大大简化了数据库治理和保护的老本。
消减数据碎片和不统一
在既有简单的零碎架构内,存在多条数据管道多份数据存储冗余。数据依赖简单,导致数据更新保护简单,上下游数据不统一问题频发,人工校对难度增大。MatrixOne 的高内聚架构和独有的增量物化视图能力,使得上游能够反对上游数据的实时更新,解脱冗余的 ETL 流程,实现端到端实时数据处理。
无需绑定基础设施
因为基础设施的碎片化,企业的私有化数据集群和私有云数据集群之间数据架构和建设计划割裂,数据迁徙老本高。而数据上云一旦选型确定数据库厂商,后续的集群扩容、其余组件洽购等都将被既有厂商绑定。MatrixOne 提供对立的云边基础架构和高效对立的数据管理,企业数据架构不再被基础设施绑定,实现单数据集群跨云无感知扩缩容,晋升性价比。
极速的剖析性能
目前,因为迟缓的简单查问性能以及冗余的两头表,数据仓库在业务敏捷性上的体现不尽人意,大量宽表的创立也重大影响迭代速度。MatrixOne 通过特有的因子化计算和向量化执行引擎,反对极速的简单查问,单表、星型和雪花查问都具备极速剖析性能。
像 TP 一样牢靠的 AP 体验
传统数据仓库数据更新代价十分高,很难做到数据更新即可见。在营销风控,无人驾驶,智能工厂等实时计算要求高的场景或者上游数据变动快的场景中,以后的大数据分析系统无奈反对增量更新,往往须要做全量的更新,耗时耗力。MatrixOne 通过提供跨存储引擎的高性能全局分布式事务能力,反对条级别的实时增量更新,在保障极速剖析性能的同时反对更新、删除和实时点查问。
不停服主动扩缩容
传统数仓无奈兼顾性能和灵便度,性价比无奈做到最优。MatrixOne 基于存算拆散的技术架构,反对存储节点与计算节点独立扩缩容,高效应对负载变动。