关于数据库:深入解读获得-2021-Forrester-全球云数仓卓越表现者的阿里云数据仓库

47次阅读

共计 3038 个字符,预计需要花费 8 分钟才能阅读完成。

简介: 阿里云在最新公布的 The Forrester Wave™: Cloud Data Warehouse, Q1 2021 寰球云数据仓库技术评比中进入卓越表现者象限,成为国内惟一入选厂商。本文针对 Forrester 的报告,联合阿里云的以 MaxCompute 为外围的云数仓产品,做一个具体的技术解读。
概述:
2021 年 3 月 25 日,寰球权威剖析机构 Forrester 公布《The Forrester Wave™: Cloud Data Warehouse, Q1 2021》钻研报告,阿里云凭借产品现有能力、产品策略、市场体现三项劣势,进入 Forrester Wave 2021 Q1 云数据仓库卓越表现者象限,成为入选此次评测的惟一中国厂商。

本次 Forrester 针对入选的 13 家国内最重要的云数据仓库服务商(见下表),从产品、策略、和市场体现三个维度,26 个指标 60 多项评估细则进行了钻研、剖析和评分。最终报告显示了每个提供商在每项的评比分数,帮忙企业架构业余人员依据他们的需要抉择正确的厂商。作为读者,也能从 Forrester 的这些评测项中了解、学习古代云数据仓库的定义、应具备能力以及将来的发展趋势。

上面咱们就针对 Forrester 的报告内容,联合阿里云 MaxCompute、DataWorks、AnalyticDB 几款云数仓产品,对古代云数仓做一下全面的技术解读。
技术解读:
古代云数仓的外延:Forrester 认为当初云数仓须要具备的几个个性:
• 极致弹性:在分钟级别内提供任意规模,可能主动优化查问
• 存算拆散:按需独立扩大计算和存储等资源(存算拆散)并能无感知主动降级。
• 为了满足对更集中、实时和自助式剖析日益增长的需要,云数仓供应商将持续专一于与数据湖和对象存储的原生集成。
• 通过自助服务,简化大型简单仓库的拜访和治理。
• 能提供并行处理、压缩、分区、索引、查问优化和动静资源供给方面的高级性能。
• 最常见的云数仓利用场景包含客户 360°剖析、基于 AI/ 机器学习 ML 的剖析、垂直畛域和实时剖析的场景。

以下从技术角度论述为什么阿里云数仓产品可能撑持下面的满分项:

1. 架构设计:

阿里云数据仓库 MaxCompute 从设计之初采纳了“Share Everything”的架构设计。按 Forrester 的说法,这是一个具备前瞻性(future-proof)的技术架构。它引领了云数仓架构的趋势,并提供了最佳的客户灵活性和开箱即用的解决方案。同时反对 SQL、机器学习 \ 深度学习、图计算等多种计算模式。
除了反对第一方的计算模式外,一个要害区别是 MaxCompute 有一个凋谢的设计,第三方引擎(如 Spark,Presto)也能够接入。在 2019 年 -2021 年,MaxCompute 倒退出了湖仓一体的架构设计,通过湖仓一体 MaxCompute 无缝集成云对象存储和 Hadoop 生态。这些帮忙咱们在 Forrester 技术评比中,在性能、扩展性、数据湖集成 3 项获得最高分(5 分),达到世界领先水平。
• 在性能项的评比中,MaxCompute 撑持了相比其它厂商更高每天作业总数
• 在扩展性的评比中,MaxCompute 提供最好的可伸缩性个性,包含:
a) 能够对于任意规模的计算或存储进行靠近有限的扩大,且不须要中断或停机反对
b) 能够独立、主动地扩大存储和计算。可反对 EB 级别以上的数据规模。
• 在数据湖集成项评比中:通过湖仓一体架构,无缝集成对象存储(OSS)湖,以及 Hadoop 生态,并通过 DataWorks 提供对立的数据开发、治理、治理平台。

2. 实时性:

• 阿里云数仓通过 DataWorks 数据集成性能,反对三种实时数据集成形式:数据集成流式数据导入、对接 datachub、Kafka 等公布 - 订阅子系统、CDC 形式导入。
• 能够流式地将数据输出到 MaxCompute 或 AnalyticsDB 中进行查问。(或通过 Flink 解决的实时 BI 场景)
• 反对数据服务场景和在线机器学习 (Alink,流式算法包以及深度学习框架 TensorFlow)

3. 高性能存储

• AliORC:MaxCompute 采纳与开源 ORC 兼容的列式存储格局 AliORC,比开源 ORC 读性能快 50%,同时反对 MaxCompute、机器学习引擎 PAI 等。MaxCompute 团队也是开源 ORC 社区最大的贡献者
• 主动存储分层,通过算法撑持的 4 级主动存储分级,提供更好的读写性能

4. 企业级的安全性:

MaxCompute 和 DataWorks 数据安全卫士能够发现和辨认敏感数据,并反对静态数据加密,反对 tokenization,动静和静态数据 Masking;通过数据品质和 Logview 检查数据品质和破绽评估,利用阿里云 ActionTrail 提供审计性能。同时数仓外部反对自主访问控制,强制访问控制 (labelSecurity),提供我的项目、表、行和列级的访问控制。在合规方面反对寰球支流的平安规范:ISO 27001, SOC1/2/3, FIPS-140, GxP (21 CFR Part 11),PCI 等。具体名单在在白皮书中均有形容。

同时,MaxCompute 除了传统的通过认证和受权的形式共享数据外,咱们还察看到了隐衷爱护的数据共享,甚至是在不受信赖的群体之间共享的趋势。通常咱们将这种共享需要称为“数据可用不可见”。当初阿里云也正在投资这个畛域以及包含基于差分隐衷的计算和联结计算在内的技术。

在本次 Forrester 技术评比中:云数仓 MaxCompute 和 DataWorks 的平安能力以及技术前瞻性,获得了最高分(5 分),达到世界领先。

5. 对立的数据开发、治理治理平台 DataWorks:

MaxCompute 有一个对立的数据部署、治理和治理平台 DataWorks。它反对不同工作负载的数据集成、元数据开发。咱们的数据管理能够进一步编排不同的工作负载。例如,客户能够从数据集成、数据清理、特色工程、模型训练、模型服务等方面构建残缺的大数据和 AI 通道。

对于云数仓的发展趋势:

随着 IoT 和 5G 技术的一直成熟,设施产生的数据将远超过与人相干的行为数据,同时越来越多的企业也将沉睡的数据湖中的数据唤醒,越来越多的角色也退出到数据分析、机器学习的畛域中。这为云数据平台带来新的挑战,云数仓须要:

  1. 进步平台自服务能力,高度自动化的运维和治理,升高数据仓库、机器学习以及深度学习的应用门槛
  2. 反对多方数据共享的同时爱护数据隐衷,数据可用不可见
  3. 与数据湖的深度集成,对立的开发平台、数据资产治理

总结:

最初援用 Forrester 报告对阿里云数据仓库的总结:阿里云数仓服务提供宽泛的基础设施、平台和剖析服务,包含 MaxCompute、AnalyticDB 和 DataWorks 服务,以反对各种大规模数据仓库客户案例。尽管阿里云数据仓库服务大部分部署在中国,但 MaxCompute、AnalyticDB 和 DataWorks 在寰球 16 个国家和地区提供服务,客户波及金融、互联网、生物医药、能源、交通和媒体行业。阿里云的 MaxCompute、AnalyticDB 和 DataWorks 提供实时和 EB 级的能力,以反对任何数据仓库的需要。

最初是来自客户对阿里云数仓产品的评估:

阿里云数仓供多种计算模型、机器学习能力、服务区域、技术支持、商业价值、工具和高端可扩展性。让客户在最罕用的场景包含 BI 减速、基于 AI/ML 的剖析、数据仓库现代化、数据迷信以及实时和危险剖析畛域获得最佳的利用体验。
原文链接

本文为阿里云原创内容,未经容许不得转载。

正文完
 0