乐趣区

关于hadoop:MaxCompute湖仓一体介绍

简介:本篇内容分享了 MaxCompute 湖仓一体介绍。分享人:孟硕 阿里云 MaxCompute 产品专家

视频链接:https://developer.aliyun.com/…

注释:

本篇内容将通过两个局部来介绍 MaxCompute 湖仓一体。

一、什么是 MaxCompute 湖仓一体

二、湖仓一体胜利案例介绍

一、什么是 MaxCompute 湖仓一体

湖仓一体的整体架构,次要面向数据分析师,数据科学家以及大数据工程师来应用。次要利用的业务有 Machine,非结构化数据分析,Ad-hoc/BI,Reporting 和 Learning 等等。在整体架构中,DataWorks 作为数据对立开发治理的平台,次要负责数据安全,开发 IDE,任务调度和数据资产治理等综合工作,确保平台稳固运行。

如上图所示,在整体架构中,咱们首先将数据湖集群和 MaxCompute 数仓集群的网络买通,而后将存储层的数据买通,确保智能 Cache,冷热分层,存储优化和性能减速。在计算层,我么实现了 DB 级元数据的透视,防止数据孤岛。

DataWorks 对立了各种数据资产,比方 E -MapReduce,CDH HBase,CDH Hive 和 AnalyticDB for 等。岂但能在数据地图中看到全域的数据资产,而且还反对从数据源里抽取元素与信息。

在阿里外部,咱们实现了肯定水平的数据民主化。现如今,阿里团体外部所有的表,员工都可能看到表名称和的元数据信息,以及信息的安全等级。DataWorks 作为中台:能够从列表中反对的数据源采集数据,纳入平台管控。

目前,对立的表级、字段级别数据血统就现有的产品能力,只能局限于繁多引擎外部的跨血统。预计明年可能实现跨引擎的数据血统。

在繁多引擎外部,能够挂载多个 hadoop 集群,实现对立引擎的对接与治理。

DataWorks 作为对立的数据开发平台,可能将 MC 的工作和 hadoop 工作混编在一个流程中。岂但能够对立长期查问入口,发送给不同的引擎。而且能够将不同的引擎作业混合调度。比方数据集成作业,MaxCompute 作业以及 Hive 作业等。

二、湖仓一体胜利案例介绍

某互联网游戏公司的广告算法团队是湖仓一体次要客户,次要利用是机器学习 DW+MC+PAI+EAS 在线模型服务。该团队的自服务水平高、须要一站式的机器学习平台。而 Hadoop 集群有多团队共用,应用集群管控较严,无奈短时间撑持大 workload 的翻新业务。

基于以上需要,咱们通过湖仓一体,将新业务平台与原有数据平台买通,即 PAI on MaxCompute+DataWorks。为客户提供了一站式机器学习,模型开发、模型公布,大规模计算等能力,晋升了团队的工作效率。

数禾公司通过引入 MaxCompute 作为计算引擎的数据中台,岂但让数据湖计算自在流动,而且解决了先前异构计算引擎存储管理,元数据管理和权限治理不同对立的问题。岂但晋升了整体的工作效率,而且升高了运维老本,起到了降本增效的作用。

上图是数禾公司构建的基于 MaxCompute+DLF+EMR 的湖仓一体架构。底层是 OSS 数据湖存储,咱们通过 DLF 构建了元数据管理,数据血统治理,数据权限治理。通过 JindoFS+MC 的形式,实现了数据的冷热分层和本地缓存。咱们联合 MaxCompute 和 EMR,胜利实现了智能数据构建与数据中台治理。

在将来,湖仓对立开发治理平台,可能实现湖仓数据的一站式治理与治理。OSS 的对象存储岂但反对结构化数据,也能反对非机构化数据。整个平台岂但能同步联邦数据源,而且能对立元数据服务和元数据仓库。

原文链接
本文为阿里云原创内容,未经容许不得转载。

退出移动版