关于hadoop:MaxCompute湖仓一体介绍

简介：本篇内容分享了MaxCompute湖仓一体介绍。分享人：孟硕阿里云 MaxCompute产品专家

视频链接：https://developer.aliyun.com/…

注释：

本篇内容将通过两个局部来介绍MaxCompute湖仓一体。

一、什么是 MaxCompute 湖仓一体

二、湖仓一体胜利案例介绍

一、什么是 MaxCompute 湖仓一体

湖仓一体的整体架构，次要面向数据分析师，数据科学家以及大数据工程师来应用。次要利用的业务有Machine，非结构化数据分析，Ad-hoc/BI，Reporting和Learning等等。在整体架构中，DataWorks作为数据对立开发治理的平台，次要负责数据安全，开发IDE，任务调度和数据资产治理等综合工作，确保平台稳固运行。

如上图所示，在整体架构中，咱们首先将数据湖集群和MaxCompute数仓集群的网络买通，而后将存储层的数据买通，确保智能Cache，冷热分层，存储优化和性能减速。在计算层，我么实现了DB级元数据的透视，防止数据孤岛。

DataWorks对立了各种数据资产，比方E-MapReduce，CDH HBase，CDH Hive和AnalyticDB for等。岂但能在数据地图中看到全域的数据资产，而且还反对从数据源里抽取元素与信息。

在阿里外部，咱们实现了肯定水平的数据民主化。现如今，阿里团体外部所有的表，员工都可能看到表名称和的元数据信息，以及信息的安全等级。DataWorks作为中台：能够从列表中反对的数据源采集数据，纳入平台管控。

目前，对立的表级、字段级别数据血统就现有的产品能力，只能局限于繁多引擎外部的跨血统。预计明年可能实现跨引擎的数据血统。

在繁多引擎外部，能够挂载多个hadoop集群，实现对立引擎的对接与治理。

DataWorks作为对立的数据开发平台，可能将MC的工作和hadoop工作混编在一个流程中。岂但能够对立长期查问入口，发送给不同的引擎。而且能够将不同的引擎作业混合调度。比方数据集成作业，MaxCompute作业以及Hive作业等。

二、湖仓一体胜利案例介绍

某互联网游戏公司的广告算法团队是湖仓一体次要客户，次要利用是机器学习DW+MC+PAI+EAS在线模型服务。该团队的自服务水平高、须要一站式的机器学习平台。而Hadoop集群有多团队共用，应用集群管控较严，无奈短时间撑持大workload的翻新业务。

基于以上需要，咱们通过湖仓一体，将新业务平台与原有数据平台买通，即PAI on MaxCompute+DataWorks。为客户提供了一站式机器学习，模型开发、模型公布，大规模计算等能力，晋升了团队的工作效率。

数禾公司通过引入MaxCompute作为计算引擎的数据中台，岂但让数据湖计算自在流动，而且解决了先前异构计算引擎存储管理，元数据管理和权限治理不同对立的问题。岂但晋升了整体的工作效率，而且升高了运维老本，起到了降本增效的作用。

上图是数禾公司构建的基于MaxCompute+DLF+EMR的湖仓一体架构。底层是OSS数据湖存储，咱们通过DLF构建了元数据管理，数据血统治理，数据权限治理。通过JindoFS+MC的形式，实现了数据的冷热分层和本地缓存。咱们联合MaxCompute和EMR，胜利实现了智能数据构建与数据中台治理。

在将来，湖仓对立开发治理平台，可能实现湖仓数据的一站式治理与治理。OSS的对象存储岂但反对结构化数据，也能反对非机构化数据。整个平台岂但能同步联邦数据源，而且能对立元数据服务和元数据仓库。

原文链接
本文为阿里云原创内容，未经容许不得转载。

关于hadoop:MaxCompute湖仓一体介绍

一、什么是 MaxCompute 湖仓一体

二、湖仓一体胜利案例介绍

评论

发表回复取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

关于hadoop:MaxCompute湖仓一体介绍

一、什么是 MaxCompute 湖仓一体

二、湖仓一体胜利案例介绍

评论

发表回复 取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

发表回复取消回复