关于后端:阿里云云原生一体化数仓-湖仓一体新能力解读

简介：本文次要介绍如何通过湖仓一体，买通 MaxCompute 与 Hadoop、DLF/OSS 数据湖，以及 Hologres、MySQL 等数据平台，并通过 DataWorks 做对立数据开发和治理。分享人：阿里云智能产品专家孟硕没来得及看直播的同学，能够观看直播回放。直播回放：https://developer.aliyun.com/… 一、基于 MaxCompute 的湖仓一体架构更新基于 MaxCompute 云数据仓库的湖仓一体架构近期进行架构降级。理解 MaxCompute 的同学可能比较清楚，MaxCompute 有两层构造，须要先创立 Project，在 Project 外面创立表、资源等。传统数据库，在数据库跟表之间有一层 Schema。以后从数据库迁徙数据至 MaxCompute 时，有客户对 Schema 这层有诉求。本次架构降级，MaxCompute 降级为三层模型，Table –> Schema –> Project（此性能将在 9 月上线）。对于湖仓一体架构，MaxCompute 是作为仓的存在，应用内部 Schema 对接内部数据源，内部数据源这里称之为 Foreign Server，其中包含了 Foreign Data Wrapper 涵盖每一个数据源的连贯信息。最早反对的 hadoop 的 hive 数据源，映射 Hive metastore 读写 hdfs 数据。同时能够对接阿里云数据湖构建 Data Lake Formation 产品，DLF 次要的作用是通过扫描 OSS 文件，做一个对立的元数据管理和权限治理。咱们能够通过 Foreign Server 也就是内部数据源对接 DLF 的元数据，解决 OSS 文件构造。这样就能够对接云上 OSS 数据湖以及开源 Hadoop 生态 hdfs 数据湖。除此之外，也反对阿里云生态内的数仓和数据库，比方 Hologres、关系型数据库和剖析型数据库等。对于内部数据库，是通过 JDBC 协定连贯，对于外部生态产品比方 Hologres，能够做到存储上的直读，从性能是比 JDBC 更快一些。这是利用内部 Schema 对接内部数据源。对于 OSS 上的一些非结构化数据，能够通过 Mount OSS 门路降级到 MaxCompute 做对象治理。能够通过 MaxCompute 权限零碎，对 Mount OSS 的对象做受权治理。能够应用 MaxCompute spark ML 和 MaxCompute 的 AI 等引擎对 OSS 上文件构造的数据做解决。如果传统的 hadoop 数据平台，心愿用到云上扩大算力，又不想全副迁徙上云，能够在 Hadoop 里通过 SDK 调用云上计算能力，同时把数据从云上导入云下，作为云下 Hadoop 集群算力的一个扩大。总结来说，外部存储对接阿里云的 Hologres 和 MaxCompute，都是应用盘古文件系统，应用传统形式做对接，同时在 Porject 和 Table 之间加了一层 Schema，对接整个数据库生态；对于数据湖的存储，反对 HDFS 通过 Hive 的 MetaStore 映射到 MaxCompute 的内部 Schema，反对 OSS 通过 DLF（Data Lake Formation）映射到 Foreign Server 和 Foreign Data Wrapper 中，从而实现对外部 Internal Schema 的映射，也反对阿里云 Hologres 以及内部的数据库生态。同时，整个 MaxCompute 的算力也能够被云下 Hadoop 集群援用，作为云下算力的裁减。上层的简单构造，都能够通过对立的数据开发与治理平台 DataWorks 来治理。总结三点：对外部数据库生态联邦查问反对 MaxCompute 内部 Schema 整库映射 MySQL、Hologres DB/Schema，同时与 Hologres 可能存储直读，晋升读写效率，用户不必做相似于从关系型数据库到 MaxCompute 的数据迁徙工作，间接通过内部数据源的映射，在 MaxCompute 里能够实现本地数仓和内部数据源的联邦查问。对非结构化数据的治理和解决 MaxCompute 通过 Mount OSS 门路，能够将存储在 OSS 上的结构化文件、非结构化图片、音视频等等，纳入到数仓权限体系做治理。OSS 还是对文件做粗粒度的权限治理，把 OSS 晋升为 MaxCompute 的一个对象，利用 MaxCompute 里的 ACL 对每个用户是否能够拜访 OSS 上的某些文件，做细粒度的权限治理。通过 MaxCompute 里的 Spark 引擎或者机器学习 PAI 对结构化、半结构化以及非结构化文件格式的数据做解决。对 Hadoop 资源池的云上扩大当 IDC 集群或者云上 Hadoop 集群须要扩容以及业务线疾速的更新迭代，想要疾速的试错。在不对自身集群资源做调整的状况下，间接将须要的算力放到 Serverless 云数仓服务，就能够实现对业务的疾速迭代和试错，达到对现有资源的无缝扩大。

ForresterWaveCDW 技术评比中，次要从四个方面进行评测。1、原生数据湖查问能力 2、对数据湖平安的集成能力 3、对数据湖引擎的集成能力 4、客户案例基于这四个方面的评测，MaxCompute+DataWorks 组合在数据湖集成计划中获得最高分。

二、典型应用场景介绍 IDC 线下 Hadoop 无迁徙上云客户不心愿所有数据迁徙上云，心愿保有一部分数据自主可控，但有一部分算力须要在云上解决。之前做法是每天将数据做 ETL 导入导出，再利用云上的大规模分布式引擎 MaxCompute 做解决。每天须要做大量的 ETL 操作，耗费大量的工夫和人力。通过线上线下买通，底层存储元数据，通过高速网络互联，实现云上间接生产云下数据，并且把数据返回到云下。

Serverless 数据湖 ETL / 交互式剖析云上的数据存储，曾经变成了事实上的数据湖。湖上有离线数据、实时入湖数据、结构化、半结构化以及非结构化数据。对 OSS 数据的对立治理，内部元数据管理 DLF，通过扫描 OSS 上的文件，能 Schema 化的变成库表模式，不能 Schema 化的变成文件 location 的治理。通过 DLF 做元数据管理，上边对接数仓和引擎，也能够对接阿里云 EMR 的 Spark、Presto 等。从而达到数据的共享、对立的元数据、以及多引擎的灵便架构。

IDC Hadoop 的云上弹性资源池云上引擎 MaxCompute 能够作为本地数据平台的弹性资源池，整体数据的开发和治理都在本地 Hadoop，按照 Hadoop 的调度将 MaxCompute 作为一个资源池。从线下 Hadoop 集群发动作业，读写云上 MaxCompute 的资源，利用 MaxCompute 的算力，来做云上云下的数据传输。

多联邦查问通过 MaxCompute 做多联邦查问，通过在对立的开发界面，可能 Join MaxCompute 云数仓的库和表，以及其余内部映射到 MaxCompute 的库和表。

三、Demo 以 MaxCompute 映射 Hologres 内部数据源为例，展现 MaxCompute 如何通过内部 Schema 去映射内部数据库数据源。Demo 请点击查看视频。更多阿里云大数据产品 >>

原文链接：http://click.aliyun.com/m/100… 本文为阿里云原创内容，未经容许不得转载。