关于数据湖:统一元数据数据湖Catalog让大数据存算分离不再是问题

摘要：为了解决现阶段大数据存算拆散痛点问题，华为云大数据推出重量级数据湖Catalog服务。

本文分享自华为云社区《对立元数据，华为云MRS 数据湖Catalog重磅推出!》，原文作者：ryanlunar。

1 背景

随着5G、IoT等技术的倒退，企业积攒了越来越多的数据，须要激发更多的数据价值变现。传统大数据平台从建设到落地的长周期，不利于业务的高速倒退；平台建成后，保护、降级、扩容均以集群为单位，治理离散，操作沉重。

泛滥用户采纳了华为云大数据存算拆散计划，存算拆散解决方案指的是业务数据拆散，共享的是数据，元数据不共享，每类引擎独自映射构建。也正因为元数据不共享，导致现阶段大数据存算拆散计划存在如下几点痛点：

短少对立治理视图：元数据扩散，难于对立治理；
短少对立的细粒度权限治理：短少对立的对数据库、表、列的权限管制，短少无效的逻辑及权限隔离；
计算资源无奈疾速扩缩容：计算集群须要思考元数据的备份和复原，减少资源老本和运维老本；

2 数据湖Catalog简介

为了解决现阶段大数据存算拆散痛点问题，华为云大数据推出重量级数据湖Catalog服务。

数据湖Catalog是面向多元计算引擎提供对立元数据服务。反对多元计算对立并共享元数据，实现引擎级元数据拆散，全湖一张视图，反对业务灵便拜访，助力存算拆散架构降级变迁。数据湖Catalog次要有如下五点要害个性：

存算拆散更业余、简化；
反对多引擎、多集群，灵便易用，性能更高；
多维度可靠性保驾护航；
细粒度权限管控，访问共享更平安；
反对元数据多版本以及DAG跟踪和剖析；

通过数据湖Catalog加持后，在原有业务数据拆散的根底上，实现引擎级元数据拆散，次要有如下三大劣势：

对立元数据管理，全湖对立数据资产视图，多引擎对立可视；
元数据多引擎共享，数据无需独自映射，软件多版本自由选择；
可靠性：计算与数据齐全解耦，集群故障，数据牢靠，元数据牢靠；

3 数据湖Catalog要害个性

上面次要介绍数据湖Catalog五大要害个性。

3.1 存算拆散更业余、简化

传统存算拆散解决方案个别指的是业务数据拆散，共享的是数据，元数据不共享，每类引擎独自映射构建。而数据湖Catalog通过对立多集群、多类型计算的元数据管理，实现全湖对立数据资产视图，多引擎对立可视，数据无需独自映射，多引擎多版本自由选择。

数据湖Catalog独立部署，MRS集群开释不会清理元数据，元数据无需备份和迁徙，节约运维治理老本，随用随开释；
MRS集群能够做不同的业务，所有集群都能够很不便的实现数据共享和数据拜访；
MRS集群能够真正聚焦业务，依据业务须要进行集群的创立和开释，真正的能够做到按需创立、用完即开释，节约资源和运维老本。

3.2 反对多引擎、多集群，灵便易用，性能更高

传统大数据大多以MetaStore进行元数据管理，以thrift api形式对外提供元数据管理能力，且仅针对Hive生态相干元数据。而数据湖Catalog提供兼容Hive MetaStore API和RESTfull API，反对结构化、非结构化数据源以结构化的模型进行元数据管理助力高层次的合作。

兼容Hive MetaStore API，反对Hive生态诸如Hive/Spark/Presto/Impala/Flink等引擎，能够通过简略的配置即可疾速实现数据湖Catalog对接集成；
反对华为云其余云服务以凋谢RESTfull API的形式进行对接集成；
基于MetaStore内核自底向上逐层优化，性能更高，某客户场景下性能较开源晋升3-5倍；

3.3 多维度可靠性保驾护航

随着业务快速增长，数据湖Catalog提供了多维度可靠性加强能力，疾速满足客户业务增长的诉求，为客户保驾护航。

反对跨AZ容灾部署、节点故障容错、个性级故障发现和自愈，为用户提供了高可用部署架构，极大晋升业务的可靠性；
反对动静流控、动态流控、服务降级、接口级熔断，保障业务平滑应答业务激增；
反对公共服务依赖故障放通，当周边服务异样时，最大水平保障业务连续性；
反对丰盛的集群监控和告警能力，实时发现零碎异样，保障业务稳固运行；

3.4 细粒度权限管控，访问共享更平安

数据湖Catalog基于华为云IAM实现细粒度权限管控，将元数据作为资源进行对立权限治理。各云服务必须相应的权限才能够拜访数据湖Catalog，例如表或分区。

反对基于角色的拜访策略，数据湖Catalog对所有元数据的操作均反对基于角色的IAM策略。通过讲策略附加到账户中的用户或组，可向其授予数据湖Catalog中创立、拜访或批改数据湖Catalog资源（例如表、分区）的权限。通过将策略附加到IAM角色，用户能够向其余华为云账户中的IAM角色授予跨账户拜访权限；
反对应用资源策略管制对数据湖Catalog资源的拜访，这些资源包含数据库、表、分区和用户定义的函数，以及与这些资源交互的APIs；
反对基于角色或资源的拜访策略跨账户授予拜访权限，实现多账号间元数据的共享和访问控制。

3.5 反对元数据多版本以及DAG跟踪和剖析

在经典机器学习场景和深度学习场景下，数据类型、数据版本、工程（模型、脚本等）随工夫变动，难以复用，难以监管。数据湖Catalog提供元数据多版本能力，让AI数据开发我的项目如同GIT治理代码一样治理波及到的数据和工程模型、脚本。与此同时，数据湖Catalog提供DAG跟踪和剖析能力，能够帮忙AI数据开发依照工夫线、流水线查看不同期间、不同阶段的模型指标以及上下游信息。数据湖Catalog能够帮忙极大晋升AI数据开发的效率。

4 典型利用场景

4.1 基于MRS构建企业级数据湖大数据处理剖析平台

用户基于华为云MapReduce服务构建本人的数据湖数据处理剖析平台，随着企业疾速倒退，集群规模和数据也急剧收缩，用户迫切需要齐全解耦计算和数据，让计算资源能够按需应用，集中统一治理不同存储中的元数据。

数据湖Catalog价值

多MRS集群元数据对立治理，防止数据孤岛；
自底向上逐层优化，性能更高；
多维度可靠性保驾护航，更牢靠；
反对细粒度权限管控，更平安；

4.2 基于ModelArts构建数据湖AI开发平台

大数据是AI的根底，AI也是大数据的将来。数据湖能够很好的在经典机器学习场景和深度学习场景下服务用户：教训和数据靠集体、无治理；难以复用，难以监管；数据类型多，不同团队用的工具不同，随工夫变动；无数据版本和分支治理；不足数据回流机制，须要数据湖具备可能对立“表”、“数据集”等概念，造成高层次的合作，须要数据湖具备可能实现元数据对立并借此进行数据版本和分支治理。

数据湖Catalog价值

提供多引擎SDK和REST API，不便用户集成；
反对多版本治理，包含数据版本、分支、事务等；
反对AI和大数据DAG血统跟踪和剖析；
对立元数据模型，助力异构数据源对立数据服务；

5 总结

数据湖Catalog极大加强MRS服务存算拆散方面的能力，让MRS更聚焦算力，真正能按需创立、用完即开释，为用户节约了资源老本和运维治理老本；同时对ModelArts构建数据湖AI开发平台提供企业级教训和数据复用、异构数据源对立拜访、多版本治理和DAG血统治理提供了松软的元数据管理根底。对于用户构建企业级数据湖大数据处理剖析平台和数据湖AI开发平台，数据湖Catalog将会成为用户对立元数据管理平台首选。

同时作为一款新的重量级对立元数据管理服务，咱们在引擎元数据畛域还在继续学习和摸索过程中，数据湖Catalog前面会继续从性能优化、可靠性、生态建设、数据价值开掘多个角度进行优化和改良，包含统计分析、CBO以及扩大利用、AI交融高级个性等。

点击关注，第一工夫理解华为云陈腐技术~

关于数据湖:统一元数据数据湖Catalog让大数据存算分离不再是问题

1 背景

2 数据湖Catalog简介

3 数据湖Catalog要害个性

3.1 存算拆散更业余、简化

3.2 反对多引擎、多集群，灵便易用，性能更高

3.3 多维度可靠性保驾护航

3.4 细粒度权限管控，访问共享更平安

3.5 反对元数据多版本以及DAG跟踪和剖析

4 典型利用场景

4.1 基于MRS构建企业级数据湖大数据处理剖析平台

4.2 基于ModelArts构建数据湖AI开发平台

5 总结

评论

发表回复取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

关于数据湖:统一元数据数据湖Catalog让大数据存算分离不再是问题

1 背景

2 数据湖Catalog简介

3 数据湖Catalog要害个性

3.1 存算拆散更业余、简化

3.2 反对多引擎、多集群，灵便易用，性能更高

3.3 多维度可靠性保驾护航

3.4 细粒度权限管控，访问共享更平安

3.5 反对元数据多版本以及DAG跟踪和剖析

4 典型利用场景

4.1 基于MRS构建企业级数据湖大数据处理剖析平台

4.2 基于ModelArts构建数据湖AI开发平台

5 总结

评论

发表回复 取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

发表回复取消回复