乐趣区

关于数据湖:统一元数据数据湖Catalog让大数据存算分离不再是问题

摘要: 为了解决现阶段大数据存算拆散痛点问题,华为云大数据推出重量级数据湖 Catalog 服务。

本文分享自华为云社区《对立元数据,华为云 MRS 数据湖 Catalog 重磅推出!》,原文作者:ryanlunar。

1 背景

随着 5G、IoT 等技术的倒退,企业积攒了越来越多的数据,须要激发更多的数据价值变现。传统大数据平台从建设到落地的长周期,不利于业务的高速倒退;平台建成后,保护、降级、扩容均以集群为单位,治理离散,操作沉重。

泛滥用户采纳了华为云大数据存算拆散计划,存算拆散解决方案指的是业务数据拆散,共享的是数据,元数据不共享,每类引擎独自映射构建。也正因为元数据不共享,导致现阶段大数据存算拆散计划存在如下几点痛点:

  1. 短少对立治理视图 :元数据扩散,难于对立治理;
  2. 短少对立的细粒度权限治理 :短少对立的对数据库、表、列的权限管制,短少无效的逻辑及权限隔离;
  3. 计算资源无奈疾速扩缩容 :计算集群须要思考元数据的备份和复原,减少资源老本和运维老本;

2 数据湖 Catalog 简介

为了解决现阶段大数据存算拆散痛点问题,华为云大数据推出重量级数据湖 Catalog 服务。

数据湖 Catalog 是面向多元计算引擎提供对立元数据服务。反对多元计算对立并共享元数据,实现引擎级元数据拆散,全湖一张视图,反对业务灵便拜访,助力存算拆散架构降级变迁。数据湖 Catalog 次要有如下五点要害个性:

  1. 存算拆散更业余、简化;
  2. 反对多引擎、多集群,灵便易用,性能更高;
  3. 多维度可靠性保驾护航;
  4. 细粒度权限管控,访问共享更平安;
  5. 反对元数据多版本以及 DAG 跟踪和剖析;

通过数据湖 Catalog 加持后,在原有业务数据拆散的根底上,实现引擎级元数据拆散,次要有如下三大劣势:

  1. 对立元数据管理, 全湖对立数据资产视图,多引擎对立可视;
  2. 元数据多引擎共享, 数据无需独自映射,软件多版本自由选择;
  3. 可靠性: 计算与数据齐全解耦,集群故障,数据牢靠,元数据牢靠;

3 数据湖 Catalog 要害个性

上面次要介绍数据湖 Catalog 五大要害个性。

3.1 存算拆散更业余、简化

传统存算拆散解决方案个别指的是业务数据拆散,共享的是数据,元数据不共享,每类引擎独自映射构建。而数据湖 Catalog 通过对立多集群、多类型计算的元数据管理,实现全湖对立数据资产视图,多引擎对立可视,数据无需独自映射,多引擎多版本自由选择。

  1. 数据湖 Catalog 独立部署,MRS 集群开释不会清理元数据,元数据无需备份和迁徙,节约运维治理老本,随用随开释;
  2. MRS 集群能够做不同的业务,所有集群都能够很不便的实现数据共享和数据拜访;
  3. MRS 集群能够真正聚焦业务,依据业务须要进行集群的创立和开释,真正的能够做到按需创立、用完即开释,节约资源和运维老本。

3.2 反对多引擎、多集群,灵便易用,性能更高

传统大数据大多以 MetaStore 进行元数据管理,以 thrift api 形式对外提供元数据管理能力,且仅针对 Hive 生态相干元数据。而数据湖 Catalog 提供兼容 Hive MetaStore API 和 RESTfull API,反对结构化、非结构化数据源以结构化的模型进行元数据管理助力高层次的合作。

  1. 兼容 Hive MetaStore API,反对 Hive 生态诸如 Hive/Spark/Presto/Impala/Flink 等引擎,能够通过简略的配置即可疾速实现数据湖 Catalog 对接集成;
  2. 反对华为云其余云服务以凋谢 RESTfull API 的形式进行对接集成;
  3. 基于 MetaStore 内核自底向上逐层优化,性能更高,某客户场景下性能较开源晋升 3 - 5 倍;

3.3 多维度可靠性保驾护航

随着业务快速增长,数据湖 Catalog 提供了多维度可靠性加强能力,疾速满足客户业务增长的诉求,为客户保驾护航。

  1. 反对跨 AZ 容灾部署、节点故障容错、个性级故障发现和自愈,为用户提供了高可用部署架构,极大晋升业务的可靠性;
  2. 反对动静流控、动态流控、服务降级、接口级熔断,保障业务平滑应答业务激增;
  3. 反对公共服务依赖故障放通,当周边服务异样时,最大水平保障业务连续性;
  4. 反对丰盛的集群监控和告警能力,实时发现零碎异样,保障业务稳固运行;

3.4 细粒度权限管控,访问共享更平安

数据湖 Catalog 基于华为云 IAM 实现细粒度权限管控,将元数据作为资源进行对立权限治理。各云服务必须相应的权限才能够拜访数据湖 Catalog,例如表或分区。

  1. 反对基于角色的拜访策略,数据湖 Catalog 对所有元数据的操作均反对基于角色的 IAM 策略。通过讲策略附加到账户中的用户或组,可向其授予数据湖 Catalog 中创立、拜访或批改数据湖 Catalog 资源(例如表、分区)的权限。通过将策略附加到 IAM 角色,用户能够向其余华为云账户中的 IAM 角色授予跨账户拜访权限;
  2. 反对应用资源策略管制对数据湖 Catalog 资源的拜访,这些资源包含数据库、表、分区和用户定义的函数,以及与这些资源交互的 APIs;
  3. 反对基于角色或资源的拜访策略跨账户授予拜访权限,实现多账号间元数据的共享和访问控制。

3.5 反对元数据多版本以及 DAG 跟踪和剖析

在经典机器学习场景和深度学习场景下,数据类型、数据版本、工程(模型、脚本等)随工夫变动,难以复用,难以监管。数据湖 Catalog 提供元数据多版本能力,让 AI 数据开发我的项目如同 GIT 治理代码一样治理波及到的数据和工程模型、脚本。与此同时,数据湖 Catalog 提供 DAG 跟踪和剖析能力,能够帮忙 AI 数据开发依照工夫线、流水线查看不同期间、不同阶段的模型指标以及上下游信息。数据湖 Catalog 能够帮忙极大晋升 AI 数据开发的效率。

4 典型利用场景

4.1 基于 MRS 构建企业级数据湖大数据处理剖析平台

用户基于华为云 MapReduce 服务构建本人的数据湖数据处理剖析平台,随着企业疾速倒退,集群规模和数据也急剧收缩,用户迫切需要齐全解耦计算和数据,让计算资源能够按需应用,集中统一治理不同存储中的元数据。

数据湖 Catalog 价值

  1. 多 MRS 集群元数据对立治理,防止数据孤岛;
  2. 自底向上逐层优化,性能更高;
  3. 多维度可靠性保驾护航,更牢靠;
  4. 反对细粒度权限管控,更平安;

4.2 基于 ModelArts 构建数据湖 AI 开发平台

大数据是 AI 的根底,AI 也是大数据的将来。数据湖能够很好的在经典机器学习场景和深度学习场景下服务用户:教训和数据靠集体、无治理;难以复用,难以监管;数据类型多,不同团队用的工具不同,随工夫变动;无数据版本和分支治理;不足数据回流机制,须要数据湖具备可能对立“表”、“数据集”等概念,造成高层次的合作,须要数据湖具备可能实现元数据对立并借此进行数据版本和分支治理。

数据湖 Catalog 价值

  1. 提供多引擎 SDK 和 REST API,不便用户集成;
  2. 反对多版本治理,包含数据版本、分支、事务等;
  3. 反对 AI 和大数据 DAG 血统跟踪和剖析;
  4. 对立元数据模型,助力异构数据源对立数据服务;

5 总结

数据湖 Catalog 极大加强 MRS 服务存算拆散方面的能力,让 MRS 更聚焦算力,真正能按需创立、用完即开释,为用户节约了资源老本和运维治理老本;同时对 ModelArts 构建数据湖 AI 开发平台提供企业级教训和数据复用、异构数据源对立拜访、多版本治理和 DAG 血统治理提供了松软的元数据管理根底。对于用户构建企业级数据湖大数据处理剖析平台和数据湖 AI 开发平台,数据湖 Catalog 将会成为用户对立元数据管理平台首选。

同时作为一款新的重量级对立元数据管理服务,咱们在引擎元数据畛域还在继续学习和摸索过程中,数据湖 Catalog 前面会继续从性能优化、可靠性、生态建设、数据价值开掘多个角度进行优化和改良,包含统计分析、CBO 以及扩大利用、AI 交融高级个性等。

点击关注,第一工夫理解华为云陈腐技术~

退出移动版