关于大数据:深入跨国互联网业务场景谈华为云数智融合元数据的五个统一

大数据查找应用面临的挑战

　　企业的数据通常有两种类型：作业数据和剖析数据。前者在业务运行时应用和生成，撑持业务运行；后者在经营时应用和生成，撑持企业做商业决策。前者是后者数据的起源。

图表 1从作业数据到剖析数据

　　随着数字技术与业务场景深度交融，人、物被高速网络宽泛联接起来，信息替换的速度在晋升，数据的规模、复杂度达到难以想象的水平，这时企业会面临如下两个突出问题：

　　1.企业通常晓得在哪一个业务环节生成了数据，但在最须要的时候却找不到。数据资产如果无奈组织治理好，就是一片“数据沼泽”，把本来低劣的资产变成企业的累赘。

　　2.数据技术还在疾速倒退迭代中，如果不足前瞻性的设计和零碎思考，就会因为技术限度导致在多个大数据引擎和AI引擎之间存在数据割裂的状况。业务人员须要在不同引擎间来回拷贝数据能力将数据用于剖析，导致反复存储和加工，不仅减少了老本，也大大降低了性能。

　　在华为，因为流程IT和终端大数据的全面云化，华为云大数据解决的数据体量、运算量、业务复杂度在世界上绝无仅有，咱们与客户一起摸索解决最艰巨的数据集成治理的形式，让数据资产能“理得清”“找得快”，基于一份数据在多个剖析计算引擎间自在流转的能力，为实现AI和数据的交融剖析，本文将联合我的项目实际介绍数智交融元数据计划。

华为云数智交融元数据计划介绍

　　元数据中保留了数据的重要信息（如表名、字段名、工夫戳、版本、表大小、格局、访问控制列表等）和关联关系（即数据的流动链路），在多云、跨业务畛域、不同零碎下提供集中式的数据管理，能发现查找、疾速了解、剖析数据。

图表 2某跨国互联网企业交融元数据计划

　　上图所示的某跨国互联网企业交融元数据计划针对大数据、数据仓库、机器学习等场景实现了“五个对立”：

　　对立目录：建设对立残缺的数据资产清单，让企业能全局化透视化把握所领有的数据资产。如图表2所示的对立Metastore Service，用对立的数据视图将大数据和AI引擎、数据分析团队、管理员三方连接起来，让生产零碎中大数据实时可视，所见即所得。同时，通过抓取/Hook等形式反对异构数据源元数据的及时同步。

　　对立权限：建设对立的权限治理，让正确的人能操作正确的数据资产。如图表2所示的Metadata Admin，细粒度的权限治理，不仅能够做到表级，还能够做到列级和行级权限管制；不仅能够治理数据的权限，还能够治理AI模型的权限。权限零碎与云上的IAM账号体系和认证体系买通，做到一次受权，所有用数场景都受控，简化管理员的权限管理工作。

图表 3对立权限治理

　　对立索引：建设对立的元数据索引和数据索引。元数据索引实现元数据性能的线性扩大，反对百万级分区大表的低时延高并发拜访。数据索引使数据分析时能精确定位数据地位，缩小IO，晋升性能。通过数据大脑剖析计算用户的数据日常用数行为，主动举荐适宜利用场景的索引和物化视图，同时在用户的抉择下实现索引和物化视图的创立和增量刷新，进一步晋升每次数据拜访的hit rate（命中率）。

图表 4对立索引

　　对立事务：建设大数据、数据仓库、机器学习的ACID（原子性、一致性、隔离性和持久性）事务机制，让数仓开发人员、分析师、数据科学家等多种用数角色在同一个牢靠的并发零碎中协同工作。向用户提供多版本、多分支治理能力，用户可随时抉择应用历史版本做数据复现或模型复现，或做版本回退修复数据问题。同时基于弱小的细粒度元数据管理能力，多版本复用一份底层存储，存储不收缩，用户也可通过管制版本保留时长管制其总体存储老本。

图表 5数据&模型多版本多分支

　　对立拜访记录：建设数据和AI模型链路的血统治理，梳理分明表格与表格之间、表格与模型之间的流调关系。如图表2“血统、“拜访”、“计算成本”所示，通过计算引擎中的实时感知，收集各团队对数据和模型的拜访过程信息，能够做到数据在整个处理过程中的可追溯、可复现、可比照。在典型的数据链路中，每张数据表和模型在整个生命周期中消耗了多少老本（即应用了多少计算存储资源），都将十分清晰地出现在业务使用者背后，用户能够依据投入产出比，剥离有效工作。例如，某实时报表占用了大量的剖析存储资源，而从业务角度来看隔天生成报表也没有影响，所以能够将Flink实时链路更改成Spark离线链路。在残缺地记录信息，融入业务知识后，交融元数据会让企业有一笔清晰明确的用数账本和优化计划。

图表 6典型的数据链路

　　交融元数据实质上是对数据应用的指引和管制，是一个零碎思考的过程，而不是一个繁多的流动。因而，良好的元数据管理须要同时联合业务教训和技术倒退。

　　时下，华为云也在联合本身和客户的诉求，摸索如何均衡性能与老本、升高用数门槛、洞察未知等等。咱们心愿突破存储与计算、多个引擎间的“数据墙”，让一份数据贯通始终，解决“数据搬家”带来的性能和一致性问题；像治理代码一样治理数据和模型，让数据与AI开发高效无缝互通，在AI算法的加持下，让数据的价值有限开释；赋数以智，让数据治理走向自动化，升高数据研发老本，让各个系统可能“对话”，解决“数据孤岛”景象。

　　交融元数据正是解决这些问题的根底，它将为企业数据和数据目录提供对立视图，为数据应用程序、数据工程师、数据科学家和业务经营提供数据服务，在面临海量数据的业务场景中、在无止境的数据治理摸索路线上，向企业搭档展示一幅清晰的地图。

关于大数据:深入跨国互联网业务场景谈华为云数智融合元数据的五个统一

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于大数据:深入跨国互联网业务场景谈华为云数智融合元数据的五个统一

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复