关于数据:数据仓库中的元数据管理

56次阅读

共计 5604 个字符,预计需要花费 15 分钟才能阅读完成。

元数据管理系统这个名词, 从事非数据仓库工作的人,很少会接触到这个零碎,即便是正在从事这方面工作的敌人,可能依然对它不是很理解,那么明天我来聊一聊元数据管理系统。

元数据的定义

依照传统的定义,元数据(Metadata)是对于数据的数据。在数据仓库零碎中,元数据能够帮忙数据仓库管理员和数据仓库的开发人员十分不便地找到他们所关怀的数据;元数据是形容数据仓库内数据的构造和建设办法的数据,可将其按用处的不同分为两类:技术元数据(Technical Metadata)和业务元数据(Business Metadata)。

技术元数据是存储对于数据仓库零碎技术细节的数据,是用于开发和治理数据仓库应用的数据,它次要包含以下信息:

数据仓库构造的形容,包含仓库模式、视图、维、层次结构和导出数据的定义,以及数据集市的地位和内容;
业务零碎、数据仓库和数据集市的体系结构和模式
汇总用的算法,包含度量和维定义算法,数据粒度、主题畛域、汇集、汇总、预约义的查问与报告;
由操作环境到数据仓库环境的映射,包含源数据和它们的内容、数据宰割、数据提取、清理、转换规则和数据刷新规定、平安(用户受权和存取控制)。

业务元数据从业务角度形容了数据仓库中的数据,它提供了介于使用者和理论零碎之间的语义层,使得不懂计算机技术的业务人员也可能“读懂”数据仓库中的数据。业务元数据次要包含以下信息:使用者的业务术语所表白的数据模型、对象名和属性名;拜访数据的准则和数据的起源。

零碎所提供的分析方法以及公式和报表的信息;具体包含以下信息:

企业概念模型:这是业务元数据所应提供的重要的信息,它示意企业数据模型的高层信息、整个企业的业务概念和互相关系。以这个企业模型为根底,不懂数据库技术和 SQL 语句的业务人员对数据仓库中的数据也能做到成竹在胸。
多维数据模型:这是企业概念模型的重要组成部分,它通知业务剖析人员在数据集市当中有哪些维、维的类别、数据立方体以及数据集市中的聚合规定。这里的数据立方体示意某主题畛域业务事实表和维表的多维组织模式。
业务概念模型和物理数据之间的依赖:以上提到的业务元数据只是示意出了数据的业务视图,这些业务视图与理论的数据仓库或数据库、多维数据库中的表、字段、维、档次等之间的对应关系也应该在元数据知识库中有所体现。

元数据的作用

与其说数据仓库是软件开发我的项目,还不如说是系统集成我的项目,因为它的次要工作是把所需的数据仓库工具集成在一起,实现数据的抽取、转换和加载,OLAP 剖析和数据挖掘等。如下图所示,它的典型构造由操作环境层、数据仓库层和业务层等组成。

其中,第一层(操作环境层)是指整个企业内无关业务的 OLTP 零碎和一些内部数据源;第二层是通过把第一层的相干数据抽取到一个中心区而组成的数据仓库层;第三层是为了实现对业务数据的剖析而由各种工具组成的业务层。图中右边的局部是元数据管理,它起到了承前启后的作用,具体体现在以下几个方面:

1、元数据是进行数据集成所必须的
数据仓库最大的特点就是它的集成性。这一特点不仅体现在它所蕴含的数据上,还体现在施行数据仓库我的项目的过程当中。一方面,从各个数据源中抽取的数据要依照肯定的模式存入数据仓库中,这些数据源与数据仓库中数据的对应关系及转换规则都要存储在元数据知识库中;另一方面,在数据仓库我的项目施行过程中,间接建设数据仓库往往费时、费劲,因而在实际当中,人们可能会依照对立的数据模型,首先建设数据集市,而后在各个数据集市的根底上再建设数据仓库。

不过,当数据集市数量增多时很容易造成“蜘蛛网”景象,而元数据管理是解决“蜘蛛网”的要害。如果在建设数据集市的过程中,留神了元数据管理,在集成到数据仓库中时就会比较顺利;相同,如果在建设数据集市的过程中漠视了元数据管理,那么最初的集成过程就会很艰难,甚至不可能实现。

2、元数据定义的语义层能够帮忙用户了解数据仓库中的数据
最终用户不可能象数据仓库系统管理员或开发人员那样相熟数据库技术,因而迫切需要有一个“翻译”,可能使他们清晰地了解数据仓库中数据的含意。元数据能够实现业务模型与数据模型之间的映射,因此能够把数据以用户须要的形式“翻译”进去,从而帮忙最终用户了解和应用数据。

3、元数据是保证数据品质的要害
数据仓库或数据集市建设好当前,使用者在应用的时候,经常会产生对数据的狐疑。这些狐疑往往是因为底层的数据对于用户来说是不“通明”的,使用者很天然地对后果产生狐疑。而借助元数据管理系统,最终的使用者对各个数据的前因后果以及数据抽取和转换的规定都会很不便地失去,这样他们天然会对数据具备信念;当然也可便捷地发现数据所存在的品质问题。甚至国外有学者还在元数据模型的根底上引入品质维,从更高的角度上来解决这一问题。

4、元数据能够反对需要变动
随着信息技术的倒退和企业职能的变动,企业的需要也在一直地扭转。如何结构一个随着需要扭转而平滑变动的软件系统,是软件工程畛域中的一个重要问题。传统的信息系统往往是通过文档来适应需要变动,然而仅仅依附文档还是远远不够的。胜利的元数据管理系统能够把整个业务的工作流、数据流和信息流无效地治理起来,使得零碎不依赖特定的开发人员,从而进步零碎的可扩展性。

元数据管理现状

由以上几节咱们理解到元数据简直能够被称为是数据仓库乃至商业智能(BI)零碎的“灵魂”,正是因为元数据在整个数据仓库生命周期中有着重要的位置,各个厂商的数据仓库解决方案都提到了对于对元数据的治理。但遗憾的是对于元数据的治理,各个解决方案都没有明确提出一个残缺的管理模式;它们提供的仅仅是对特定的部分元数据的治理。与元数据相干的数据仓库工具大抵可分为四类:

1、数据抽取工具
把业务零碎中的数据抽取、转换、集成到数据仓库中,如 Ardent 的 DataStage、Pentaho 的开源 ETL 产品 Kettle、ETI 的 Extract 等。这些工具仅提供了技术元数据,简直没有提供对业务元数据的反对。

2、前端展示工具
包含 OLAP 剖析、报表和商业智能工具等,如 Cognos 的 PowerPlay、Business Objects 的 BO,以及国内厂商帆软的 FineBI/FineReport 等。它们通过把关系表映射成与业务相干的事实和维来反对多维业务视图,进而对数据仓库中的数据进行多维分析。这些工具都提供了业务元数据与技术元数据绝对应的语义层。

3、建模工具
为非技术人员筹备的业务建模工具,这些工具能够提供更高层的与特定业务相干的语义。如 CA 的 ERwin、Sysbase 的 PowerDesigner 以及 Rational 的 Rose 等。

4、元数据存储工具
元数据通常存储在专用的数据库中,该数据库就如同一个“黑盒子”,内部无奈晓得这些工具所用到和产生的元数据是如何存储的。还有一类被称为元数据知识库(Metadata Repository)的工具,它们独立于其它工具,为元数据提供一个集中的存储空间。这些工具包含微软的 Repository,Ardent 的 MetaStage 和 Sybase 的 WCC 等。

5、元数据管理工具
目前国内的元数据管理工具大略有三类。一是像 IBM、CA 等公司都提供的专门工具,比方 IBM 收买 Ascential 失去的 MetaStage,CA 的 DecisionBase 都是如此;二是像 DAG 的 MetaCenter,开源产品 Pentaho Metadata,它们不依靠于某项 BI 产品,是一种第三方的元数据管理工具;三是像普元、石竹这样的集成商也有本人的元数据管理工具:普元 MetaCube、新炬网络元数据管理系统、石竹 MetaOne 等。

专门的元数据管理工具,对自家产品兼容较好,一旦波及跨系统管理,就不尽如人意了。从国内的理论利用来看,DAG 的 MetaCenter 这一工具应用最多,目前所看到的在电信、金融畛域建设的元数据管理我的项目基本上都是利用了这一产品。

我从互联网上搜寻了简直所有的元数据厂家:Pentaho 开源的 MetaData 产品,反对源码下载试用,能够进行集成开发;普元 MetaCube 下载后,配置麻烦,目前为止还没有调通;其余公司产品均不提供下载试用。

元数据管理规范

没有规矩不成方圆。元数据管理之所以艰难,一个很重要的起因就是不足对立的规范。在这种状况下,各公司的元数据管理解决方案各不相同。近几年,随着元数据联盟 MDC(Meta Data Coalition)的凋谢信息模型 OIM(Open Information Model)和 OMG 组织的公共仓库模型 CWM(Common Warehouse Model)规范的逐步欠缺,以及 MDC 和 OMG 组织的合并,为数据仓库厂商提供了对立的规范,从而为元数据管理铺平了路线。

从元数据的倒退历史不难看出,元数据管理次要有两种办法:

对于绝对简略的环境,依照通用的元数据管理规范建设一个集中式的元数据知识库。
对于比较复杂的环境,别离建设各局部的元数据管理系统,造成分布式元数据知识库,而后,通过建设规范的元数据交换格局,实现元数据的集成治理。

目前 OMG 家的 CWM(Common Warehouse MetaModel)规范已成为元数据管理界的统一标准:OMG 是一个领有 500 多会员的国际标准化组织,驰名的 CORBA 规范即出自该组织。公共仓库元模型(Common Warehouse Metamodel)的次要目标是在异构环境下,帮忙不同的数据仓库工具、平台和元数据知识库进行元数据交换。2001 年 3 月,OMG 颁布了 CWM 1.0 规范。CWM 模型既包含元数据存储,也包含元数据交换,它是基于以下三个工业规范制订的:

UML:它对 CWM 模型进行建模。
MOF(元对象设施):它是 OMG 元模型和元数据的存储规范,提供在异构环境下对元数据知识库的拜访接口。
XMI(XML 元数据交换):它能够使元数据以 XML 文件流的形式进行替换。
CWM 为数据仓库和商业智能(BI)工具之间共享元数据,制订了一整套对于语法和语义的标准。它次要蕴含以下四个方面的标准:

CWM 元模型(Metamodel):形容数据仓库零碎的模型;
CWM XML:CWM 元模型的 XML 示意;
CWM DTD:DW/BI 共享元数据的替换格局
CWM IDL:DW/BI 共享元数据的应用程序拜访接口(API)

元数据管理性能

1、数据地图
数据地图展示是以拓扑图的模式对数据系统的各类数据实体、数据处理过程元数据进行分档次的图形化展示,并通过不同档次的图形展示粒度管制,满足开发、运维或者业务上不同利用场景的图形查问和辅助剖析须要。

2、元数据分析
血统剖析:血统剖析(也称血统剖析)是指从某一实体登程,往回追溯其处理过程,直到数据系统的数据源接口。对于不同类型的实体,其波及的转换过程可能有不同类型,如:对于底层仓库实体,波及的是 ETL 处理过程;而对于仓库汇总表,可能既波及 ETL 处理过程,又波及仓库汇总处理过程;而对于指标,则除了下面的处理过程,还波及指标生成的处理过程。数据源接口实体由源零碎提供,作为数据系统的数据输出,其它的数据实体都通过了一个或多个不同类型的处理过程。

血统剖析正是提供了这样一种性能,能够让使用者依据须要理解不同的处理过程,每个处理过程具体做什么,须要什么样的输出,又产生什么样的输入。

影响剖析:响剖析是指从某一实体登程,寻找依赖该实体的处理过程实体或其余实体。如果须要能够采纳递归形式寻找所有的依赖过程实体或其余实体。该性能反对当某些实体发生变化或者须要批改时,评估实体影响范畴。

实体关联剖析:体关联剖析是从某一实体关联的其它实体和其参加的处理过程两个角度来查看具体数据的应用状况,造成一张实体和所参加处理过程的网络,从而进一步理解该实体的重要水平。

本性能能够用来撑持需要变更影响评估的利用。

实体差别剖析:体差别剖析是对元数据的不同实体进行查看,用图形和表格的模式展示它们之间的差别,包含名字、属性及数据血统和对系统其余局部影响的差别等, 在数据系统中存在许多相似的实体。这些实体(如数据表)可能只有名字上或者是在属性中存在渺小的差别,甚至有局部属性名字都雷同,但处于不同的利用中。

因为各种起因,这些渺小的差别间接影响了数据统计后果,数据系统须要分明理解这些差别。本性能有助于进一步对立统计口径,评估近似实体的差别

指标一致性剖析:标一致性剖析是指用图形化的形式来剖析比拟两个指标的数据流图是否统一,从而理解指标计算过程是否统一。该性能是指标血统剖析的一种具体利用。

指标一致性剖析能够帮忙用户分明地理解到将要比拟的两个指标在经营剖析数据流图中各阶段所波及的数据对象和转换关系是否统一,帮忙用户更好地理解指标的前因后果,分明了解散布在不同部门且名称雷同的指标之间的差别,从而进步用户对指标值的信赖。

  1. 辅助利用优化
    元数据对数据系统的数据、数据加工过程以及数据间的关系提供了精确的形容,利用血统剖析、影响剖析和实体关联剖析等元数据分析性能,能够辨认与零碎利用相干的技术资源,联合利用生命周期治理过程,辅助进行数据系统的利用优化.
  2. 辅助平安治理
    企业数据平台所存储的数据和提供的各类剖析利用,波及到公司经营方面的各类敏感信息。因而在数据系统建设过程中,须采纳全面的平安管理机制和措施来保障系统的数据安全。

数据系统平安治理模块负责数据系统的数据敏感度、客户隐衷信息和各环节审计日志记录治理,对数据系统的数据拜访和性能应用进行无效监控。为实现数据系统对敏感数据和客户隐衷信息的访问控制,进一步实现权限细化,平安治理模块应以元数据为根据,由元数据管理模块提供敏感数据定义和客户隐衷信息定义,辅助平安治理模块实现相干平安管控操作。

  1. 基于元数据的开发治理
    数据系统我的项目开发的次要环节包含:需要剖析、设计、开发、测试和上线。开发治理利用能够提供相应的性能,对以上各环节的工作流程、相干资源、规定束缚、输入输出信息等提供治理和反对。
正文完
 0