关于数据挖掘:元数据是什么举例告诉你哪种方式更适合元数据的录入

3次阅读

共计 2393 个字符,预计需要花费 6 分钟才能阅读完成。

元数据,一个简略的定义是形容数据的数据。在企业中,无论哪里有数据,都有相应的元数据。只有存在残缺而精确的元数据,咱们能力更好地了解数据并充分利用数据的价值。为了让大家更好地理解什么是元数据,TaskCtl 小编针对元数据的类型,举例说明什么是元数据。

元数据分类

元数据管理的范畴将涵括数据产生、数据存储、数据加工和展示等各个环节的数据形容信息,帮忙用户了解数据前因后果、关系及相干属性。按其形容对象的不同能够划分为三类元数据:技术元数据、业务元数据和治理元数据

这三种元数据的具体形容如下:

  • 技术元数据 技术元数据是形容数据系统中技术畛域相干概念、关系和规定的数据,次要包含对数据结构、数据处理方面的特征描述,笼罩数据源接口、数据仓库与数据集市存储、ETL、OLAP、数据封装和前端展示等全副数据处理环节;
  • 业务员数据 业务元数据是形容数据系统中业务畛域相干概念、关系和规定的数据,次要包含业务术语、信息分类、指标定义和业务规定等信息;
  • 治理元数据 治理元数据是形容数据系统中治理畛域相干概念、关系和规定的数据,次要包含人员角色、岗位职责和治理流程等信息。

元数据管理的范畴

元数据管理范畴的不应仅仅局限于企业数据仓库、数据集市以及治理分类利用的数据,还应该将企业的业务零碎的元数据纳入进来就行对立的治理,真正做到从源头对元数据进行治理,作为对数据的残缺生命周期进行治理。

元数据利用

数据地图

数据地图展示是以拓扑图的模式对数据系统的各类数据实体、数据处理过程元数据进行分档次的图形化展示,并通过不同档次的图形展示粒度管制,满足开发、运维或者业务上不同利用场景的图形查问和辅助剖析须要。

元数据分析

血统剖析

血统剖析 (也称血统剖析) 是指从某一实体登程,往回追溯其处理过程,直到数据系统的数据源接口。对于不同类型的实体,其波及的转换过程可能有不同类型,如:对于底层仓库实体,波及的是 ETL 处理过程;而对于仓库汇总表,可能既波及 ETL 处理过程,又波及仓库汇总处理过程;而对于指标,则除了下面的处理过程,还波及指标生成的处理过程。数据源接口实体由源零碎提供,作为数据系统的数据输出,其它的数据实体都通过了一个或多个不同类型的处理过程。血统剖析正是提供了这样一种性能,能够让使用者依据须要理解不同的处理过程,每个处理过程具体做什么,须要什么样的输出,又产生什么样的输入。

影响剖析

影响剖析是指从某一实体登程,寻找依赖该实体的处理过程实体或其余实体。如果须要能够采纳递归形式寻找所有的依赖过程实体或其余实体。该性能反对当某些实体发生变化或者须要批改时,评估实体影响范畴。

实体关联剖析

实体关联剖析是从某一实体关联的其它实体和其参加的处理过程两个角度来查看具体数据的应用状况,造成一张实体和所参加处理过程的网络,从而进一步理解该实体的重要水平。本性能能够用来撑持需要变更影响评估的利用.

实体差别剖析

实体差别剖析是对元数据的不同实体进行查看,用图形和表格的模式展示它们之间的差别,包含名字、属性及数据血统和对系统其余局部影响的差别等, 在数据系统中存在许多相似的实体。这些实体 (如数据表) 可能只有名字上或者是在属性中存在渺小的差别,甚至有局部属性名字都雷同,但处于不同的利用中。因为各种起因,这些渺小的差别间接影响了数据统计后果,数据系统须要分明理解这些差别。本性能有助于进一步对立统计口径,评估近似实体的差别

指标一致性剖析

指标一致性剖析是指用图形化的形式来剖析比拟两个指标的数据流图是否统一,从而理解指标计算过程是否统一。该性能是指标血统剖析的一种具体利用。指标一致性剖析能够帮忙用户分明地理解到将要比拟的两个指标在经营剖析数据流图中各阶段所波及的数据对象和转换关系是否统一,帮忙用户更好地理解指标的前因后果,分明了解散布在不同部门且名称雷同的指标之间的差别,从而进步用户对指标值的信赖。

辅助利用优化

元数据对数据系统的数据、数据加工过程以及数据间的关系提供了精确的形容,利用血统剖析、影响剖析和实体关联剖析等元数据分析性能,能够辨认与零碎利用相干的技术资源,联合利用生命周期治理过程,辅助进行数据系统的利用优化.

辅助平安治理

企业数据平台所存储的数据和提供的各类剖析利用,波及到公司经营方面的各类敏感信息。因而在数据系统建设过程中,须采纳全面的平安管理机制和措施来保障系统的数据安全。

数据系统平安治理模块负责数据系统的数据敏感度、客户隐衷信息和各环节审计日志记录治理,对数据系统的数据拜访和性能应用进行无效监控。为实现数据系统对敏感数据和客户隐衷信息的访问控制,进一步实现权限细化,平安治理模块应以元数据为根据,由元数据管理模块提供敏感数据定义和客户隐衷信息定义,辅助平安治理模块实现相干平安管控操作。

基于元数据的开发治理

数据系统我的项目开发的 次要环节包含:需要剖析、设计、开发、测试和上线。开发治理利用能够提供相应的性能,对以上各环节的工作流程、相干资源、规定束缚、输入输出信息等提供治理和反对。

哪种形式更适宜调度元数据录入?

个别开源的调度工具,原生反对采纳 form 表单编辑调度元信息 (如 xxl-job) 或仅用 xml 文本承载(如 ozzie、azkaban)

传统的商业调度软件 (如 control-m) 为了反对海量的调度作业设计。采纳模板化的 excel 文档批量编辑,再导入到调度零碎中去。

TASKCTL 除了反对 (传统的图形拖拽作业节点)+(作业属性表单)(模板化的 excel 批量编辑外),还反对(进阶的 xml 代码 IDE 编辑器) 来实现海量作业设计。

总结

以上简要形容了元信息,以及通过示例解释如何应用元信息;心愿能把元数据外围用处阐明分明,大家有趣味或疑难,欢送大家能够和我一起留言 + 分享探讨交换,咱们将选取 10 位评论区留言和 20 位分享该文章链接的搭档截图私信我,咱们将给与你软件 taskctl 6.0 1 年的永恒收费应用官网受权

受权形式:

正文完
 0