关于oushudb-hawq:OushuDB-小课堂-丨元数据的类型以及如何管理它们

31次阅读

共计 2347 个字符,预计需要花费 6 分钟才能阅读完成。

近年来,被动元数据(绝对于被动元数据)促成了新型元数据及其治理形式的倒退。元数据是一种标签零碎,能够被人类和计算机读取,并容许搜索引擎应用定义的元数据字段来定位数据。

被动元数据应用技术信息提供了一个根本的识别系统,但不提供重要的上下文,并且元数据被认为是动态的(半永久性标签)。侥幸的是,古代数据堆栈促成了流动元数据的倒退,它反对新的元数据形容零碎和更多的上下文,并且被认为是动静的(意味着只有数据发生变化,元数据就会更新)。

应用流动元数据的零碎依赖于 机器学习 和自动化。被动元数据管理系统应用软件来促成用于正在进行的我的项目和实时客户服务的元数据的继续更新。

它还能够在数据通过数据管道时跟踪数据并报告它所经验的任何更改。一个沉闷的 元数据管理 零碎须要反对元数据标签的间断解决和更新的自动化。

流动元数据是实时从源中获取的,容许管理层辨认、跟踪、了解和治理数据资产。流动元数据 建设信赖并使数据民主化。

流动元数据平台
古代企业须要开发 元数据策略 这可确保他们的数据不会被孤立,并且他们的元数据(被动和被动)精确、统一且牢靠。

一个沉闷的元数据平台容许元数据在整个过程中顺畅疾速地流动 数据栈. 它是一个比被动元数据更简单的过程,涵盖了一系列元数据形容零碎。

一个沉闷的元数据平台是一个面向口头的零碎,它总是在线的,并且一直地收集元数据,而不须要手动输出。它一直解决元数据以互连数据集和文件,并从中开发商业智能。它应用机器学习来解决元数据并开发可操作的情报。

一个沉闷的元数据系统随着人们应用它和取得更多的元数据教训而变得更加智能。

不同类型的元数据
有几种类型 元数据,所有这些都可能有助于减少企业数据资产的价值。依据流动元数据,已开发的各种元数据类型在形容数据内容时反对更大的灵活性。

在最根本的层面上,元数据应该传播无关内容、上下文和构造的信息。上面列出了一些更常见的元数据类型。

技术元数据:这种类型的元数据通常与被动元数据一起应用,包含数据库表的名称和列名,以及数据类型、波及数据的 ETL 作业、援用数据的索引等。技术元数据包含:

文件格式
文件名
图式
数据源
地理位置
业务元数据:它提供定义、业务规定、数据应用限度和数据上下文。业务元数据很容易被非技术人员了解,并提供了一种通用语言。业务元数据包含:

工夫线
业务需要和模型
业务流程
指标
商业术语
操作元数据:这种模式的元数据包含无关何时以及如何转换或创立数据的信息。它提供了无关如何应用数据的更多详细信息。此元数据的类型包含以下信息:

更新日期
装船日期
血统
数据状态
流程元数据:这是存储在数据仓库或数据湖中的操作元数据的细分。过程元数据提供了将数据加载到存储中的过程的详细信息。此类信息在呈现问题时很有用。流程元数据可能包含:

谬误日志
作业执行日志
审核后果
出处元数据:这种元数据类型跟踪数据的起源和随工夫的任何变动。它提供数据可追溯性,因而能够发现并删除不精确的数据,从而进步 数据品质. 出处元数据可能包含以下信息:

权威
更改日志
所有权记录
版本控制记录
构造元数据:这提供了无关数据物理组织的信息——关系、类型、版本和其余特色。构造数据可用于创立和保护数据字典。一些模式的构造元数据是:

数据元素类型
表名
记录大小
治理元数据:这种类型的元数据提供用于 数据治理. 它有助于治理和建设数据的可信度。治理元数据能够包含无关保留、权力和应用的信息。它提供了对谁能够应用它们以及如何应用这些文件的管制。治理元数据能够包含:

版权信息和许可协定
权限治理技术数据
用户限度
访问控制信息
社交元数据:这提供了无关人们如何应用数据的有用信息。应用社交元数据提供的上下文,企业能够决定缩小、维持或减少广告或生产力。社交元数据包含以下信息:

作者信息
查问次数最多的表
应用频率
治理流动元数据
治理流动元数据能够疾速高效地搜寻数据,提供做出数据驱动决策所需的洞察力。企业应该有治理其元数据的策略。如果没有智能策略,数据可能会变得极其凌乱,使钻研人员难以确定数据的准确性,并导致他们质疑其可靠性。

确保在流动元数据程序中蕴含以下内容:

敏感数据的主动分类:敏感数据(如集体数据)应用自动化进行爱护。无关隐衷(和其余问题)的法律法规会主动适当分类,没有人为谬误的危险。

当用户能够查看所有现有数据时,数据能力真正民主化。然而这种被动的元数据管理容许企业主动对敏感数据进行分类,暗藏其中的一些数据,同时使其余数据仅对受权用户可见。(能够自定义无关敏感数据的策略。)

革除过期数据:被动元数据管理反对的一个有用过程是系统地删除旧的、过期的数据。能够设置它以确定文档或数据批次的最初应用日期和 / 或拜访它的员工数量。

如果在 60 天内未拜访,则数据资源能够主动存档。如果在最近 90 天内未拜访过,则能够主动革除。

上游最终用户警报:能够设置被动元数据管理,以在数据库被批改或检测到潜在异样时间接告诉相干人员。

如果发现差别,能够疾速追溯到创建者,而后立刻将谬误告诉该人和 / 或更正谬误。

辨认最罕用的数据资产:被动元数据管理可用于为每个数据资源开发定制的风行度分数。能够依据查问日志的应用信息、数据起源和 商业智能仪表盘. 最罕用和最相干的数据资源应该更频繁地呈现在搜寻后果中。

元数据管理的将来
BigID 的首席执行官兼联结创始人 Dimitri Sirota 预测,流动元数据中心的应用将成为 下一步倒退 在流动元数据中。

的指标 流动元数据中心 是互连组织的数据并充当其搜索引擎。它将可能拜访组织的整个数据生态系统,并将通过自动化和机器学习减速数据解决方案。

流动元数据中心应用机器学习反对的数据目录。它旨在促成元数据的编排和丰盛。此外,从各种起源获取的元数据与以后存储的数据互相关联,并与其余数据管理工具集成。沉闷的元数据中心容许替换、更新和共享元数据。

更多内容请关注 OushuDB 小课堂

正文完
 0