关于数据:数据目录是什么为何需要它

5次阅读

共计 3327 个字符,预计需要花费 9 分钟才能阅读完成。

简而言之,数据目录就是对于企业数据资产的一个有序清单。它能够应用元数据来帮忙企业治理数据,帮忙数据业余人员收集、组织、拜访和空虚元数据,从而为数据发现和治理提供反对。

—  01  —数据目录的定义和类比

在上文咱们简略介绍数据目录的定义,也就是应用元数据来帮忙企业治理数据。接下来,咱们应用图书馆作类比,带您具体理解数据目录。

当您返回图书馆查找某一图书时,您能够应用图书目录来查找该图书是否存在,理解它的版本、地位以及相干形容。您能够应用所有这些信息来决定是否真的须要这本书,理解如何找到它。

当今的许多对象存储、数据库和数据仓库就相当于一座座图书馆。

咱们再回到图书馆和图书目录。当初,咱们对图书目录进行扩大,涵盖整个国家的所有图书馆。设想一下,这样您就能够在一个界面中查找整个国家中储备了您所需图书的所有图书馆,查找对于您所需的每一本图书的所有详细信息。

企业数据目录之于数据,正如图书目录之于图书。它能够为您提供一个整体视图,提供对于您所有数据的深度可见性,而不仅仅是一次只查看某一项数据。

您为什么须要这样一个视图呢?

—  02  —数据目录能够解决哪些问题?

与过来相比,想从现在前所未有的数据陆地中找到正确的数据更加艰难。同时,对于数据的监管条例和法规(例如 GDPR)也比过来更多、更严格。在这一背景下,除了数据拜访之外,数据治理也成为了一个严厉的挑战。您不仅要理解以后您所领有数据的类型、哪些人在挪动数据、数据的用处以及如何爱护数据,还必须防止过多的数据层和封装,防止数据因太难应用而毫无用处。遗憾的是,很多企业和用户在查找和拜访数据上面临着很多问题,包含:

  • 需消耗大量工夫和精力查找和拜访数据
  • 数据湖变成了数据沼泽
  • 无通用业务词汇
  • 难以了解“光明数据”的构造和类别
  • 难以评估数据起源、品质和可靠性
  • 无奈捕捉部落常识或失落的常识
  • 难以重用常识和数据资产
  • 需手动和长期进行数据筹备

—  03  —哪些用户应应用数据目录?

数据工程师、数据科学家、数据管理员和首席数据官等用户无不受到以上数据管理问题的困扰,无不心愿可能轻松拜访牢靠的数据。他们面临的一些常见的挑战包含:数据工程师想晓得任意更改将对整个零碎产生哪些影响,他们可能会问:

  • 咱们 CRM 利用中的模式变更将产生哪些影响?
  • Peoplesoft 和 HCM 数据结构有何不同?

数据科学家心愿可能轻松拜访数据并进一步理解数据品质,他们想理解以下信息:

  • 从何处能够找到和查看一些地理位置数据?
  • 如何轻松拜访数据湖中的数据?

数据管理员负责管理数据流程,关注概念、利益相关者间协定以及数据生命周期治理。他们心愿理解:

  • 咱们是否真的在改善经营数据品质?
  • 咱们是否为重要的要害数据元素定义了规范?

首席数据官关怀哪些人在组织中做了哪些事,个别不应用数据目录。然而,他们依然心愿理解:

  • 哪些人能够拜访客户的个人信息?
  • 咱们是否为所有数据定义了保留策略?

有了数据目录,这些问题就能迎刃而解。

—  04  —数据目录应用场景

在过来几年中,随着须要治理和拜访的数据的数量日益增长,数据目录这一概念开始流行起来。在这所有的背地,是云、大数据分析、人工智能和机器学习正逐步扭转人们查看、治理和应用数据的形式 — 不仅要治理数据,还要拜访和充分利用数据。

数仓治理:数据地图长什么样?

应用数据目录,您能够更好地应用数据,取得以下劣势:

  • 节省成本
  • 进步经营效率
  • 加强竞争劣势
  • 改善客户体验
  • 缩小欺诈,升高危险
  • 等等

这些只是数据目录的一部分应用场景。实际上,数据目录的应用形式多种多样。从根本上说,它的主旨就是提供更宽泛的数据可见性和更深刻的数据拜访反对。

1. 自助剖析

许多用户难以找到正确的数据,同时,除了查找数据外,他们还难以判断数据是否有用。例如,您可能会发现一个名为 customer_info.csv 的文件,而又恰好须要一个对于客户的文件。但这并不意味着它就是您须要的,它可能只是 50 个相似文件中的一个。同时,该文件可能蕴含许多字段,您可能并不理解所有这些数据元素代表什么。对此,您须要通过一种更简略的办法来查看数据的业务上下文,例如它是否是来自正确的数据存储的托管资源以及它与其余数据工件之间的关系。

数据发现还包含通过各种形式来了解数据的状态和特色,例如简略的值散布和统计信息,或者重要且简单的个人身份信息 (PII) 或集体衰弱信息 (PHI)。

2. 审计、合规和变更治理

随着对于数据的政府监管法规数量一直增长,企业常常须要证实数据的起源,例如特定数据工件的起源,或在实现最终目标之前进行了哪些数据转换;在查看表格、报告或文件时,数据用户通常也心愿了解数据的具体起源以及数据通过各种形式在整个组织中的挪动过程。同时,对于变更治理来说,一项重要工作就是查看数据管道中某局部的变更将如何影响零碎的其余局部。这就是为什么客户心愿具体理解数据因循的起因。

3. 应用业务术语表加强数据治理

现在大多数企业都建设了一个所有人都认可的术语表,就业务概念达成了统一。通常,业务术语表记录在 Excel 工作簿中。其实,数据目录比 Excel 工作簿更适宜存储和治理这一重要业务信息。

此外,数据目录还反对在业务术语之间建设链接,从而创立分类;能够记录业务术语与实物资产(例如表和列)之间的关系;能够帮忙用户了解哪些业务概念与哪些技术工件相干;能够帮忙用户按业务概念线对数据资产分类,随后间接应用业务概念(而不是技术名称)来进行数据搜寻和发现。数据目录让用户能够看到与数据相干的所有内容,加强对所查看内容的信任度,为数据治理奠定一个绝佳的终点。

—  05  —如何充分利用数据目录中的数据?

许多人可能不相熟元数据,咱们有必要先介绍一些简略的概念。元数据是什么?元数据分为 3 类:

  • 技术元数据:模式、表、列、文件名、报告名 — 源零碎中记录的所有信息
  • 业务元数据:通常指用户具备的对于组织资产的业务知识,包含业务形容、备注、正文、分类、适用性、评级等等。
  • 操作元数据:这一对象的刷新工夫?它由哪一个 ETL 作业创立?表格被拜访次数有多少?具体有哪些?

面试,数据仓库的元数据蕴含哪些?

在过来几年里,这些贵重的元数据的应用形式产生了一次轻微的改革。已经,元数据仅用于审计、来历追溯和报告。现在,无服务器解决、图形数据库等技术创新,尤其是全新、更加便捷的 AI 和机器学习技术正在冲破元数据的界线,带来新的可能。

在明天,元数据可加强数据管理。从自助数据筹备到角色和数据内容库访问控制,自动化数据买通,异样监督和警报,自动化资源供给和扩大等等,元数据能够全面加强所有这些性能。

数据目录能够应用元数据帮忙您实现比数据管理更弱小的性能。

—  06  —数据目录该当具备哪些性能?

​一个优良的数据目录该当具备以下性能:

①数据搜寻和发现

数据目录该当具备灵便的搜寻和过滤选项,从而赋能用户疾速找到相干数据集,以施行数据迷信、剖析或数据工程;依照数据资产的技术层级来浏览元数据。此外,如反对用户输出技术信息、自定义标签或业务术语,数据目录能够进一步改善搜寻性能。

②从各种数据源收集元数据:

请确保您的数据目录能够从各种互联数据资产中收集技术元数据,包含对象存储、自治驾驶数据库、本地部署零碎等等。

③元数据管理:

数据目录应反对主题专家通过企业业务术语表、标签、关联、用户自定义正文、分类、评级等模式来奉献业务知识。

④自动化和数据智能:

对于大规模数据,人工智能和机器学习通常必不可少。因而,数据目录应利用 AI 和机器学习技术来解决所收集的元数据,让所有能够自动化的手动工作都实现自动化。此外,人工智能和机器学习还能够切实增强数据性能,例如为数据目录用户以及现代化数据平台上其余服务的用户提供数据倡议。

⑤企业级性能:

您须要利用弱小的企业级性能来正确应用您至关重要的数据资产,例如身份与拜访治理性能以及基于 REST API 的重要性能。同时,这还意味着客户和合作伙伴能够奉献元数据(例如自定义收集器),通过 REST 公开其利用中的数据目录性能。

除此之外,您的数据目录还该当成为事实上的系统目录,从而为所有长久层(例如对象存储、Hadoop、数据库和数据仓库)以及跨所有数据存储运行的查问服务提供形象。

正是因为如此,数据目录已不再仅仅是精益求精,而是成为了一项必不可少的工具。

正文完
 0