关于人工智能:一体化元数据管理平台OpenMetadata入门宝典

4次阅读

共计 2631 个字符,预计需要花费 7 分钟才能阅读完成。

大家好,我是独孤风,一位已经的港口煤炭工人,目前在某国企任大数据负责人,公众号大数据流动主理人。在最近的两年的工夫里,因为公司的需要,还有大数据的发展趋势所在,我开始学习数据治理的相干常识。明天给大家分享一体化的元数据管理平台——OpenMetadata。

本文档基于官网及集体实际材料整顿。后续的文档请关注公众号 大数据流动 ,会继续的更新~

本文分四个局部,别离从开源元数据管理平台,OpenMetadata 简介,装置过程和性能演示四个方面来进行。

一、开源元数据管理平台

元数据管理是企业全面发展数据治理的终点。各种元数据管理工具,元数据管理平台也层出不穷。

开源的元数据管理平台很多。开源元数据管理平台是一种用于收集、存储和治理数据的工具,它们提供了一种可扩大的形式来组织和保护数据的元数据信息。以下是一些常见的开源元数据管理平台:

  1. Apache Atlas:Apache Atlas 是一个开源的大数据元数据管理和数据治理平台,旨在帮忙组织收集、整顿和治理数据的元数据信息。它提供了丰盛的元数据模型和搜寻性能,能够与各种数据存储和解决平台集成。
  2. LinkedIn DataHub:LinkedIn DataHub 是 LinkedIn 开源的元数据搜寻和发现平台。它提供了一个集中式的元数据存储库,用于治理和浏览各种类型的数据集和数据资产的元数据信息。
  3. Amundsen:Amundsen 是 Lyft 开源的数据发现和元数据管理平台。它提供了一个用户敌对的界面,使用户能够搜寻、浏览和奉献数据集的元数据信息。Amundsen 还反对与其余数据工具和平台的集成。
  4. Metacat:Metacat 是 Netflix 开源的数据发现和元数据管理平台。它提供了一个对立的接口来查找和浏览各种数据集的元数据信息,并反对与其余数据工具和服务的集成。

这些开源元数据管理平台都提供了各种性能,如元数据存储、搜寻、浏览、数据资产关系治理、数据血统跟踪等,帮忙组织更好地治理和利用数据的元数据信息。

而明天咱们要介绍的 OpenMetadata,心愿提供一种元数据的治理规范,来让咱们更好的治理元数据。

二、OpenMetadata 简介

OpenMetadata 是一个用于数据发现、数据因循、数据品质、可察看性、治理和团队合作的一体化平台。它是倒退最快的开源我的项目之一,领有充满活力的社区,并被各行业垂直畛域的泛滥公司采纳。OpenMetadata 由基于凋谢元数据规范 /API 的集中式元数据存储提供反对,反对各种数据服务的连接器,可实现端到端元数据管理,让您能够自在地开释数据资产的价值。

目前 OpenMetadata 在 Github 标星 2.5k,并刚刚更新了 1.1 版本。

思考局部同学网络问题,可在大数据流动后盾回复“OpenMetadata1.1”进行源码和安装包下载,有效期一个月。

OpenMetadata 包含以下内容:

  • 元数据模式 – 应用类型、实体和实体之间关系的模式定义元数据的外围形象和词汇。这是凋谢元数据规范的根底。还反对具备自定义属性的实体和类型的可扩展性。
  • 元数据存储 – 存储连贯数据资产、用户和工具生成的元数据的元数据图。
  • 元数据 API – 用于生成和应用基于用户界面模式以及工具、零碎和服务集成构建的元数据。
  • 摄取框架 – 用于集成工具并将元数据摄取到元数据存储的可插入框架,反对大概 55 个连接器。摄取框架反对家喻户晓的数据仓库,如 Google BigQuery、Snowflake、Amazon Redshift 和 Apache Hive;MySQL、Postgres、Oracle 和 MSSQL 等数据库;Tableau、Superset 和 Metabase 等仪表板服务;音讯服务,如 Kafka、Redpanda;以及 Airflow、Glue、Fivetran、Dagster 等管道服务。
  • OpenMetadata 用户界面 – 用户发现所有数据并就所有数据进行合作的繁多地位。

外围性能

  • 数据合作 – 通过流动源获取事件告诉。应用 webhook 发送警报和告诉。增加布告以告诉团队行将产生的更改。增加工作以申请形容或术语表术语批准工作流程。增加用户提及并应用对话线程进行合作。
  • 数据品质和分析器 – 标准化测试和数据品质元数据。将相干测试分组为测试套件。反对自定义 SQL 数据品质测试。有一个交互式仪表板能够深刻理解详细信息。
  • 数据血统 – 反对丰盛的列级因循。无效过滤查问以提取因循。依据须要手动编辑谱系,并应用无代码编辑器连贯实体。
  • 全面的角色和策略 – 解决简单的访问控制用例和分层团队。
  • 连接器 – 反对连贯到各种数据库、仪表板、管道和消息传递服务的 55 个连接器。
  • 术语表 – 增加受控词汇来形容组织内的重要概念和术语。增加词汇表、术语、标签、形容和审阅者。
  • 数据安全 – 反对 Google、Okta、自定义 OIDC、Auth0、Azure、Amazon Cognito 和 OneLogin 作为 SSO 的身份提供商。此外,还反对 AWS SSO 和 Google 基于 SAML 的身份验证。

三、装置过程

次要应用 Docker 的装置形式,几分钟就能够搞定。

首先查看 python 版本。

python3 --version

须要 python 3.7 3.8 3.9 三个版本都能够。

查看 docker 版本。

docker --version

20.10.0 或者更高的版本。

docker compose version

须要 docker compose 2.1.1 或者更高的版本。

建设文件夹

mkdir openmetadata-docker && cd openmetadata-docker

创立虚拟环境。

python3 -m venv env

虚拟环境失效。

source env/bin/activate

更新 pip

pip3 install --upgrade pip setuptools

装置 openmetadata

pip3 install --upgrade "openmetadata-ingestion[docker]"

确定装置胜利

metadata docker --help

启动容器

metadata docker --start

启动 postgre

metadata docker --start -db postgres

随后拜访

 http://localhost:8585

胜利!

四、性能演示

首页展现

多语言反对

概览页面

数据品质监控页

数据资产

业务术语表性能

一些数据源的配置。

未完待续~

更多大数据、数据治理、人工智能相干常识分享,请关注大数据流动。

本文由博客一文多发平台 OpenWrite 公布!

正文完
 0