大家好,我是独孤风,一位已经的港口煤炭工人,目前在某国企任大数据负责人,公众号大数据流动主理人。在最近的两年的工夫里,因为公司的需要,还有大数据的发展趋势所在,我开始学习数据治理的相干常识。明天给大家分享一体化的元数据管理平台——OpenMetadata。
本文档基于官网及集体实际材料整顿。后续的文档请关注公众号 大数据流动 ,会继续的更新~
本文分四个局部,别离从开源元数据管理平台,OpenMetadata 简介,装置过程和性能演示四个方面来进行。
一、开源元数据管理平台
元数据管理是企业全面发展数据治理的终点。各种元数据管理工具,元数据管理平台也层出不穷。
开源的元数据管理平台很多。开源元数据管理平台是一种用于收集、存储和治理数据的工具,它们提供了一种可扩大的形式来组织和保护数据的元数据信息。以下是一些常见的开源元数据管理平台:
- Apache Atlas:Apache Atlas 是一个开源的大数据元数据管理和数据治理平台,旨在帮忙组织收集、整顿和治理数据的元数据信息。它提供了丰盛的元数据模型和搜寻性能,能够与各种数据存储和解决平台集成。
- LinkedIn DataHub:LinkedIn DataHub 是 LinkedIn 开源的元数据搜寻和发现平台。它提供了一个集中式的元数据存储库,用于治理和浏览各种类型的数据集和数据资产的元数据信息。
- Amundsen:Amundsen 是 Lyft 开源的数据发现和元数据管理平台。它提供了一个用户敌对的界面,使用户能够搜寻、浏览和奉献数据集的元数据信息。Amundsen 还反对与其余数据工具和平台的集成。
- Metacat:Metacat 是 Netflix 开源的数据发现和元数据管理平台。它提供了一个对立的接口来查找和浏览各种数据集的元数据信息,并反对与其余数据工具和服务的集成。
这些开源元数据管理平台都提供了各种性能,如元数据存储、搜寻、浏览、数据资产关系治理、数据血统跟踪等,帮忙组织更好地治理和利用数据的元数据信息。
而明天咱们要介绍的 OpenMetadata,心愿提供一种元数据的治理规范,来让咱们更好的治理元数据。
二、OpenMetadata 简介
OpenMetadata 是一个用于数据发现、数据因循、数据品质、可察看性、治理和团队合作的一体化平台。它是倒退最快的开源我的项目之一,领有充满活力的社区,并被各行业垂直畛域的泛滥公司采纳。OpenMetadata 由基于凋谢元数据规范 /API 的集中式元数据存储提供反对,反对各种数据服务的连接器,可实现端到端元数据管理,让您能够自在地开释数据资产的价值。
目前 OpenMetadata 在 Github 标星 2.5k,并刚刚更新了 1.1 版本。
思考局部同学网络问题,可在大数据流动后盾回复“OpenMetadata1.1”进行源码和安装包下载,有效期一个月。
OpenMetadata 包含以下内容:
- 元数据模式 – 应用类型、实体和实体之间关系的模式定义元数据的外围形象和词汇。这是凋谢元数据规范的根底。还反对具备自定义属性的实体和类型的可扩展性。
- 元数据存储 – 存储连贯数据资产、用户和工具生成的元数据的元数据图。
- 元数据 API – 用于生成和应用基于用户界面模式以及工具、零碎和服务集成构建的元数据。
- 摄取框架 – 用于集成工具并将元数据摄取到元数据存储的可插入框架,反对大概 55 个连接器。摄取框架反对家喻户晓的数据仓库,如 Google BigQuery、Snowflake、Amazon Redshift 和 Apache Hive;MySQL、Postgres、Oracle 和 MSSQL 等数据库;Tableau、Superset 和 Metabase 等仪表板服务;音讯服务,如 Kafka、Redpanda;以及 Airflow、Glue、Fivetran、Dagster 等管道服务。
-
OpenMetadata 用户界面 – 用户发现所有数据并就所有数据进行合作的繁多地位。
外围性能
- 数据合作 – 通过流动源获取事件告诉。应用 webhook 发送警报和告诉。增加布告以告诉团队行将产生的更改。增加工作以申请形容或术语表术语批准工作流程。增加用户提及并应用对话线程进行合作。
- 数据品质和分析器 – 标准化测试和数据品质元数据。将相干测试分组为测试套件。反对自定义 SQL 数据品质测试。有一个交互式仪表板能够深刻理解详细信息。
- 数据血统 – 反对丰盛的列级因循。无效过滤查问以提取因循。依据须要手动编辑谱系,并应用无代码编辑器连贯实体。
- 全面的角色和策略 – 解决简单的访问控制用例和分层团队。
- 连接器 – 反对连贯到各种数据库、仪表板、管道和消息传递服务的 55 个连接器。
- 术语表 – 增加受控词汇来形容组织内的重要概念和术语。增加词汇表、术语、标签、形容和审阅者。
- 数据安全 – 反对 Google、Okta、自定义 OIDC、Auth0、Azure、Amazon Cognito 和 OneLogin 作为 SSO 的身份提供商。此外,还反对 AWS SSO 和 Google 基于 SAML 的身份验证。
三、装置过程
次要应用 Docker 的装置形式,几分钟就能够搞定。
首先查看 python 版本。
python3 --version
须要 python 3.7 3.8 3.9 三个版本都能够。
查看 docker 版本。
docker --version
20.10.0 或者更高的版本。
docker compose version
须要 docker compose 2.1.1 或者更高的版本。
建设文件夹
mkdir openmetadata-docker && cd openmetadata-docker
创立虚拟环境。
python3 -m venv env
虚拟环境失效。
source env/bin/activate
更新 pip
pip3 install --upgrade pip setuptools
装置 openmetadata
pip3 install --upgrade "openmetadata-ingestion[docker]"
确定装置胜利
metadata docker --help
启动容器
metadata docker --start
启动 postgre
metadata docker --start -db postgres
随后拜访
http://localhost:8585
胜利!
四、性能演示
首页展现
多语言反对
概览页面
数据品质监控页
数据资产
业务术语表性能
一些数据源的配置。
未完待续~
更多大数据、数据治理、人工智能相干常识分享,请关注大数据流动。
本文由博客一文多发平台 OpenWrite 公布!