关于存储:Apache-Atlas-数据血缘

6次阅读

共计 6467 个字符，预计需要花费 17 分钟才能阅读完成。

数据血统跟踪、记录、展现了数据来自何处，以及在数据流转过程中利用了哪些转换操作，它有助于追溯数据起源及处理过程。

数据血统零碎的外围性能：

数据资产的主动发现及创立
血缘关系的主动发现及创立
不同视角的血统及资产剖析展现

与数据血统容易混同的概念：数据起源。数据起源重点在于跟踪数据的原始起源，包含与数据相干的采集、规定、流程，以帮忙数据工程师评估数据的品质。

Atlas 是一套可伸缩且可扩大的数据治理服务，使企业可能无效和高效地满足其在 Hadoop 生态中的合规要求，并容许与整个企业数据生态系统集成。

Atlas 为组织提供凋谢的元数据管理和治理能力，以建设其数据资产目录、对这些资产进行分类和治理，并为数据科学家、分析师和数据治理团队提供围绕这些数据资产的合作能力。

元数据及实体

预约义的 Hadoop 及非 Hadoop 零碎的元数据类型。

基于 Rest API 的类别及实体治理

类别及实体的主动捕捉

数据血统

血统主动捕捉

可探查的数据血统展现

基于 Rest API 的数据血统治理

搜寻

可按数据资产类别，实体及属性的搜寻

基于 Rest API 的简单搜寻

类 SQL 的搜寻语言

平安及敏感数据遮蔽

元数据拜访的细粒度管控。

与 Apache Ranger 集成，进行基于实体分类的受权及数据遮蔽。

分类

类别主动发现

实体类别标签自动化

基于血统分类流传

（一）工程师视角

数据工程师通常心愿看到数据处理细节的血统，例如数据处理过程中的 mapping，de-duplicate，data masking，merge，join，update, delete, insert 等诸如此类的操作，这样便于在数据呈现问题的时候不便他们进行回溯剖析定位。

（二）业务用户视角

业务用户通常心愿看到数据从哪里来，通过了那些要害的解决环节，每个解决环节是谁来负责，他们通常不关怀诸如 merge，join 等十分技术细节的操作。例如：

在这个典型的用户视角内，最左侧的数据原始发源地，以及爬虫，ftp 这些要害节点事实上很难被 Apache Atlas 主动发现和治理，在 Apache Atlas 内这部元数据通常须要手工捕捉。

依据 Apache Atlas 版本个性来看，1.0 并不反对实体类型的图标定制化性能。2.1 的版本反对实体类型图标定制化性能，哥尼斯堡七桥问题胜利阐释了一幅图胜过一言半语，同时也诞生了一个全新的学科：图论，抉择合乎业务理论场景的实体图标类型，往往能缩小很多不必要的解释阐明。

留神：Apache Atlas 不是一个能够同时兼容两种血统视角的软件。理论场景，手工捕捉缺失的要害实体类别及实体信息，造成残缺的数据血缘关系。

Apache Atlas 提供了两种构建模式：

规范模式

规范模式通常用于部署在生产环境中。

mvn clean -DskipTests package -Pdist

* 左滑查看更多

嵌入式模式

嵌入式构建模式提供了开箱即用的性能，通常用于 PoC 或者小规模场景。

预打包 Hbase 及 Solr

mvn clean -DskipTests package -Pdist,embedded-hbase-solr

* 左滑查看更多

其中 Hbase 为 Atlas 图库提供存储，而 Solr 则负责为 Atlas 提供搜寻。

预打包 Cassandra 及 Solr

mvn clean package -Pdist,embedded-cassandra-solr

* 左滑查看更多

其中 Cassandra 为 Atlas 图库提供存储，而 Solr 则负责为 Atlas 提供搜寻。

不管抉择哪种构建模式，防止配置阿里的 Maven 镜像仓库，因为短少局部依赖包而无奈实现构建，在构建过程中，至多保障有 20GB 的可用空间，构建会在少于 2 小时内实现。

以嵌入式 embedded-hbase-solr 为例部署一个疾速原型的环境。

#!/bin/bash
# This script was tested in EMR 6.3 environment.
# The "embedded Apache HBase & Apache Solr" was tested.

# Create apache directory
sudo mkdir /apache 
sudo chown hadoop.hadoop /apache

# Download JDK
cd /apache
wget https://corretto.aws/downloads/latest/amazon-corretto-11-x64-linux-jdk.tar.gz
tar xzf amazon-corretto-11-x64-linux-jdk.tar.gz

# Download Atlas-2.1.0
# ---------------start---------------
cd /apache
# Please upload your compiled distribution package into your bucket and grant read permission.
curl -O https://your-s3-bucketname.s3.amazonaws.com/apache-atlas-2.1.0-bin.tar.gz
tar xzf apache-atlas-2.1.0-bin.tar.gz
# Configuration
# atlas-env.sh 
# 20 export JAVA_HOME=/apache/amazon-corretto-11.0.12.7.1-linux-x64
sed -i "s%.*export JAVA_HOME.*%export JAVA_HOME=/apache/amazon-corretto-11.0.12.7.1-linux-x64%" /apache/apache-atlas-2.1.0/conf/atlas-env.sh 
sed -i "s%.*export JAVA_HOME.*%export JAVA_HOME=/apache/amazon-corretto-11.0.12.7.1-linux-x64%" /apache/apache-atlas-2.1.0/hbase/conf/hbase-env.sh 

# atlas-application.properties 
# 104 atlas.notification.embedded=false
# 106 atlas.kafka.zookeeper.connect=localhost:2181
# 107 atlas.kafka.bootstrap.servers=localhost:9092
sed -i "s/atlas.graph.index.search.solr.zookeeper-url.*/atlas.graph.index.search.solr.zookeeper-url=localhost:9983" /apache/apache-atlas-2.1.0/conf/atlas-application.properties 
sed -i "s/atlas.notification.embedded=.*/atlas.notification.embedded=false/" /apache/apache-atlas-2.1.0/conf/atlas-application.properties 
sed -i "s/atlas.kafka.zookeeper.connect=.*/atlas.kafka.zookeeper.connect=localhost:9983/" /apache/apache-atlas-2.1.0/conf/atlas-application.properties 
sed -i "s/atlas.kafka.bootstrap.servers=.*/atlas.kafka.bootstrap.servers=localhost:9092/" /apache/apache-atlas-2.1.0/conf/atlas-application.properties
sed -i "s/atlas.audit.hbase.zookeeper.quorum=.*/atlas.audit.hbase.zookeeper.quorum=localhost/" /apache/apache-atlas-2.1.0/conf/atlas-application.properties
# ---------------end---------------


# Solr start
# ---------------start---------------
# Export environment variable
export JAVA_HOME=/apache/amazon-corretto-11.0.12.7.1-linux-x64
export SOLR_BIN=/apache/apache-atlas-2.1.0/solr/bin
export SOLR_CONF=/apache/apache-atlas-2.1.0/conf/solr

# Startup solr
$SOLR_BIN/solr start -c 

# Initialize the index
$SOLR_BIN/solr create_collection -c vertex_index   -d $SOLR_CONF 
$SOLR_BIN/solr create_collection -c edge_index     -d $SOLR_CONF 
$SOLR_BIN/solr create_collection -c fulltext_index -d $SOLR_CONF 
# ---------------end---------------

# Config the hive hook
# ---------------start---------------
sudo sed -i "s#</configuration>#   <property>\n     <name>hive.exec.post.hooks</name>\n     <value>org.apache.atlas.hive.hook.HiveHook</value>\n   </property>\n\n</configuration>#" /etc/hive/conf/hive-site.xml
sudo cp /apache/apache-atlas-2.1.0/conf/atlas-application.properties /etc/hive/conf
sudo sed -i 's%export HIVE_AUX_JARS_PATH.*hcatalog%export HIVE_AUX_JARS_PATH=${HIVE_AUX_JARS_PATH}${HIVE_AUX_JARS_PATH:+:}/usr/lib/hive-hcatalog/share/hcatalog:/apache/apache-atlas-2.1.0/hook/hive%' /etc/hive/conf/hive-env.sh
sudo cp -r /apache/apache-atlas-2.1.0/hook/hive/* /usr/lib/hive/auxlib/
sudo systemctl stop hive-server2
sudo systemctl start hive-server2
# ---------------end---------------

# Start atlas
# ---------------start---------------
# Initialize will be completed in 15 mintues
export MANAGE_LOCAL_HBASE=true
export MANAGE_LOCAL_SOLR=true
python2 /apache/apache-atlas-2.1.0/bin/atlas_start.py
python2 /apache/apache-atlas-2.1.0/bin/atlas_stop.py
python2 /apache/apache-atlas-2.1.0/bin/atlas_start.py
# ---------------end---------------


# Download and startup kafka
# ---------------start---------------
cd /apache
curl -O https://mirrors.bfsu.edu.cn/apache/kafka/2.8.0/kafka_2.13-2.8.0.tgz
tar xzf kafka_2.13-2.8.0.tgz
sed -i "s/zookeeper.connect=.*/zookeeper.connect=localhost:9983/" /apache/kafka_2.13-2.8.0/config/server.properties
/apache/kafka_2.13-2.8.0/bin/kafka-server-start.sh -daemon /apache/kafka_2.13-2.8.0/config/server.properties
# ---------------end---------------

* 左滑查看更多

Apache Atlas 尽管内嵌了 Hive/Hbase/Sqoop/Storm/Falcon/Kafka 的 hook，然而除此之外的其余解决引擎的 plugin 极少，例如目前宽泛应用的 Spark/Flink，如果应用这两个计算引擎解决数据，则须要进行定制开发能力捕捉相干的数据血统。

Apache Atlas 是一个典型的类型继承零碎，在追加无奈通过 Atlas hook 或者 plugin 主动捕捉的数据时，必须先理解其类型零碎，及血统的造成原理。而后依据业务须要创立必要的子类型及其实体。

其中绿色标记的为 DataSet 动态子类型，红色标记的为 Process 子类型，Process 实体通过连贯作为输入输出的 DataSet 子类型实体从而造成血缘关系。

捕捉 Spark 数据血统能够采纳以下两大类的形式：

Connector，长处自动化数据捕捉
REST API，长处定制化水平高

（一）spark-atlas-connector

是 Hortonworks 开源的 Connector，最初一次代码更新是在 2019 年 7 月 12 日，从理论的代码编译后果来看，与 Spark 3.1.1 存在兼容性问题。该我的项目默认的配置 (pom.xml)：

Spark 2.4.0
Scala 2.11.12
Atlas 2.0.0

如果是 2.4.0 本的 Spark 能够思考采纳该 connector。

对于该我的项目应用文档的一些补充，如果应用 rest api 形式进行数据的主动填充，请配置以下参数：

rest.address
client.username
client.password

这些配置选项来源于 AtlasClientConf.scala 文件。

（二）spline

是目前活跃度较高的捕捉 Spark 数据血统的开源我的项目，然而它与 Atlas 兼容性不好，而是自成一体，然而该我的项目对于 Spark 的兼容性十分好。

本篇作者

杨帅军

资深数据架构师

专一于数据处理。目前次要为车企提供数据治理服务。

正文完

存储

发表至：存储

2022-01-14

0

关于存储:上手-WebRTC-DTLS-遇到很多-BUG怎么解

关于存储:数据库误操作后悔药来了AnalyticDB-PostgreSQL教你实现分布式一致性备份恢复

关于存储:阿里云视图计算边缘计算的主战场

关于存储:2025年公有云或将服务中国过半数字经济

关于前端:Fabricjs-3个api设置画布宽高

关于存储:Apache-Atlas-数据血缘

01 什么是数据血统

02 Apache Atlas 及其个性

03 数据血统视角

04 Apache Atlas 编译部署

05 手工捕捉数据

06 Spark 与 Apache Atlas

站内搜索