乐趣区

关于人工智能:当Atlas遇见FlinkApache-Atlas-220发布

间隔上次 atlas 公布新版本曾经有一年的工夫了,然而这一年元数据管理平台的倒退始终没有进行。Datahub,Amundsen 等等,都在一直的更新着本人的版本。然而仿佛 Atlas 在元数据管理,数据血统畛域的位置始终没有波动。

最近 Atlas 终于迎来又一次大的更新,公布了全新的 2.2.0 版本。

更多 Atlas,数据治理相干技术分享,请关注 大数据流动

首先来理解一下这个版本。

Apache Atlas 2.2 有哪些新性能?

  • 分类流传工作  : 分类流传将作为后台任务解决 (AtlasTask)
  • 从新索引 :增加从新索引作为 JAVA_PATCH 的一部分
  • 模型更改 :创立 JAVA_PATCH 以向现有实体增加新的父类型
  • 导出服务 :在 Atlas 导出 API 中增加了对业务元数据的反对
  • Admin/AtlasTask API : 增加了对 admin/task API 的 HA 反对
  • 实体定义 :提供了向已存在实体定义增加强制性属性

加强性能

  • DSL 搜寻 :增加了对词汇表术语和关系的反对,增加了对空属性值的反对,当初应用 Tinkerpop GraphTraversal 而不是 GremlinScriptEngine 来进步性能,增加了缓存机制来反对 DSL
  • Atlas Python 客户端 :重构和加强的 Atlas Python 客户端,反对 Python 2.7
  • 搜寻 :更新了自在文本搜寻处理器以反对 Elasticsearch,反对带有特殊字符的搜寻文本,优化分页
  • 批量词汇表导入 :改良和加强的批量词汇表导入反对应用关系导入
  • 性能 :进步了 GraphHelper 的 guid 和 status getter 办法的性能
  • 受权 :加强 Atlas 受权,用于增加 / 更新 / 删除实体分类,“admin-audits”用于 Atlas Admin Audits 受权
  • 告诉 :改良了 NotificationHookConsumer,用于大音讯的解决
  • 导出 / 导入服务 :加强的导出 / 导入服务以有条件地反对同步操作和导出条款
  • Hive Hook:增加了对 HiveServer2 Hook 的反对
  • Apache Flink:引入模型来捕捉 Apache Flink 实体和关系
  • GCP:引入模型来捕捉 GCP 实体和关系
  • 依赖降级 :JanusGraph、elasticsearch、JQuery、Http core、Http Client、slf4j、log4j、ant、gremlin、Solr、groovy、netty、Kafka
  • UI:修复了 Atlas Web UI 的一些问题,进步了大量分类和实体的状况下的加载速度
  • Docker 镜像 :加强了对 Docker 的反对

遇见 Flink

Apache Flink:引入模型来捕捉 Apache Flink 实体和关系

也就是说目前 Atlas 曾经默认减少 Flink 能够承受 Flink 的元数据了,然而 Flink 并没有颁布对 atlas 的反对,捕捉并发送元数据这部分还是须要做一些的工作。

Atlas 定义的 Flink 实体:

{
  "entityDefs": [
    {
      "name": "flink_application",
      "superTypes": ["Process"],
      "serviceType": "flink",
      "typeVersion": "1.0",
      "attributeDefs": [
        {
          "name": "id",
          "typeName": "string",
          "cardinality": "SINGLE",
          "isIndexable": true,
          "isOptional": false,
          "isUnique": true
        },
        {
          "name": "startTime",
          "typeName": "date",
          "cardinality": "SINGLE",
          "isIndexable": false,
          "isOptional": true,
          "isUnique": false
        },
        {
          "name": "endTime",
          "typeName": "date",
          "cardinality": "SINGLE",
          "isIndexable": false,
          "isOptional": true,
          "isUnique": false
        },
        {
          "name": "conf",
          "typeName": "map<string,string>",
          "cardinality": "SINGLE",
          "isIndexable": false,
          "isOptional": true,
          "isUnique": false
        }
      ]
    },
    {
      "name": "flink_process",
      "superTypes": ["Process"],
      "serviceType": "flink",
      "typeVersion": "1.0",
      "attributeDefs": [
        {
          "name": "id",
          "typeName": "string",
          "cardinality": "SINGLE",
          "isIndexable": true,
          "isOptional": false,
          "isUnique": true
        },
        {
          "name": "startTime",
          "typeName": "date",
          "cardinality": "SINGLE",
          "isIndexable": false,
          "isOptional": true,
          "isUnique": false
        },
        {
          "name": "endTime",
          "typeName": "date",
          "cardinality": "SINGLE",
          "isIndexable": false,
          "isOptional": true,
          "isUnique": false
        },
        {
          "name": "conf",
          "typeName": "map<string,string>",
          "cardinality": "SINGLE",
          "isIndexable": false,
          "isOptional": true,
          "isUnique": false
        }
      ]
    },
    {
      "name": "flink_application_processes",
      "serviceType": "flink",
      "typeVersion": "1.0",
      "relationshipCategory": "AGGREGATION",
      "endDef1": {
        "type": "flink_application",
        "name": "processes",
        "cardinality": "SET",
        "isContainer": true
      },
      "endDef2": {
        "type": "flink_process",
        "name": "application",
        "cardinality": "SINGLE"
      },
      "propagateTags": "NONE"
    }
  ]
}'

当然 Apache 也在继续的推动:

感兴趣的同学能够关注 Flink-6757 关注最新的停顿,置信很快就会有新的音讯了。

Apache 的一些打算


本文由博客一文多发平台 OpenWrite 公布!

退出移动版