Dataphin(智能数据建设与治理)是阿里巴巴团体数据治理方法论基于外部实际的产品化输入,致力于帮忙企业用中台方法论治理企业级好数据,构建起品质牢靠、生产便捷、生产平安经济的企业级数据中台。
Dataphin V3.6 版本全新上线概念建模、基线运维、全域数据品质监控、数据规范规范落标映射等外围性能,为企业建设贯通事先、事中、预先的全链路数据治理能力添砖加瓦,助力晋升资产价值。
新版本升级后,能够更高效地帮忙大家做什么呢?来看几个小场景,就高深莫测了。
· 自动化基线运维代替人工监控
“有了基线运维性能,数据研发同学再也不必天天盯着屏幕看外围工作是不是都开始运行了,也不必常常查看是不是漏配了监控,还能提前收到危险预警,预留短缺的解决工夫,大大减少了工作量”
· 开箱即用,助力全面晋升数据品质
“降级后开发同学不仅能监控仓内表的品质状况,还能监控数据源内的表,在数据引入环节就能发现品质问题,将危险前置。同时因为 Dataphin V3.6 版本内置了丰盛的品质规定模板,不必写 SQL 也能配置出反对灵便业务需要的监控规定了,再也不怕业务小哥给来提需要了。”
· 简化补数据配置,数据回刷更快更稳
“以往配置补数据工作时,最怕误选了暂停调度的节点,整个补数据过程都可能被阻断。有了一键过滤暂停调度工作这个性能,能够释怀补数据了,操作效率飞涨。”
· 灵便的脱敏配置,适配业务需要
“经营同学说性别维度能够用来做分组条件,只在展现的时候脱敏就行啦;财务同学说薪资是绝密数据,肯定要在查问时就脱敏,从根本上杜绝数据泄露;有了脱敏策略配置,再也不怕这种灵便多变的需要。”
Dataphin V3.6 版本升级性能点
1、贯通事先布局、事中监控、预先稽核的全链路数据治理能力
· 概念建模:可视化定义基于理论业务场景形象出的业务实体及关系,以更好地反映业务之间的分割,并为逻辑模型建设提供根据。
· 智能基线监控:反对配置天基线,增加须要保障的要害工作或字段后,零碎可基于依赖关系主动圈选须要纳入监控范畴的工作,同时反对配置灵便的告警规定及接管形式,以升高人工运维老本。
· 全域数据品质:拓展反对针对多种数据源表的品质监控,内置丰盛的品质规定模板,同时反对基于业务场景自定义监控规定,以晋升配置灵活性和业务监控覆盖面。
· 数据规范落标:新增反对批量导入数据规范,晋升配置效率;反对基于规范属性和字段元数据进行关联映射配置,实现规范和资产的关联,作为后续落标稽核的根底。
2、拓展多引擎、多类型数据源、多音讯渠道,满足企业多元化数智利用需要
· ADB 引擎适配:新增适配以 AnalyticDB for PostgreSQL 作为计算引擎,可反对数据集成、离线 & 实时数据研发、数据品质、资产平安、数据服务等性能,助力企业构建对立的数据仓库平台。
· 数据源拓展:新增反对达梦数据源可用于离线集成、晋升对国产数据库的反对度;Hive 及 HDFS 的数据源减少 EMR 版本抉择,实时集成输入组件新增反对 Hive,加强对 Hive 数据源的适配度。
· 自定义音讯渠道:反对自定义音讯发送渠道,通过配置化的形式实现与阿里云电话 & 短信、企业自有音讯渠道的对接,以接管工作监控、品质监控、数据服务监控等告警信息。
3、研发体验优化,减速企业数字能力建设
· 编辑器优化:优化报错提醒,可疾速定位到错误代码行并提醒谬误起因及修复倡议;新增 set 参数提醒,可查看参数的默认值、类型及阐明,晋升数据开发效率。
· 集成组件优化:Orcale 组件适配特殊字符的解决以缩小运行报错,hologres 组件反对填写 SQL 筹备及实现语句,hana 组件反对小写表名等,升高集成工作配置老本
· 补数据优化:反对一键过滤上游暂停调度的工作及其全副上游,以保障补数据整体链路可失常执行,缩小人工筛选老本
· 脱敏形式拓展:反对配置底层查问间接过敏或仅展现脱敏,以反对简略的 where/join 等子查问场景,对业务应用更敌对
重点个性介绍
个性 1:根底研发版反对 AnalyticDB PostgreSQL 计算引擎
利用场景:构筑可线性扩大的企业数据仓库服务,减速企业数据分析和经营体系搭建
AnalyticDB PostgreSQL 强兼容 PG/Greenplum 开源生态,兼容 Oracle/TD 语法生态,具备秒级弹性和数据共享等国内当先的产品能力;反对简单 SQL 优化、海量数据关联聚合、资源负载治理,可提供 PB 级企业数据分析服务。
Dataphin 根底研发版反对以 AnalyticDB PostgreSQL 作为计算引擎,用户现有的 OLTP 数据库实例,如 RDS MySQL,PostgreSQL,或传统数据库实例 Oracle,SQL Server 等,均能够通过 Dataphin 的数据集成和调度能力同步到 AnalyticDB PostgreSQL;联合数据品质监控、平安分类分级及脱敏配置等性能,买通入库、荡涤、剖析和洞察的全链路,助力企业构建对立的数据仓库平台,减速面向业务场景的数据分析和经营体系搭建。
个性 2:概念建模
利用场景:可视化定义基于理论业务场景形象出的业务实体及关系,为逻辑模型建设提供根据
主题域层级从 1 级拓展到最多 5 级,企业可基于主题域更好的构建资产类目体系,实现数据分层治理。
新增概念建模能力,在数仓布局及数据架构设计阶段,反对可视化配置基于理论业务场景形象出的业务实体及其之间的关系,并以实体关系流程图的模式直观展现,有利于数据消费者更好了解数据和数据对应的业务。如制造业中的“原材料洽购”场景,能够形象出“客户、订单、原材料商品、地址”等业务对象,以及“供应商询价、下洽购单、财务预付款、供应商发货、到货签收、财务付尾款”等业务流动。
此外,业务实体间的关系类型,在原有关联, 继承, 层级的根底之上, 新增前后序、流转、蕴含关系, 以便更准确的反映实在业务联系。如:“洽购”流程蕴含“供应商发货”和“到货签收”两个事件,两个事件之间是流转关系,而“洽购”是“供应商评审”的后续流程。
概念模型创立实现后,可基于定义的业务实体疾速创立对应的逻辑表,默认继承实体之间的关系并主动翻译为数据表之间的关联逻辑,实现概念模型和逻辑模型的映射,为模型开发提供业务输出和领导。
个性 3:基线运维
利用场景:保障外围业务数据的产出工作,及时发现异常并预警,升高对业务用数的影响
1、增加须要保障的工作或字段后,零碎将基于依赖关系主动推算须要纳入监控范畴的上游节点,升高人工配置老本。
配置时只须要关注须要保障产出及时性的外围业务数据对应的工作或字段即可,而无需关怀整体依赖链路的上游节点,零碎将基于工作之间的依赖关系主动推导计算须要纳入监控范畴的节点。这样一来,即便更新了工作依赖关系,也无需更新基线配置,大大降低了人工操作老本;同时也晋升了监控准确性,防止因为配置不同步而导致的监控缺失。
2、可自定义配置基线整体的预警及破线告警、基线监控范畴内单个节点的运行出错或变慢告警,便于及时发现异常并解决。
能够将须要保障数据的预计产出工夫配置为基线的“保障工夫”;同时能够依据工作复杂度和业务重要水平,预估工作运行出现异常可能须要的解决工夫,将其配置为基线的“余量”,承诺工夫 - 余量即为基线的预警工夫。周期运行过程中,零碎将依据基线链路上每个节点最近 7 天的历史运行详情,推算保障节点的预计运行实现工夫。如果推算出的工夫晚于配置的预警及承诺工夫,则会发送基线告警,给开发人员和业务人员对应的告诉。
此外,还能够给基线链路上的单个工作或字段配置运行变慢或运行出错的告警,便于尽早发现可能呈现的异样并解决,保障业务数据能失常产出。
3、反对查看每条基线的运行详情,如果存在预警或破线的危险,可自动识别定位到要害门路上的要害实例,便于开发运维人员间接解决,缩小人工剖析定位。
个性 4:数据规范
利用场景:反对规范和资产的映射关联,以作为品质稽核的参考,晋升企业资产治理程度。
1、规范属性配置优化,反对批量导入数据规范,晋升配置效率。
反对配置属性字段的取值类型(自定义输出、枚举单选、枚举多选)及取值束缚,同时也可援用码表作为枚举取值起源,以加强规范定义的规范性。如,指标的“业务分类”属性须要来源于企业的“业务零碎”码表、“字段长度”属性的取值范畴须要限度在 0~128 字符等。
反对下载规范定义模板,并通过上传 Excel 文件形式批量导入数据规范,实现历史规范的批量迁徙入库。反对查看导入执行日志;反对配置导入抵触解决策略;反对一键下载异样记录及异样提醒,以晋升配置效率。
2、反对基于规范属性和元数据字段进行关联映射配置,实现规范和资产的关联,作为后续落标稽核的根底。
反对将规范属性和资产元数据进行关联映射配置,实现规范和资产的关联。能够在资产目录查看字段及指标的落标映射后果,以便参考映射到的规范定义进行开发,将数据治理前置到研发链路。针对不满足关联规范的资产,能够尽早进行整改,晋升企业整体数字能力建设的标准化成熟和资产的衰弱度。
3、反对码表、词根的定义及治理。
码表可用于束缚规范属性字段的取值范畴,晋升规范定义的准确性;词根可作为数据表、字段等研发对象命名的参考根据,晋升研发规范性。
个性 5:全域数据品质
利用场景:通过对全域数据表及数据源的监控,将数据品质危险前置,进一步晋升资产衰弱度。
1、反对计算引擎内及多种数据源表的品质监控,反对数据源连通性及表构造异动性监控。
数据品质模块分为域内版和全域版。其中,域内版能够针对计算引擎内的物理表及字段,以及 Dataphin 特有的逻辑表、指标和实时元表进行品质监控;同时还反对对已创立数据源的连通性以及监控范畴内的表构造异动性进行监控。全域版在反对计算引擎内物理表的根底上,还反对 10 余种数据源的表监控,如 MySQL、Oracle、Hana 等。联合应用全域版和域内版的性能,可能拓展可监控的资产对象类型,将数据品质危险前置,升高对后续研发链路的影响。
2、基于 DAMA 体系内置丰盛的品质规定模板,开箱即用;可自定义监控规定并反对配置规定触发形式,以灵便适配多样化的业务需要。
基于 DAMA(国内数据资产治理协会)体系,Dataphin 品质模块内置完整性、唯一性、及时性、一致性、有效性、稳定性 6 类场景的零碎模版及规定,大大降低应用门槛;反对自定义 SQL 的形式创立规定模版,以灵便适配多样性的业务需要。此外,反对配置灵活多样的规定触发条件,如定时触发、代码运行触发、任务调度触发等,可满足不同的开发场景。
3、主动生成品质监控报告,反对查看下载异样数据,可作为品质整改的参考。
个性 6:编辑器优化
利用场景:优化报错及参数主动提醒,晋升开发效率和应用体验。
1、报错提醒优化:反对疾速定位到错误代码行并标识谬误语句,提醒谬误起因及修复倡议;可自动识别不标准的代码语句,反对一键修复或疏忽揭示。
2、反对 set 参数提醒:提醒可选的参数,并反对查看参数的默认值、类型及阐明;指定参数后,如有默认值或枚举值,主动提醒可选值。
个性 7:实时集成反对增量同步到 Hive
利用场景:实时增量从 MySQL 或 Oracle 抽取数据同步到 Hive
反对批量在 Hive 指标库主动建表,可主动为指标表增加零碎附加字段;反对解决 DDL,如新增表、删除表、表构造变更等 8 种场景;提供预览字段性能,可查看源表与指标表字段的差别比照,缩小手动建表操作。反对智能查看指标表规范性及可用性,针对异样后果给出告警、谬误等不同等级的提醒,将问题前置以升高工作运行谬误的可能性。
此外,新增实时集成工作的提交详情,异样及危险提醒高深莫测,校验流程透明化。
个性 8:离线集成组件优化
利用场景:适配多种数据源的非凡逻辑及异样解决,晋升集成工作配置晦涩度。
输出组件,对 PostgreSQL、AnalyticDB for PostgreSQL 类型的数据源,在应用 QuerySQL 形式时,反对增加常量字段
Hana 组件反对小写表名
因为 AnalyticDB for PostgreSQL 仅反对在建表时指定分区字段,不反对后续增加,因而在整库迁徙指标数据源为 AnalyticDB for PostgreSQL 时,主动增加分区字段,以适配须要创立分区的场景
Hologres 输入组件反对填写 SQL 筹备语句和实现语句
优化 Oracle 起源表带有特殊字符(如 /)时的解决策略,使离线管道工作能失常运行而无需应用自定义组件,升高配置老本
个性 9:补数据反对过滤暂停节点
利用场景:批量选中多层节点进行补数据,可一键过滤暂停节点,防止阻断补数据工作执行。
调度形式为“暂停调度”的工作,生成的补数据实例默认为暂停运行。暂停运行的节点会阻断上游其余实例的运行,此外如果抉择了多个补数据业务日期且设置为周期间串行(即并发分租数为 1),还会影响后续业务日期实例的执行,阻断整个补数据过程。
基于该背景,Dataphin 新增反对在配置补数据工作时,可一键过滤暂停调度的工作极其上游节点。此外某些场景下,暂停调度的工作在补数据对应的业务日期下须要失常参加调度,如每月第一天运行的财务月结算工作,须要在指定的长期结算日期运行。针对这种场景,新增反对配置选中的暂停工作在选中的补数据业务日期的运行形式,可选空跑、失常运行、暂停运行,以灵便适配多样性的业务求。
个性 10:脱敏规定反对配置脱敏形式
利用场景:通过配置查问时不脱敏仅展现脱敏,以反对简略的 where/join 等条件,对业务应用更敌对
数据开发中,经常对一些敏感字段须要配置脱敏规定,以保障数据安全。默认状况下,在整个研发链路中,配置了脱敏规定的数据均应用脱敏后的后果参加计算,会导致 where/join 等条件不失效的问题,影响业务应用。基于此背景,Dataphin 反对针对脱敏规定配置不同的脱敏形式:
底层脱敏:在数据被查问时就进行脱敏。SQL 的处理过程中,均应用脱敏后的后果解决,能对数据起到更好的爱护成果
仅展现脱敏:在数据被查问时不进行脱敏,仅在最初对外展现的时候进行脱敏。SQL 处理过程中,均应用原文进行解决,因而能够反对简略的 where/join 等条件,对业务应用更敌对。须要留神的是,如果对敏感字段应用 UDF 解决(如字符串截取),会触发脱敏降级,该字段生成的衍生字段会对立降级为 *。
通过该能力,开发人员能够依据不同的应用场景配置不同的脱敏策略,以更好地适配业务需要,均衡好数据安全性和应用灵活性。
个性 11:自定义音讯渠道
利用场景:快读对接阿里云电话 / 短信以及企业自有音讯渠道,以获取告警及音讯告诉
反对实例级别和租户级别的自在配置,不同租户可开启不同的音讯渠道。反对疾速对接阿里云的电话及短信渠道,或通过简略的参数配置对接企业自在的音讯渠道。配置实现后,反对发送测试音讯,以疾速验证渠道可用性,保障音讯可失常发送。
个性 12:跨租户公布配置优化
利用场景:导入导出配置优化,反对对接内部存储系统,公布流程更顺畅
1、导出文件配置优化:
新增可设置“是否导出建表语句”;如设置了导出,可在待发布对象列表下载建表文件
新增反对设置“是否运行下载公布文件”
新增反对公布文件内部存储设置(本期反对启用 OSS 存储),可设置导出实现后“是否主动转存内部存储”,并反对设置同名文件抵触解决策略;若开启内部存储,待发布对象列表可一键转存并查看转存记录
2、导入数据源校验优化:
依照“数据源名称”进行匹配,如有名称雷同的数据源则校验数据源类型,类型统一则认为在指标环境匹配胜利
如果未匹配到同名数据源,仅提醒危险,不阻断公布(可能导致依赖对应数据源的工作公布失败)
总结与瞻望
本次公布的 V3.6 版本中,Dataphin 围绕数据资产建设、数据资产治理、根底平台等三大性能板块进行了齐备性、安全性、研发效率、开放性、稳定性、易用性、可交付性等方面进行了优化和降级。
在下一个版本中,咱们将继续晋升资产建设平台的易用性及可交付性、资产治理平台的齐备性以及根本户平台的稳定性和开放性进行迭代,敬请期待!