乐趣区

关于算法:数据治理必读|基于Dataphin快速建设高质量数据支撑业务发展

数据品质是数据建设和治理中十分重要的一环。所有的数据利用,不论是用于反对业务发展的数据库,还是用于反对商业决策,或者用于机器学习和人工智能等高级利用,实现数据价值的前提是数据自身是高质量、牢靠的,高质量的数据,能够撑持业务疾速倒退。

数据品质的好坏,间接影响着业务的发展,上面是一些简略的示例:

  •  良好的数据品质 数据撑持业务顺利开展,如更准确的用户偏好,通过举荐进步用户的消费额;更实时的物流信息,优化物流调配和配送效率;更精确的仓储信息,优化仓储补货和治理等及时精确的数据,能够反对高效的商务决策
  •  蹩脚的数据品质 业务发展碰壁,如无奈正确开具发票,导致无奈走财务流程;注销了谬误的用户联系方式,导致货物无人接管等数据谬误导致业务决策出错最好的机器学习算法,遇到数据品质有余时,后果也不如人意

数据品质问题的起源泛滥,业务方面(不足对立的治理标准,导致指标定义不同等)、治理方面(短少欠缺的组织和体系撑持,各环节不能高效协同等)、技术计划(设计和开发脱节,数据采集建设过程呈现各类问题等)都可能导致数据品质变差。

因而在数据建设过程中,数据治理的重要性日益突出。系统地解决数据品质问题,须要从多方面进行优化。Dataphin 数据品质能够帮忙组织积淀业务规定,并通过技术进行自动化的品质校验,同时反对告警、大盘等治理性能,助力企业解决数据品质问题,取得高质量数据来更好反对业务倒退。

发展数据治理,首先要建设「全局视角」全域数据品质是指对客户全场景 / 全数据源下的数据罕用的数据场景,都能够进行数据品质监控,本次降级反对了大部分罕用场景和计算源,并继续扩大中。Dataphin 以后可能对客户在数据处理中罕用到的数据引擎、数据源和数据对象进行数据品质的监控,具体反对的列表如下:

丰盛的规定模板,让管理工作「化繁为简」Dataphin 数据品质,反对对数据表进行完整性、唯一性、及时性、有效性、一致性、稳定性、自定 SQL 等 7 种品质模版,以及其分类下 24 个模版共计 100+ 不同监控指标的品质规定校验,7 种品质模版分类介绍如下:

* 这里仅针对模版的整体能力进行阐明,每一个分类下都有更多的模版和利用场景,详见 Dataphin 产品手册

产品能力速览

1、品质大盘

品质大盘能够展现以后全局的校验规定状况和异常情况,有助于管理员疾速发现整体问题,安顿排查工作。

2、模版治理

模版分为零碎内置模版和自定义模版,零碎模版开箱即用,能够用来疾速创立品质规定。如果组织内有通用的需要(如:用户年龄区间有效性、财务数据准确性等),能够积淀为通用的模版,用于业务品质规定的疾速创立。通过模版治理能够查看品质以后所有的模版信息。

3、品质规定

反对给品质监控对象(如表、数据源)配置品质规定,并设置告警阈值和规定强弱;配置调度后就能够定时或者追随数据更新来主动触发品质的校验工作,实现后主动生成品质报告,并依据校验状况实现告警、阻断等后续操作。

4、校验记录

校验记录能够查看每次校验规定执行的具体后果和详情,是每天检查数据品质和解决品质问题最罕用的入口。Dataphin 品质的校验记录,具体的记录了每次品质规定校验的工夫、状态和执行详情,便于进行日常检查和谬误排查。

5、数据源治理

数据源除了要进行数据品质检测工作外,还要进行日常的业务撑持。为了避免数据品质工作影响到日常业务,反对对单个数据源反对的最大品质并行度进行管制,当达到品质最大并行度时,新调度的品质规定会进入排队期待状态,以爱护业务的失常发展。

退出移动版