关于数据分析:极客星球-数据治理一体化在MobTech金融风控场景下的实践

14次阅读

共计 2169 个字符,预计需要花费 6 分钟才能阅读完成。

编者按: 8 月 28 日,由 Datafuntalk 发动的 DataFunSummit 数据安全与治理峰会在云端举办。MobTech 袤博科技受邀加入,大数据架构专家陈远光分享了数据治理一体化在 MobTech 金融风控场景下的实际和利用案例,带你走进数据利用与治理一体化的世界。

一、企业数据治理的必须性与益处

武侠世界里有句话:“有江湖的中央就有是非。”同样,有数据的中央就须要治理。对于数据智能公司来说,面对海量的数据,不同的数据源、不同部门人员应用、不同的业务剖析需要以及不同的利用形式等不确定因素纠集在一起,如果布局治理不当,很容易呈现各类问题:

1. 零碎林立,数据孤岛,数据烟囱式倒退没有无效的交融;

2. 数据冗余,不足布局,数据存储凌乱,建模不合理,数据应用单次后果导向型,没有统一规划,造成存储和计算资源的节约和治理的凌乱;

3. 对数据应用需要不明确、不对立,造成二次开发,数据复用率低、治理难度大;

4. 最直观的后果就是数据品质低下,企业数据无奈深度开掘深,理论价值没有展示进去。

数据治理毫无疑问须要企业后期投入大量人力物力建设,前期规范化应用也会很“麻烦”,须要制度化束缚治理开发人员的日常施行。那么数据治理对于企业来说,值不值投入呢?

二、从哪些角度做数据治理

数据治理是一个很大的领域,从数据积淀、数据存储、数据分析到数据的利用输入,都离不开数据的平安与治理。在整个数据链路的过程中外面任何一个模块都有很大的建设空间。但总的来说数据治理是一整套的方法论,即成熟的数据治理体系化、模块化、工程化。

对企业来说,如何系统化规划设计数据治理一体化架构呢?MobTech 袤博科技基于多年的数据管理和治理教训,形象出如下四大数据治理维度。当然每个企业应该依据本人公司理论状况,如数据规模,业务场景,数据特点等因素有抉择有重点的建设自数据治理体系。前者越简单,规模越大,须要的数据治理的性能越欠缺,治理的细节越丰盛,指标体系越健全。

三、数据智能企业数据治理一体化架构建设

罗马不是一日建成的,数据治理一体化架构也是随着公司的业务倒退,海量数据积淀,需要繁巨,治理难度大等现状逐渐迭代才有了明天较为欠缺的规模。

截止至以后,公司整个数据管理平台形象出 5 大零碎,协同保障 SLA。别离是平安管理系统、资产管理系统、数据品质零碎、模型管理系统以及监控告警零碎,上面别离进行具体的解说。

1. 平安管理系统

首先数据安全从最根本的数据容灾,异地灾备机房的建设,数据存储的多正本机制等方面从硬件根底层面保障数据的平安;其次数据层面数据合理化采集,敏感数据脱敏,数据通过网路加密传输,加密存储等形式,最终实现符合国家数据安全要求的数据合规。对于企业来说,存储数据后,数据的应用,如怎么通过分级来做权限的隔离等;同时企业也须要通过建立健全欠缺的数据管理制度,数据审批制度等来进一步束缚数据的应用,保障企业数据的平安。MobTech 立志构建全方位的数据安全管理系统,从多维机制保障数据的平安。

2. 数据模型管理系统

共分为四大模块:

1)模型创立:
如模型设计、数仓的分成、抉择哪个主题、模型的命名、类型、模型中词根抉择。模型建模抉择是维度建模还是 anchor 模式、公共维度和关联关系如何解决等;

2)模型校验:
数仓模型规范性检测,如模型中罕用词汇是否在词库中,四大词库、根底词库、金融词库、天文词库、营销类词库、字段一致性校验;如字段有没有加 COMMENT,分层存储格局是否正确等;如模型的反复率(防止构建大量反复模型)判断等;

3)模型审核:
生产公布要求小组负责人代码 review、代码标准、模型标准、有没有呈现跨层调用数据状况、分层主题设计是否正当、模型是否合乎维度建模标准等等。这些都没问题,才能够审批上线;

4)模型保护:
模型的批改,要保留历史版本控制,变更需增加正文;模型的废除高低线监测。

3. 资产治理平台

次要功能模块如上图,血统这块是咱们自主基于 hive Hook,spark Listener 等定制开发的。整个资产平台分成四大模块,有供开发人员应用的血统链路剖析、元数据管理、检索等,也有供 Boss 提供决策依据的资产全景看板等。

4. 调度监控告警管理系统

平台基于 Apache dolphinscheduler 开源版本进行二次定制化开发,新增了很多模块化性能,如工作治理,工作治理剖析模块。工作治理模块,基于 YARN API 接口收集到 Job 日志信息对工作运行状况 T + 1 施行诊断,通过特定算法对工作运行评分,举荐优化,如参数是否正当,工作是否长尾景象,工作监控统计治理等性能,保障工作运行更稳固,计算性能更强劲,资源投入产出比更高。

5. 数据品质监控零碎(QC)

次要联合调度零碎,嵌入式二次开发,通过熔断机制解决了 QC 零碎传统的资源节约问题。传统 QC 零碎通过工作后配置依赖的品质监控工作,监控异样后告警,然而不会对上游工作的执行进行阻断,告警解决后上游工作仍须要重跑,浪费资源。

MobTech 的 QC 零碎通过可选框式配置品质监控规定,配置提交后后盾主动生成依赖监控工作,可选式配置工作熔断选项。这样一旦触发熔断机制,该工作的上游所有工作都会暂停,期待该告警的解决或者疏忽,达到缩小资源的节约和升高集群的负载。

数据治理一体化对于每个企业来说都是任重道远的过程,MobTech 始终在路上,欢送大家独特探讨交换。

正文完
 0