企业介绍
该企业是一家集芯片设计、工艺研发、晶圆生产与测试、销售服务于一体的半导体存储器企业,为寰球提供先进的存储产品和解决方案,广泛应用于挪动通信、计算机、数据中心和生产电子畛域。
我的项目背景
数据是企业的重要资产,是企业数字化的根底和前提。在国企数字化转型的过程中,不仅要买通“数据孤岛”,还须要翻越数据品质和数据安全这两座“大山”,而数据治理就是连贯大山的桥梁。本我的项目的建设内容就是从数据接入、转换、利用各个阶段增强数据品质的管控,为团体数仓、数据分析、数据挖掘利用提供规范、牢靠的根底数据撑持。
以后该企业数据资源波及 7000-8000 张数据库表,存储于不同的关系型数据库以及分布式数据库中,每天的增量数据在 1 -2T 左右,在 ETL 过程中须要对数据的及时性、完整性和一致性进行校验。同时须要对相互有关联的业务数据进行业务规定校验,各式各样简单的业务规定逻辑须要依附业务骨干的工作积攒和教训反复推敲能力落地,单靠技术部门的投入难以达到最好的成果。
综上,该企业须要一款独立于业务零碎之外的数据品质治理平台,一方面满足技术部门长效的数据品质管控,另一方面可能造成业务精英为主、技术精英为辅的业务数据梳理体系。
我的项目痛点
1、需反对多样化的数据起源
以后业务数据存储在不同类型的数据库中,蕴含 Oracle/Mysql/SQLServer/Postgresql/Hive/HDFS/Hbase/Kudu/Vertica 等,所选平台须要具备多种数据源的接入机制,并可能基于后续的业务倒退,实用更多的数据起源。
2、需反对繁简不一的规定配置
在数据品质管控过程中,须要进行各种各样的质检规定配置,简略的如空值校验、字段类型校验、值域校验、及时性校验等,简单波及多表关联的逻辑公式校验、完整性校验、一致性校验等,所选平台须要反对多种规定的校验设置,同时还要便于技术能力较弱的业务精英进行操作。
3、需反对海量数据的解决应答
面对海量数据的质检,不仅是数据量大,同时还面临多个质检工作的并发。一方面须要在规定工夫内实现所有测验,另一方面给还须要及时将后果反馈给数据管理者。所选平台须要具备大数据量的解决能力、反对多个质检过程并发,同时还要思考后续数据量越来越大,接入的数据源越来越多的发展趋势,可能反对集群中节点的灵便扩大,满足长期的数据质检须要。
建设内容
数据品质治理平台次要用于解决业务零碎运行、数据仓库建设及数据治理过程中的数据品质问题。它以标准化的数据品质标准为根底,使用数据挖掘、数据分析、工作流、评分卡、可视化等技术帮忙组织建设数据品质管理体系,晋升数据的完整性、规范性、及时性、一致性、逻辑性,升高数据管理老本,缩小因数据不牢靠导致的决策偏差和损失。
零碎次要性能包含质量检查规定治理、绩效治理、工作流治理、品质剖析报表查问、品质报告等。
我的项目建设架构图
1、单点登录
为满足公司外部的通过对立身份认证平台进行数据品质平台的登录,实现了与认证平台的单点登录集成。
2、品质问题实现短信预警
数据品质平台反对依照配置的质检计划主动的执行质检,质检后果会主动的通过邮件或者短信发送到相干责任人,揭示技术人员及时的解决品质问题。
3、反对多种大数据平台数据源的质检
平台除了反对常见的关系型数据库数据进行质检外,还反对 Hive/HDFS/Hbase/Kudu/Vertica 等多种大数据库的数据源接入,可能满足公司后续的业务倒退,实用丰盛的数据类型。
我的项目价值
该企业数据品质治理平台的建设,满足了公司数据品质管控的需要,实现了数据质量检查的主动执行和问题数据短信预警,大大的晋升了业务数据的品质,为公司数仓、数据分析、数据挖掘利用提供规范、牢靠的根底数据撑持。客户对于我的项目整体建设成绩十分称心,通过产品的利用,使各业务条线的数据品质问题失去无效管控,简化技术人员的数据品质问题核查的工作难度,同时极大的晋升了客户的工作效率。
1)数据品质治理平台提供了可视化的页面就能实现数据质量检查工作,大大降低了数据质检的技术门槛,不仅仅只靠公司数据部门的技术人员来晋升数据品质,当初也将业务部门的人员也参加到数据品质晋升工作中,造成业务精英为主、技术精英为辅的业务数据梳理体系。2)数据品质的质检后果实现了短信主动预警,揭示技术人员及时的解决品质问题,晋升了技术部门的数据品质问题管理效率。
3)随着公司业务数据一直增大,大数据平台的利用不断深入,数据品质平台反对多种基于 Hadoop 的数据源的接入进行质检,为公司业务的倒退和品质治理奠定了根底。
以上内容均来自《数据治理精选案例集》,局部目录如下,此书笼罩 13 个行业数据治理策略深度拆解,60+ 政企数据治理标杆案例,300+ 利用场景全面笼罩,1000+ 一线项目管理教训,助您破解数据治理难题。登录亿信华辰官网,增加客服企业微信,回复“案例集”即可收费支付纸质版。