数据价值的开掘正在成为各行各业头部企业的外围竞争力。在同大量企业交换的过程中,Aloudata 发现,一方面企业的“用数需要”日益旺盛,数据分析流动在企业各个职能中广泛开展,业务团队的“数据素养”继续晋升;而另一方面,数据平台侧则面临着日益惨重的建设、开发和管理负担,而业余数据人才的匮乏又进一步加大了 CDO 的压力。
本文尝试从数仓开发角度剖析各种“乱象”产生的起因,提出通过语义化与自动化做“轻”数仓的思路,心愿对企业数据团队有所启发和帮忙。
(注:本文应用“数仓”代指蕴含数据仓库、数据湖等基础设施在内的数据存储与开发平台)
1、用数需要旺盛,加剧数仓“乱象”
在计算机领域,数据仓库是一个比拟“古老”的概念,通过三十多年的倒退,建设了成熟的技术体系与方法论。然而,数据仓库是为稳态的数据分析场景而设计的,典型利用是治理驾驶舱;挪动互联网和云计算的蓬勃衰亡让“大数据”成为必然,不仅数据源、数据类型不断丰富,数据量爆炸式增长,敏态的数据分析需要更成为常态,让传统的数仓分层建模体系招架不暇。
在我国,“数字化转型”让大量传统企业在近十年开始迅速接轨互联网的商业模式和技术体系,很多数据团队来不及打牢数据平台的“地基”,不足成熟标准的数仓建设体系和团队建制,就被业务推动着通过人工开发大量报表的模式满足剖析需要。往往一个需要就是一张宽表,业务分析师 80% 工夫用于发现和筹备数据,ETL 工程师 70% 的工夫用于宽表模型的变更、生成各类汇总表以及数据链路的运维。随着工夫的推移,剖析数据集之间彼此嵌套越来越深,数据链路越来越简单,数据时效、查问性能、指标口径保障日趋艰难,最终造成盘根错节的数据治理难题。
(图 1:“数仓 + BI”模式下的 ETL 工程架构)
此外,业余数据人才的匮乏又进一步加剧了数据平台部门的压力。依据清华大学经管学院公布的《中国经济的数字化转型:人才与待业》报告显示,2021 年我国大数据畛域人才缺口高达 150 万,到 2025 年预计将达到 200 万。很多 ETL 工程师简略学习了 SQL 代码便仓促上阵,报表开发逻辑因人而异,更因团队人员更迭加剧了口径的凌乱和宽表冗余。随着云计算和大数据基础设施的突飞猛进,很多企业近几年经验了屡次的基础设施降级,从本地数仓到本地湖仓,从公有云到私有云,往往每降级一次便意味着一次全局数据的拷贝与搬运。
依据 Aloudata 与泛滥客户交换的状况,企业湖仓数据冗余均匀在 5 倍以上,这意味着大量存算老本的节约。某证券行业数据资产部门负责人认为如施行了无效的数据治理,该企业每年能够节俭超过 1,000 万元的存算老本。而上述问题最终会反映到业务部门用数效率与用数品质的抵触上。不同于管理层的“看数”需要和多数可固化的主题剖析需要,在日常经营流动中普遍存在着“探索性数据分析”场景,这类需要数量多,共性小,并且生命周期短,意味着 ETL 团队要进行频繁的数据模型变更和数据筹备,业务人员无奈疾速、灵便地实现自助剖析。而匆忙无序的宽表开发势必导致口径凌乱,业务人员面临“数据不好找、找了不敢用、用了用不对”的困境。
从根本上说,传统数仓体系重度依赖人工反范式 ETL 作业,实用于高价值、高确定性的高管“看数”场景;而在日常经营敏态“用数”场景下,该模式必然形成“效率、品质、老本”的不可能三角,CDO 的工作便是三者间无尽又艰巨的均衡与取舍。兼之人才缺失与基础薄弱,大量企业的数智化之路举步维艰。
2、探讨一种根治思路——做“轻”数仓
既然依赖人工的反范式 ETL 作业从实质上便不适用于敏态用数场景,那么是否能够跳出固有办法的窠臼,采纳全新的思路和工具实现数据分析“效率、品质、老本”三者兼顾的指标呢?
这正是 Aloudata 团队多年来的外围课题。数据分析过程中发现数据有余是最失常不过也是最广泛的情景,因而须要分析师染指引入更多数据,数据筹备与数据分析被割裂成两个独立的过程,剖析过程被中断;而当探索性数据分析遇到亿级以上数据量的关联剖析场景时,查问性能有余便普遍存在,这时更加依赖 ETL 工程师的染指,经由他们业余评估后,生成各种宽表和汇总表,以及选用更适宜的数据查问引擎,这会导致更加漫长的排期与期待。上述两个常见场景导致业务人员要么在一个“数据缺失”的困境里剖析,要么在一个“IT 驱动”的困境里剖析。
突破上述困境,咱们认为最彻底的计划是实现 NoETL 的“业务自助用数”。有两个关键点:
- 语义化,基于数仓明细数据表造成弱小的数据语义模型,并通过配置化模板点选操作而无需 SQL 反对简单指标定义,造成对立的数据语义层,积淀企业指标语义资产,既逾越了技术与业务之间的语义“鸿沟”,又躲避了剖析时数据有余的问题;
- 自动化,以智能的 ETL 工作引擎,实现主动编排、物化和回收数据管道,罢黜 ETL 工程师大量繁琐反复的工作,最大水平通过 ETL 作业的自动化和智能化确保查问性能,升高冗余老本,对立剖析口径。
在这样的思路下,Aloudata 团队设计、开发了一款自动化的指标平台 Aloudata CAN,其核心技术便是弱小的语义模型和智能的 ETL 工作引擎,通过弱小的指标定义能力与主动物化减速能力实现任意指标可配置化定义、可自动化开发、可凋谢化利用,真正实现指标“一次定义、处处应用”、“一次变更,处处失效”,彻底杜绝指标口径定义的分散化,由零碎代持数仓应用层的 ETL 报表开发作业,实现指标剖析的敏捷性和指标口径的一致性兼顾。
(图 2:引入指标平台,对接明细层数据,零碎代持数仓应用层 ETL)
通过一款弱小的自动化指标平台,企业如何实现做“轻”数仓,兼顾数据分析的“麻利、有序与老本可控”。Aloudata CAN 设计的初衷在于彻底实现数仓应用层的 NoETL,打消凌乱、低效的本源。而实现这一指标有两个前提:可定义:任意指标可基于明细数据被业务人员配置化定义,从而指标的生产才不会回到数仓开发的老路;可查问:零碎可自动化实现“反范式的宽表 / 汇总表”加工,主动实现物化链路编排和查问减速,确保指标口径的一致性和保障大数据量下的查问体验,真正实现“定义即生产”。
Aloudata CAN 间接基于明细数据,利用多表关联的语义模型来定义指标,意味着用户能够跨多个表定义和剖析指标,解决了最常见的数据筹备中断数据分析的痛点;同时,Aloudata CAN 还提供弱小的指标定义函数(如窗口函数、预聚合剖析函数),反对简单指标的配置化定义(例如,近 1 年月日均 AUM 最大值、北向资金净买入额行业应有个股总数)。
在此基础上,Aloudata CAN 还反对更为简单的衍生形式,包含同环比、均值 / 最值、排名、占比、累加等,所有反范式的 ETL 开发过程均由指标平台通过自动生产和主动物化减速代持,确保大数据量下的查问体验。这样的设计,不仅缩小了对 ETL 工程师的依赖,还大大提高了指标加工的灵活性和深度,反对用户可能依据业务需要进行任意维度、任意粒度的数据洞察。
弱小的定义能力与自动化的指标开发能力是 Aloudata CAN 同其余指标平台相比最突出的差别,为了区别于仍旧依赖人工报表开发的指标平台,咱们定义真正具备数仓应用层 NoETL 能力的指标平台为“第三代”。
Aloudata 提倡做“轻”数仓的最佳实际如下:数据团队专一于企业公共层数据的建设,通过标准的数据荡涤和转换等操作保障明细层数据的一致性和准确性,并实现企业数据资产的无效积淀与治理;利用 Aloudata CAN,基于明细层数据实现指标的配置化定义与开发,自动化代持数仓应用层 ETL 作业,实现数据分析的麻利与有序.
依据实在案例验证,通过上述计划,某客户在一条业务线,ETL 团队只须要筹备 10 张公共层明细表实现 100 个原子指标的定义,就能够反对业务人员应用逾 300 个维度与指标组合进行灵便剖析,代替了过来数百张宽表开发与保护的工作。客户反馈 Aloudata CAN 帮忙其在工作量和老本方面真正实现了做“轻”数仓的指标,ETL 作业工作量降落 70%,存算老本节约 50% 以上,同时晋升了业务用数的满意度,解决了数据团队最大的痛点。
3、总结
最初咱们总结一下。从企业数据管理与治理的角度看,终极目标是以最优老本实现数据分析的高效率与高质量,从这个角度来看,做“轻”数仓既是伎俩也是指标,而“第三代”指标平台便是做“轻”数仓的最佳计划。
Aloudata 团队具备在中国最顶尖的数字化企业近 20 年的数据管理业余教训,从中得出的论断是:数仓应用层的大量人工反范式 ETL 开发是“效率、品质、老本”这组矛盾体造成的本源,如果依赖既往教训与门路,将数仓建设与开发、麻利 BI 工具、指标管理工具、数据治理视作彼此独立、相互接驳的工具与办法,最终必将面对此起彼伏的数据窘境,而破局的要害是从新思考,抉择失当的机会落地一套真正实现数仓应用层 NoETL 的解决方案。
从这个意义上来说,Aloudata CAN 不仅仅是一款指标平台产品,更承载了 Aloudata 团队对数据架构、数据管理办法体系多年实际与粗浅思考后,从根源登程力求“根治”的方案设计。咱们期待同更多 CDO 与数据团队建设沟通,独特摸索企业数智化的最佳门路。