共计 2749 个字符,预计需要花费 7 分钟才能阅读完成。
近日,Kyligence 合伙人兼副总裁李栋受邀缺席 CSDN 云原生系列在线峰会。在第 13 期“古代数据栈峰会”上,李栋从指标中台的趋势和背景登程,围绕指标中台的实在案例,对 Kyligence 实现指标中台的过程及晋升数据分析 ROI 的教训进行了具体分享。
1. 什么是“指标中台”
指标是掂量事物的规范,数据分析的要害就是找到正确指标并取得洞察,并发展经营决策。指标中台(Metrics Store)是当下风行的技术之一。
在传统的数据分析场景中,往往会把数据对立接入到一个数据平台,例如数据湖、数据仓库等技术。通过一系列 ETL 开发后,将数据对接到上游的 BI 或自研的数据利用,数据分析师或业务用户通过查看报表和数据利用来查看指标数据,并对指标进行洞察剖析和开展业务决策。
这种状况下,所有业务指标扩散存储在各个 BI 报表或利用零碎当中,当指标数、用户数越来越多时,数据管理和指标治理会产生很大的凌乱。例如指标在不同报表中呈现同义不同名、同名不同义、数据口径不统一、工夫对不齐等难题,极大升高了业务用户对数据的信念。
指标中台的呈现,旨在通过一个平台对立治理所有业务指标,以及指标背地的数据。指标中台不仅能够解决后面提到的技术挑战,赋能业务人员更自助、更有信念地应用数据,还能帮忙 IT 团队发明更高业务价值。
2. 影响数据分析 ROI 的阻碍
国内某一线互联网企业,早年开始数字化建设,并搭建了数据湖来汇总存储各个起源的数据。依照传统的形式,所有的源表(ODS 表)落到数据湖上后,业务用户无奈间接应用这些源表,须要通过 ETL 开发宽表和聚合表能力被上游业务应用。
这就带来了两方面的问题:
- 宽表爆炸:最后仅有 5.7 k 张 ODS 表,却收缩至近百万张宽表和聚合表,给数据存储和数据管理带来极大累赘;此外,每个宽表都须要 ETL 开发和管理工作,对计算资源和治理复杂度也是很大挑战;
- 难以使用:这么多的宽表和数据表,用户在应用时很难疾速定位须要剖析的指标存在哪张表上,数据应用的效率很低。
由此可见,影响数据分析 ROI 的阻碍次要是:
- 指标口径不统一:数据量很大,但短少信赖;
- “浑浊”的数据湖——宽表爆炸,数据存储和 ETL 工作冗余;
- IT 老本 & 时效性—— IT 老本和开发效率随数据量和用户量增长而难以管制。
3. 通过指标中台解决上述挑战
传统在数据湖中加工和剖析指标的形式,是通过 ETL 为每个指标开发宽表和聚合表(如下图所示)。尽管很多指标背地的数据是能够复用的,但因为需要来自不同业务部门,短少数据共享,最终只能反复开发,生成大量冗余的宽表和聚合表。
应用指标中台后,所有的数据指标被对立治理,并造成指标体系,如根底指标、衍生指标等。如果不同的指标背地对应的数据模型是同一个,那么指标的加工和计算过程是能够复用的。如果是同一份数据按不同口径服务不同业务,则通过衍生指标灵便响应业务需要,既能满足业务多变的需要,又能防止数据冗余导致的宽表爆炸。
由此可见,在指标中台里“指标”成为数据和业务交互的主体,通过对“指标”的标准化,造成数据开发和治理的标准化。
下图展现的是某银行企业应用指标中台前的情况。银行业务人员须要对用户的消费行为进行剖析,从交付指标到取得相干数据,通常须要 12 个工作日甚至更长时间。数据开发效率低、需要交付周期极长。
咱们来看看该银行应用指标中台后的状况。如下图所示,指标中台容许非技术人员自助治理衍生指标,并通过拖拽现成指标的形式创立仪表板,端到端交付工夫缩小 50%,从需要到开发,流程轻松省时、企业人效大幅晋升。
4. 指标中台的能力
从技术角度来讲,指标中台的能力次要展示在四个方面。
- 指标目录:对立治理所有业务指标口径从数据湖的表开始定义指标,包含根底指标和衍生指标,并将所有指标治理在一个平台中,实现业务指标的对立治理。
- 指标自动化:以指标治理数据,打消宽表操作依据指标定义的逻辑对底层数据进行加工、预计算,并依据指标所在的数据模型进行合并,打消宽表爆炸。若是指标很少被拜访或是不再被拜访,能够主动清理指标数据的预计算后果。此外,零碎也会智能地向用户举荐罕用的或关联度高的指标,晋升找指标的效率。
- 指标治理:用指标治理指标,造成指标体系治理指标的目标是帮忙企业实现业务指标治理的目标,因而通过治理指标的形式治理指标,造成指标体系,可帮忙企业更好地达成指标。
- API 集成:构建数据利用,统一生产指标数据当指标和指标实现定义,零碎须要一个进口。通过规范的指标 API,让用户轻松构建数据利用,为利用提供统一的数据起源,打消指标割裂和数据孤岛。
5. Kyligence 指标中台产品实际
Kyligence 基于指标中台实践经验和 OLAP 根底能力,上线了智能指标驱动的治理和决策平台 Kyligence Zen。在本次演讲中,李栋以批发订单剖析场景为例,演示了该产品的次要性能。
导入数据
只需把订单数据上传到 S3,并输出 S3 链接地址,就能够疾速把数据接入到指标中台。
导入指标
通过 YAML 文件定义好销量和利润等批发业务指标,即可一键导入。通过这种形式,能够轻松地把业务指标从 BI 平台批量接入指标中台。
治理指标
所有指标以卡片的形式被对立治理。对于批发企业,无论是团体管理人员还是门店店长,看到的都是同一套指标,以及同一套数据。
治理指标
为了更好地应用指标反对业务决策,能够创立指标来治理指标,从业务角度治理指标体系。
指标可视化
所有指标还能够灵便地制作可视化仪表盘,不便业务人员自助查看指标和进行归因剖析。除此之外,指标也能够通过 API 对接其余数据利用。
6. 总结
指标中台可无效解决数据湖上数据分析效率低下的问题,从而将 IT 团队从反复的报表开发工作中释放出来,投入到业务指标体系的治理和继续经营之中,并发明更多业务价值,大大晋升企业的人效。
对于 Kyligence
上海跬智信息技术有限公司 (Kyligence) 由 Apache Kylin 开创团队于 2016 年开办,致力于打造下一代企业级智能多维数据库,为企业简化数据湖上的多维数据分析(OLAP)。通过 AI 加强的高性能剖析引擎、对立 SQL 服务接口、业务语义层等性能,Kyligence 提供老本最优的多维数据分析能力,撑持企业商务智能(BI)剖析、灵便查问和互联网级数据服务等多类利用场景,助力企业构建更牢靠的指标体系,开释业务自助剖析后劲。
Kyligence 已服务中国、美国、欧洲及亚太的多个银行、证券、保险、制作、批发等行业客户,包含建设银行、浦发银行、招商银行、安全银行、宁波银行、太平洋保险、中国银联、上汽、Costa、UBS、MetLife 等寰球知名企业,并和微软、亚马逊、华为、Tableau 等技术领导者达成寰球合作伙伴关系。目前公司曾经在上海、北京、深圳、厦门、武汉及美国的硅谷、纽约、西雅图等开设分公司或办事机构。