2022 年 12 月,爱剖析举办了“2022爱剖析·数据智能网络研讨会”。爱剖析邀请Kyligence合伙人&副总裁李栋进行了题为《指标中台,构建数字化治理新体系》的主题演讲。
指标是企业数据价值生产单元,也是企业实现精细化治理、数据驱动的必要工具。目前,更宽泛的人员正在参加和影响企业业务倒退,这对指标品质、指标开发效率、指标更新时效等提出了更高要求。指标中台无疑成为企业实现指标治理、晋升经营效率的重要工具。
Kyligence 合伙人&副总裁李栋在会上的演讲围绕指标中台开展,分享了指标中台的倒退背景和趋势、典型客户建设指标中台案例和成果,介绍了指标中台技术底座对解决宽表爆炸、企业数据指标口径、企业数字化治理等痛点的价值。
现将李栋总的演讲实录整顿后分享如下。
Kyligence 合伙人&副总裁李栋:
01 公司简介
我的分享主题是《指标中台,构建数字化治理新体系》。首先简略介绍一下Kyligence,Kyligence是寰球当先的多维数据库和指标中台的技术软件供应商,于2016年由Apache Kylin开源我的项目的开创团队创立。Apache Kylin是目前较为当先的大数据 OLAP 开源技术。Kyligence研发的多维数据库和指标中台等产品,也是依靠于Apache Kylin技术实现。同时Kyligence入选了《2022 Gartner Innovation Insight for Metrics Store》报告,这是惟一入选的中国厂商。此外,咱们还有很多合规认证等。
02 指标中台的趋势和背景
在上周的12月15号,由爱剖析和Kyligence独特打造的中国首份《指标中台市场钻研报告》刚刚公布。在此之前,单方还发展了一项对于“企业指标治理与数据分析现状”的调研。调研涵盖了银行、保险、制作、批发与消费品等各个行业的数字化转型当先企业,波及数据、IT、业务等多种角色一起深度参加,收集了很多贵重数据。此外还有来自银行、保险、批发等行业客户的最佳实际。基于所有这些信息,咱们整合成了这样一份指标中台报告,欢送大家下载。我明天的分享也将以这份报告中的内容为主线进行开展。
首先是对于指标中台的趋势和背景。德鲁克已经说过,没有度量就没有治理,因为不能去治理一些不可度量的事物。除此之外,咱们也会看到企业数字化经营的要害,是要建设以指标为外围的管理体系,例如KPI、OKR,或是均衡计分卡、BI等管理手段,实质上都是在帮忙企业的决策者和管理者更好地理解企业的经营指标,构建可观测的经营管理体系。
指标是通用的治理语言
为什么指标这么重要?指标是企业外部通用的治理语言,连贯着业务和数据。一方面在业务侧,人人用指标,指标是企业业务经营、经营治理过程中的共同语言。在数据侧,指标又是通用的数据语言。只有把数据加工成为指标,或者通过数据计算出指标后果,才可能体现出数据分析的价值。在爱剖析和Kyligence联结发展的“企业指标治理与数据分析”的调研中,当评估指标体系对于公司的重要水平时,能看到有85%的企业认为指标体系对于公司很重要,有49%的企业是常常应用指标体系治理业务。
指标体系建设面临的挑战
指标体系的重要性已很明确,然而企业在建设指标体系的过程中面临诸多挑战。第一个挑战是现有零碎难以满足业务人员更精细化、更实时的用数需要。如业财一体化中,业务人员和财务人员心愿站在全局的视角上,同时对业务部数据和财务数据有宏观的理解。这要求对现有的跨平台或多渠道的数据进行整合,这是企业当下面临的第一个挑战。
第二个挑战是企业IT能力和老本无限,无奈满足业务爆发式的增长。比方保险公司每周都会公布新产品,每个新产品都须要经营团队对用户的各种行为数据进行详细分析。然而公司不可能为每个新产品都投入相应的IT资源,包含通过数据开发人力进行手工开发等,这个老本很难吃得消。
第三个挑战是管理人员短少对立的指标查问入口。这个挑战实质上还是指标口径问题。以销售额为例,从财务视角和业务视角对销售额的计算口径就会不一样。口径不统一,治理上就须要花很多工夫对齐口径。
第四个挑战是数据治理短少无效的抓手。当企业不足无效的抓手去发展数据治理工作时,将很难产生间接的成绩和效益。调研数据也验证了这一点,在统计中发现,像指标品质、指标体系不残缺、数据分析平台性能待欠缺等,都是企业广泛面临的问题。
什么是指标中台
指标中台产品的设计初衷就是解决以上问题。为什么叫指标中台?对于中台,大家很相熟的概念有One Data、 One ID、 One Service 等。指标中台是集中管理、存储指标以及提供指标服务的一个平台,提供业务模型、指标治理、指标加工、数据服务等一体化的解决方案。指标中台在企业整体的架构中,处于数据湖、数仓和数据利用之间。
指标中台次要有两局部,下面一部分是指标利用,上面一部分是计算引擎。应用层的目标是构建指标目录,包含像指标定义、指标可视化、指标品质、指标治理、指标服务等性能。在指标定义中,须要定义指标的口径、指标的计算逻辑、商业意义、商业价值以及指标的归属。
在计算引擎层,针对指标剖析、指标查问、指标服务等性能实现,须要具备高性能、高并发的计算剖析能力,以撑持平民数据分析师对海量数据的应用。
基于指标中台,在上游的多种剖析工具如BI、Excel、Tableau及其他可视化工具、协同工具中,都能够获取最权威的具备一致性的数据。
03 指标中台实际案例
接下来介绍指标中台的实际案例。
安全银行:潘多拉指标中台
银行业的数字化始终走在各个行业的前列。首先介绍一个来自于安全银行的案例。安全银行是一家全国性的股份制商业银行,金融服务品种齐全。安全银行从2016年起开始数字化转型布局。在安全银行的批发业务板块中,包含信用卡、生产金融、汽车金融等细分业务板块,每个板块都波及到产品、渠道、客户交易等信息。从数据分析的角度来看,要想实现精准营销、改善客户体验,须要从不同维度、不同渠道以及用不同的指标来进行复合性的剖析。例如在精准营销中,对客户生命周期全链路进行治理时,须要联合客户在银行的交易数据、产品数据、行为数据等进行综合剖析。
在建设指标中台之前,安全银行通过传统的BI报表剖析的形式,面临许多挑战:1)数据治理难,报表口径不统一,取数存在信任危机;2)数据协同难,不同部门间的数据处理模式不同,相互之间很难复用;3)数据处理工具应用难,效率低,如安全银行的批发业务中数据开发人员高达200名,仍然存在数据开发周期长、响应慢的问题。
为解决以上问题,安全银行建设了潘多拉指标平台,并选型应用 Kyligence 多维数据库作为底层外围组件。所有业务人员通过潘多拉指标平台自助获取所须要的任何业务的指标数据,能够缩小重复性报表的开发工作,通过指标看板、智能的归因剖析和趋势预测来对指标进行一站式的、全链路的剖析和洞察。此外,也能通过潘多拉指标平台的指标定义、指标公布、指标治理等一系列指标自动化治理流程来晋升数据和指标管理效率。
目前平台曾经接入了15000多个指标、1000多个维度,沉闷用户也已超过5000人。从成果来看,数据开发效率失去大幅晋升,数据开发周期缩短了3-5天,ETL人力缩减了30%,同时指标复用率超过25%。
百胜中国:指标剖析与治理利用晋升数据决策效力
接下来再介绍来自于百胜中国的案例。百胜中国是全球性的餐饮团体,是批发餐饮行业的典型代表,肯德基、必胜客都属于百胜中国下的品牌。随着百胜中国的疾速倒退,尤其互联网业务的爆发式增长,整个公司的数据体量也在一直增长。
为晋升整体经营效率,百胜中国的各个部门包含区域级别、门店级别都产生了大量的数据分析需要和指标利用的需要,如销售部门须要从地区、工夫、金额、频次等多个角度剖析销售订单状况。如果每个指标都通过报表开发,整体的剖析效率会十分低下。
百胜中国与 Kyligence 进行单干,并通过建设指标剖析与治理利用体系,对以上诸多问题进行了改善。整体的数据筹备工夫降至30分钟,相较之前用时缩短75%;OLAP性能大幅晋升,500亿+数据体量下均匀响应工夫仅4秒,90%的查问用时在1秒以内。指标剖析与治理利用体系的性能充沛满足包含团体、区域等各级数据分析师在内的数据消费者应用需要。
此外,这套指标剖析与治理利用体系还保留了业务人员既有的数据分析习惯。过往百胜分析师习惯应用Excel,这套体系能在大数据体量下仍然反对分析师应用Excel对接或进行自助式剖析。
这些案例的背地,是包含 Kyligence指标中台引擎、产品、方法论在内的整套解决方案。一方面,Kyligence有企业级指标中台解决方案,以Kyligence的多维数据库技术为外围底座,具备指标治理引擎,反对高性能的指标计算和查问服务,为金融、批发、制作等企业提供端到端的解决方案,帮忙企业简化数据分析和指标治理。
另一方面,Kyligence也推出了名为Kyligence Zen的一站式指标中台产品。这是一个标准化的SaaS产品,反对企业将云端的S3、CSV文件等罕用数据源疾速接入指标中台,通过指标目录、指标自动化、指标治理、指标API、归因剖析、指标模板等开箱即用的能力迅速从零开始搭建、实际指标中台。
04 指标中台技术底座
企业业务增长带来宽表爆炸问题
为什么Kyligence的指标中台解决方案在技术上更有劣势?这次要是因为底层多维数据库技术。举个例子,Kyligence服务的一家互联网行业电商客户,这家电商企业从2019年下半年开始建设本人的数字化平台。如下图所示,左侧从数据库、日志零碎中抽取的数据进入数据仓库。数据进入数据仓库的贴源层后,通过加工一步步变成宽表、业务表。业务表蕴含了各种业务指标,如销售相干的各种指标,客户相干的各种指标,网络流量、广告相干的各种指标等,每个指标都是从贴源层原始数据一步步加工造成。每个业务表的背地都存在着大量的宽表。
这里就会产生一个问题,指标数量的快速增长带来了宽表爆炸。这也是少数企业在数据湖建设和数据仓库建设过程中面临的共性问题。Kyligence在服务这家电商客户时看到,业务端的一个订单表背地会产生1万多张宽表。大量的宽表一方面疾速耗费计算和存储资源,另一方面宽表的ETL须要耗费大量的开发运维人力,带来计算成本和人力老本的持续增长。
多维数据库解决宽表爆炸问题
Kyligence多维数据库能无效解决宽表爆炸问题。什么是多维数据库?多维数据库来自于经典的OLAP Cube实践。经典的OLAP Cube 实践下,在三维的Cube 中,每个维度代表业务中的一个维度,每个格子代表一个维度下的度量。也能够换一个角度了解Cube,即Cube中的每个节点代表一个根底指标,如任何一个工夫、任何一个地区、某个商品品类的销量对应的就是一个节点。在多维数据库中,每个格子代表的根底指标加上一些业务口径,如时间段、地区等就能够形成丰盛的业务指标体系。多维数据库的外围在于它存储的是维度和度量,而不是以表为外围去存储数据。
此外,所有指标的生命周期也能被对立治理。而在关系型的数据库中,不同的指标用不同的宽表进行存储,生命周期难以实现对立治理。经常出现的状况是,宽表与宽表间的数据更新不同步,导致指标的生命周期不统一,最终呈现数据信赖问题。
多维数据库基于空间换工夫的思维,将指标预计算好并存储在多维数据库中,因而业务剖析时具备高性能。此外,多维数据库也更节省成本,相较于低廉的计算资源,多维数据库通过云上存储实现空间换工夫,性价比更高。
那么,多维数据库是如何解决宽表爆炸问题的?回到电商客户案例中,所有数据进入贴源层后都能够被多维数据库进行对立治理。
数据如何实现对立治理?在多维数据库中定义的多维数据模型、维度和指标,实质上是在贴源层的表上定义了对立的业务元数据。基于业务元数据,一方面能更好地治理底层数据,另一方面,能够赋予下层的业务用户更好的数据生产能力。同时,包含数据分析师在内的业务用户也能更加自主地基于多维数据库中的根底指标进行翻新,创立更多的衍生指标。业务端的指标都是衍生指标,不会产生底层宽表,天然也不会带来宽表爆炸问题。
怎么了解这一点?这里补充一点背景常识。根底指标、衍生指标等概念来源于指标体系构建过程。最开始通过表进行初步计算如求和的指标是根底指标,围绕着根底指标,通过口径、工夫、四则运算产生更多衍生指标、复合指标、工夫衍生指标等概念。其中,只有根底指标是须要被预计算的,外围的衍生指标、复合指标不须要。正是基于多维数据库对指标体系的梳理,能无效缩小宽表爆炸问题。而在关系型数据库中,衍生指标或者复合指标都是通过宽表的形式创立的,会耗费更多IT老本。
再回到电商客户案例中,一开始贴源层有5000多张表,通过多维数据库定义出2000多个根底指标,进而衍生出1万多个衍生指标。其中5%的衍生指标能够基于根底指标通过大规模并行处理在线计算失去;95%的指标曾经实现了预计算。通过多维数据库,数据人员能够更好地治理数据,业务人员也会更加自主地应用指标进行业务翻新。
多维数据库的Cube实践使整个宽表的数量大幅升高,充沛预计算加大量在线计算的形式也能升高企业整体的TCO(计算总领有老本),因而多维数据库能更好地应答宽表爆炸挑战。
通过以上介绍,能够证实多维数据库的确是撑持指标中台的更好的技术底座。
明天的分享就是这些。欢送大家来试用Kyligence指标中台技术,在kyligence.io网站上有两个产品试用入口,一个是对于多维数据库,一个是一站式指标中台产品。最初欢送大家下载由爱剖析和Kyligence联结出品的《中国指标中台市场钻研报告》。后面介绍的内容可能比拟简略,在这份报告中会有更加具体的介绍,包含案例、指标体系构建方法论、指标中台落地方法论等。