关于大数据:实用五步法教会你指标体系的设计与加工

1次阅读

共计 5661 个字符,预计需要花费 15 分钟才能阅读完成。

明天咱们来和大家聊一聊一个新话题,一个对于企业业务倒退非常要害的货色——指标。

指标建设是掂量企业业务成果的次要根据,本文联合本身实践经验和大家分享指标的设计与加工过程,讲述其根底概念和设计加工办法,以及设计加工过程中的留神点,心愿对感兴趣的同学有所帮忙。

一、指标建设的必要性

1、什么是指标

指标是主观形容某个事物某个特色的可量化的数字度量,如用户最近 30 天购买次数,某商品最近 30 天销售额等。

指标常从多个维度来形容,如某地区的新增用户数、线上线下的新增用户数,维度让指标更加具象与饱满。

2、建设背景

大数据时代数字化转型背景下,企业所须要的往往不单单是数据,而是数据背地映射的业务洞察,相比拟数据咱们更加关怀的是其体现的业务价值以及笼罩的业务场景。

宏大的数据只有和业务相结合转化为信息,通过解决出现能力真正体现他们的价值。

指标作为数据计算的后果,是间接反映掂量业务成果的根据,利用在企业的方方面面,如数据报表、剖析平台及日常取数等。

● 数据报表

它是间接的指标后果查看的载体,作为业务部门的人,可能每月或者每周甚至每天都要输入业务报表,不论是传统的纸质文档,线上的 excel 还是起初的报表工具,最终目标都是一样,咱们心愿通过报表实现数据驱动业务精益增长的目标。

● 剖析平台

作为数据计算结果多样化展现的平台,不论是可视化大屏,还是其余一些 BI 零碎,都是通过数据计算结果的出现,更好地辅助业务理解行业现状。

● 日常取数

有数据在哪里,便要去哪里拿,取数的过程,往往是基于不同的业务场景,满足不同的业务需要,对数据进行加工计算获取,当然在这过程中,数据计算结果往往须要保障较高的准确性和一致性。

3、建设过程中遇到的问题

数据指标作为数据计算的后果,是企业数据价值的直观体现。在业务扩张、指标计算需要的暴增背景下,随之而来的指标治理问题也越来越多:

  • 指标治理不对立:管理机制不对立、扩散治理、反复建设、老本高、费时费力
  • 指标口径不统一:同名不同义、同义不同名、计算逻辑复杂多变、开发技术门槛高,过程不可视
  • 指标流程不标准:没有对立的流程管制,开发和应用人员拆散,沟通老本高、周期长,后果可信度不高

4、解决方案

要解决以上问题,帮忙企业建设指标体系,咱们须要从以下三个方面动手:

● 指标平台

建设对立的指标治理平台,集中管理数据指标,积淀指标资产。

● 指标体系

有一套标准规范的指标搭建方法论,搭建企业级数据指标体系。

● 流程治理

搭载对立的流程管制机制,全面把控数据指标的生命周期。

如果是平台、流程是根底,那指标内容的搭建便是要害。指标体系的搭建作为整个指标治理的外围,为指标治理提供最松软的根底撑持。

二、指标建设五步法

总结以下五个步骤,从 0 到 1 搭建指标体系:

1、明确指标

搭建指标体系的第一步就是明确搭建指标,大部分企业因为指标不清晰造成指标管理混乱,通过指标体系的搭建,咱们要实现“一个指标、一个口径、一次加工、屡次应用”,做到对立指标口径,缩小反复工作,后果对立输入。

● 对立要害指标

创立公司级对立的要害指标,帮忙企业通过对立的指标框架来助力业务扩张。

● 缩小反复工作

为每一个成员提供对立的平台来协同,理解企业整体数据业务状况,缩小数据团队重复性工作和工夫破费。

● 后果对立输入

针对指标后果,提供一套能将指标和下层利用联合起来的输入形式,施展数据指标最大的价值。

2、需要剖析

明确指标之后,咱们开始着手去构建指标体系,在设计指标之前,咱们首先要进行需要剖析。

同一个企业,不同的业务线、不同的部门,甚至是同一部门的不同人员,提出来的指标计算需要都会有所不同。所以在需要剖析的阶段,咱们要做到基于不同行业的业务状况,剖析数据指标需要,正当划分主题,更好地为后续指标设计提供业务撑持。

1)需要调研

● 主导人

数据分析师,数仓架构师;

● 调研形式

列好提纲,面对面访谈;

● 调研内容

· 指标利用场景调研:指标利用在哪些业务场景中,利用形式有哪些(BI 应用、业务人员自行取数、数据门户展示等)

· 指标起源调研:指标加工的源数据来源于哪些零碎,数据是否都采集上来,分为哪些业务域、业务过程

· 指标现有状况调研:当初有哪些指标,短少多少,能满足百分之多少的业务场景;指标建设当初遇到的问题是什么;之前的指标加工是否标准,是否须要调整

· 指标需要调研:理解客户须要实现的指标加工范畴

● 产出

访谈汇总后果与需要收集表。

2)需要剖析

● 指标

梳理须要加工的指标,指标业务口径,指标更新频率;

● 主导人

数据分析师;

● 产出

指标需要表。

数据分析师基于业务部门、科技部门的业务场景和需要,开掘和提炼具体的指标、业务定义、优先级、实现难易水平、大略的实现形式。

并依据指标数量、难易水平、数据依赖关系,划分初步的阶段性打算,一期实现哪些指标、给哪些业务场景用,二期实现哪些指标,给哪些业务场景用。

3、指标设计

1)指标拆解

● 主导人

数据分析师;

根据上述的业务需要剖析,依照从上往下的形式对指标进行分级拆解,看须要的指标须要由哪些指标加工进去,各个指标的关系,明确各指标之间的关系,可层层溯源,个别分为 3 层:

· 一级指标:公司策略层面的指标,全公司认可的掂量公司业务指标的外围指标,如某大业务线产品支出、累计用户数、新增用户数、付费用户数等,面向管理层

· 二级指标:业务策略层面的指标,如产品支出拆解到各个产品线,累计用户数拆解到各个渠道,面向不同业务线

· 三级指标:业务执行层面的指标,对二级指标进行门路拆解,如产品支出须要拆解到付费用户数、客单价下面;付费用户数又能够拆解为新增付费用户数、复购用户数,依据这些指标能够一直优化经营或销售策略,面向业务部门

2)指标建模

● 主导人

数仓架构师;

依据对业务需要的了解、数据状况的探查,划分对应的业务域、业务过程、维度、度量、统计周期等,搭建指标建设的框架。

● 数据起源

数据指标遵循 ODS-DWD-DWS-ADS 的数仓设计架构,次要基于 DWS 轻度汇总表来加工;

数据架构师依据指标需要,看企业数仓设计的欠缺性,是否须要减少底层的明细表或汇总表,将根底表梳理加工好之后,开始指标的加工。

● 指标定义

咱们先理解下指标的的组成:

指标 = 统计周期 + 维度 + 过滤条件 + 度量

· 维度:描述性数据,指标统计的环境,如地区、个人账户、产品名称、产品类型、销售渠道

· 度量:数字性数据,销售金额、贷款金额、销售数量、如账户余额、国债余额、基金余额

· 统计周期:计算指标的工夫范畴,如近 30 天、当年、当月、近 7 天、上月、上周、去年

· 过滤条件:计算指标的条件限度,如失常状态、无效状态、全国范畴内,西湖区的、工作日的

统计周期、维度、度量是组成的必要条件,过滤条件依据业务场景而定。

● 维度与度量

在指标加工前,须要先定义数据模型,数据模型中定义“维度”与“度量”,因为这两个是组成模型的根底必要条件。

数据模型依照数仓的业务主题来创立,如贷款业务、贷款业务,可遵循星型模型或雪花模型,建设事实表与维表的关联关系,其能够是多张表的关联关系,也能够是单张表。表确定好之后,抉择“维度”与“度量”,作为后续指标加工的根底。

咱们以一个银行“贷款业务模型”的模型来看,其是围绕账户贷款余额明细数据建设的贷款业务主题数据模型。

数据模型建好之后,选取维度与度量,作为后续指标加工的根底。

维度

选取数据模型中,作为环境形容的字段作为统计的维度。

度量

选取数据模型中,后续要加计算的数值型字段作为度量。

● 统计周期

统计周期也是指标必不可少的条件,形容一个指标应该指定其工夫周期,比方累计交易次数、最近 30 天交易次数、最近 90 天交易次数等。个别零碎会内置罕用的统计周期,也会反对用户自定义统计周期,统计周期须要特地留神的便是日期格局了,比方 yyyymmdd,还是 yyyy-mm-dd。

依据以上内容,已筹备好数据模型,和指标的三要素:维度、度量、统计周期。

指标类型

袋鼠云指标治理产品依照指标加工类型,分为原子指标、派生指标、复合指标、SQL 指标。

· 原子指标:某一业务行为事件的度量,统计数据起源,如交易笔数、交易金额、交易用户数、账户余额

· 派生指标:基于原子指标进行维度、统计周期的派生。派生指标 = 统计周期 + 派生维度 + 过滤条件 + 原子指标,如近 7 天账户生产金额,去年账户余额总和、昨天产品销售金额等

· 复合指标:多个指标的加减乘除运算,如均匀交易额、资产负债率等

· SQL 指标:通过自定义 SQL 生成的指标,适应简单的指标配置逻辑,满足开发人员不同的指标开发场景

4)指标内容

● 主导人

数据分析师、数仓架构师;

基于指标需要、指标建模、指标分类确定指标的具体内容,作为指标开发的领导。

· 指标名称:指标中文名称

· 指标编码:指标英文名称,也是存表的字段

· 指标目录:指标所属类目标分类

· 指标分类:属于原子、派生、复合、SQL 指标的哪种

· 业务口径:指标的业务口径,如最近 30 天付费用户数指最近 30 天产生过一笔及以上购买交易的用户数量之和

· 技术口径:由哪个指标、哪些维度加工而来

· 指标责任人:该指标的负责人,可作为该指标的保护人与告警接管人

· 更新频率:日更新、周更新、月更新等

· 形容信息:对指标的额定形容信息

5)指标评审

● 主导人

数据分析师、数仓架构师;

指标模型设计实现、指标内容设计实现后,数据分析师与数仓架构师召开指标评审会议,面向数据开发、业务人员进行评审。

· 阐明每个指标的定义、业务口径、技术口径、更新周期等

· 阐明各个数据指标的类型,以及派生指标由数仓的哪些数据模型加工,其派生维度是什么,统计周期是什么;复合指标的派生维度,由哪些指标加工而成

评审后进行补充欠缺,之后进入指标开发阶段。

4、指标开发

1)指标加工

咱们来看下各类指标如何加工:

● 原子指标

原子指标来源于数据模型,是从上述“数据模型”中间接读到的度量,是数据模型表中的一个字段,如上述的“贷款业务模型”中,能够把“贷款利率”、“贷款汇率”、“账户余额”、“固定余额”、“分成比例”等度量作原子指标。

选好度量后,同时须要选取形容该度量的维度,这些维度用于形容度量。如将“账户编号”、“机构编号”、“客户经理编号”、“客户编号”、“账户状态”等作为维度,则能够示意各个账户的贷款账户余额、各个客户的贷款账户余额、各个分行 / 支行的贷款账户余额,各个客户经理治理账户的贷款账户余额等。

所以原子指标是数据模型中维度和度量的组合映射,非一个有实在含意的指标,因为它示意的“客户”的“账户余额”,还没有加上统计周期与计算逻辑,比方客户当日账户余额、客户最近一年均匀账户余额等。但原子指标是后续派生、复合指标加工的根底,不可短少。

● 派生指标

派生指标是基于原子指标进行维度与统计周期的派生,并设置计算逻辑。

如“当日贷款账户余额”,可基于原子指标“账户余额”来进行派生,维度选取“账户编号”、“机构编号”、“客户经理编号”、“客户编号”,计算逻辑选取“求和”,统计周期选取“当日”,示意各个账户的当日贷款账户余额、各个客户的当日贷款账户余额、各个分行 / 支行的当日贷款账户余额,各个客户经理治理账户的当日贷款账户余额等。

派生指标中内置的计算逻辑有:求和、均值、计数、去重计数、最大值、最小值等,也能够自定义函数。

内置的统计周期有:当日、当月、当年、去年、最近 7 天、最近 30 天、历史截止以后,也反对自定义。

● 复合指标

复合指标是基于原子指标或派生指标进行的加减乘除运算。如“当日基金账户利润”复合指标,可基于复合指标“当日基金账户利润率”、派生指标“当日基金账户余额”加工而来。

//

在“当日基金账户利润率”>1 时,当日基金账户利润 = 当日基金账户利润率 * 当日基金账户余额

在“当日基金账户利润率”= 1 时,当日基金账户利润 =(当日基金账户利润率 + 0.05)* 当日基金账户余额

复合指标的维度,需为加工公式中用到指标的公共维度,能够计算这些维度的该复合指标。如“当日基金账户利润率”指标的维度有“机构编号”,“当日基金账户余额”指标的维度有“账户编号”、“客户编号”、“机构编号”、“客户经理编号”,则基于这 2 个指标加工的复合指标“当日基金账户利率”只能有其公共维度“机构编号”,可查看各个机构的当日基金账户利率。

高级设置:公式中用的起源指标可设置指标数据的过滤条件,加工后的复合指标可取聚合函数,依据理论状况应用即可。

以上便是复合指标的加工。

● SQL 指标

当存在以上通过内置函数、内置运算符加工不进去的逻辑较为简单的指标时,可采纳自定义 SQL 指标实现。只有遵循正确的语法结构,便能够灵便加工。

指标加工完后,后续可在指标血缘关系中查看指标间的上下游关系。

2)指标落库

指标逻辑配置胜利后,每个指标可配置其更新周期,调度策略配置实现后,进行指标公布。公布后便依照设定周期周期性加工。同时,也反对手动立刻更新。

指标更新后,会将每个指标和其维度存储在 Hive 表中,每个指标和其维度存储一张独自的表。

3)指标运维

指标上线后,运维同学便须要进行指标的日常运维,察看指标运行状况,及时处理报错状况,保障指标的失常加工和线上业务可用。

5、指标利用

指标常利用在数据门户、BI 数据分析、可视化大屏展现,业务人员数据分析中。那产生的指标怎么与下层利用对接呢

1)指标 API

通过 API 服务将指标平台加工好的指标,提供给下层的展现、剖析零碎。

在创立 API 时定义须要查问进来的指标,多个指标的公共维度作为该 API 的入参。通过 API 接口,查问对接的指标后果。

内部零碎调用 API 的 url,用 API-TOKEN 认证便能够进行数据的查问。

2)自助取数

在自助取数平台中,可间接查问指标平台定义好的维度、指标,业务人员灵便利落拽,实现在线取数。并且取数逻辑可积淀成固定的报表模板,报表可周期性主动生成数据,业务人员届时拿后果数据即可。

想理解更多袋鼠云指标产品「指标治理剖析平台」相干信息,欢送【点击浏览原文】理解。

袋鼠云开源框架钉钉技术交换 qun(30537511),欢送对大数据开源我的项目有趣味的同学退出交换最新技术信息,开源我的项目库地址:https://github.com/DTStack/Taier

正文完
 0