共计 1597 个字符,预计需要花费 4 分钟才能阅读完成。
4. 指标定义零碎
序
在领有了各种数据之后,咱们打造了对应的数据仓库,接下来咱们就要统计各种各样的数据指标。这些数据指标用来提供给产品、经营相干人员进行相干业务的剖析,成为疾速的调整业务策略、制订决策计划的数据根据。然而因为产品、经营人员的背景认知不同,对一个雷同指标的了解定义可能不同,就会造成数据产品在最终出现上产生各种各样的歧义。那目前咱们面临的问题如下
- 同名指标在不同看板下数据不统一问,常常须要重复确认与排查(指标同名不同义)
- 现有的各种需要管理软件并不适宜数据指标常识的记录与积淀积攒(无奈按主题积淀指标)
- 一个需要一个规范,各种各样的指标定义,人员到职之后,新同学不能疾速的了解之前的口径,又须要依照新同学的了解从新开发定义对应的数据报表(数据了解应用老本高)
为了解决上述的问题,咱们也做过一些尝试,比方:做了一套指标形容的零碎,用修饰词 + 原子指标 + 工夫周期的形式定义指标,这个指标绑定在了后果数据上,尽管在肯定水平上解决了问题,然而没方法保证数据统计程序的统一,数据起源统一,还是无奈彻底解决 指标同名不同义的问题。
所以须要从指标口径的源头开始去梳理和定义指标,打造一套指标定义零碎,这个零碎就是 数据开发、产品、经营、数据产品、业务 RD各方用户对指标定义形容,造成指标共识的中央。在该零碎下依照主题划分,在提出数据需要之前,就应该依据日志、表、数仓等相干数据配置与造成对应的数据口径,如果是已有口径,满足需要也无需再次定义与数据开发,让同一个业务线的人员造成对立的规范。后续各种指标开发都根据零碎当中定义的规定,对接指标实时、离线模式化统计模块,依据配置间接统计出各个指标数据。
通过该零碎从本源上解决上述,指标同名不同义、指标形容、指标积淀等问题。
零碎设计
1. 数据对象形象
数据对象形象包含前端日志、后端日志、源表、数仓表,形象的对象须要是可解析结构化的数据。
- 日志形象:日志因为有前端日志、后端日志,前端日志在人造上采纳了结构化的日志所以无需进行提前荡涤;后端日志依据采纳的数据格式,须要提前通过 ETL 荡涤成结构化的数据。结构化的日志最终也是保留在 hive 对应的表当中,表构造就是一个表形象对象,能够间接用来表述各个指标的统计规定;
- 源表、数仓表形象:对应的表构造就是形象的对象,以此形容指标信息;
2. 指标规定形容
- 主题域划分:依据不同的主题划分指标的定义,比方 A 业务线在提数据需要之前或者须要理解统计指标定义的时候,能够通过零碎疾速查找到对应主题域下的各类指标信息,未定义的指标能够通过配置实现新指标的创立与规定形容;
- 逻辑表白:通过配置化,最大化反对各种状况下指标逻辑的表白,比方过滤、join、聚合、明细等等,最终造成一个可解析的指标配置,后续各种统计零碎能够对接配置信息,实现自动化指标的统计与 hive 数仓表的生成。记录指标规定的各种信息与版本,清晰明了指标口径的变更记录等相干信息。(下图为 SQL 图形化编辑器,简略示意逻辑表达方式)
零碎利用
1、hive 数仓表
通过对应离线数据统计零碎,配置输出指标配置信息、输入的目的地。由各个指标组合 dm 层相干的数据表、明细表等。
2、实时、离线指标数据统计
通过对接指标零碎,由统计零碎解析指标配置,自动化计算与输入后果,达到实时、离线指标统计的自动化。
总结
咱们有了这样的一个零碎之后,后续的数仓表、数据统计等相干性能都能够与之对接,造成统一口径标准化的数据。整体大数据相干的零碎要向着系统化、工具化、配置化、SQL 化的方向倒退,尽可能的缩小人工 SQL 统计与开发。不光产品、经营通过图形化的 SQL 实现数据分析等工作,数据开发人员也能够通过图形化 SQL 配置生成对应的统计逻辑。再通过各个系统之间数据的买通,咱们就有着清晰的数据脉络与数据流向。
- 指标来自于业务,积淀于业务,利用于业务
- 简单的问题在数据流程越靠前的地位上解决,之后设计的各种零碎就会越简略,事倍功半