共计 3203 个字符,预计需要花费 9 分钟才能阅读完成。
在产品精细化经营时代,常常会遇到产品增长问题:比方指标涨跌起因剖析、版本迭代成果剖析、经营流动成果剖析等。这一类剖析问题高频且具备较高时效性要求,然而在人力资源缓和状况,传统的数据分析模式难以满足。本文尝试从 0 到 1 实现一款轻量级大数据分析系统——MVP,以解决上述痛点问题。
文章作者:数据熊,腾讯云大数据分析工程师。
一、背景及问题
在产品矩阵业务中,通过仪表盘能够疾速发现增长中遇到的问题。然而,如何疾速洞悉问题背地的起因,是一个高频且简单的数据分析诉求。
如果数据分析师通过人工计算剖析,往往会占用 0.5- 1 天工夫能力找到起因。因而,人工计算剖析形式,占用人力大,且数据分析效率低。
另外,产品版本迭代与业务经营流动,也须要对新版本、新性能、新流动进行疾速数据分析,已验证成果。因而,在产品矩阵业务精细化经营中,存在大量的数据分析诉求,且须要疾速实现。
在传统的数据分析模式下,对于每个需要,个别须要经验 3 - 5 天能力解决问题。除此之外,该模式还须要大量数据分析师对接需要。因而,在数据分析师人力紧缺状况下,该模式无奈满足产品增长的数据分析诉求。
二、解决办法
在传统数据分析模式生效状况下,急需开辟新的数据分析模式,以疾速满足产品增长的数据分析诉求。
为此,笔者和我的项目小团队从 0 到 1 实现一款轻量级大数据分析系统——MVP,心愿通过 MVP 数据分析,驱动产品从 ”Minimum Viable Product” to “Most Valuable Product”。
除此之外,通过 MVP 数据分析系统,一方面心愿晋升数据分析效率;另一方面心愿节俭数据分析人力。
MVP 数据分析系统分为四个模块,在产品业务 - 经营指标模块,基于 AARRR 模型对产品增长指标剖析,剖析产品增长北极星指标;在指标异样 - 根因预警模块,对增长指标异动进行监控,并提供根因线索;在剖析工具 - 增长剖析模块,对用户行为进行深入分析,洞悉用户行为;在 AB-Test 试验评估模块,对业务决策计划进行试验,评估业务决策的合理性。通过四个模块,实现数据分析驱动产品精细化经营。
三、技术实现
一款轻量级大数据分析系统,至多须要从数据建模、技术选型、页面交互三方面实现。数据建模如水流,贯通整个数据分析系统;技术选型是基础设施,撑持整个零碎高效运行;页面交互是面向用户,用数据谈话,对业务增长进行数据赋能。
1. 数据建模
在开发 MVP 之前,因为历史起因,现有的产品矩阵中产品与产品之间,存在数据建设扩散、数据开发反复、数据隔离等问题,一个用户会存在多条信息记录。
这种数据格局,不仅会导致计算、存储、人力资源的节约,更重大的是会很大水平影响下层数据利用的效率。因而,旧的数据模式行不通,须要开辟新的数据模式。
MVP 数据分析系统底层数据建设,一方面基于“用户(User)+ 事件 ID(Event)+ 配置(Config)”思路,对产品数据信息进行高度形象整合,收敛产品矩阵业务数据;另一方面,基于 Key-Value 模型,生成用户大宽表,一个 User_Id 仅有一条记录信息。
2. 技术选型
在日常产品数据可视化中,通常会想到应用 MySQL 进行页面交互式数据分析,然而 MySQL 数据库承载数据能力在百万级,适宜对后果型数据进行剖析,对于上亿级数据是无能为力。
在简单的数据分析场景中,通常须要基于用户画像与用户行为,对用户进行 OLAP 多维自在穿插组合分析。因而,对于百万级以上的产品业务,应用 MySQL 是无奈满足 OLAP 实时剖析,须要尝试新的技术选型。
为了实现实时 OLAP 剖析,对业界的大数据分析平台的技术计划咱们进行了调研比拟。业界存储引擎次要是 HDFS 与 HBASE,计算引擎应用比拟多的是 Impala,Druid,ClickHouse,Spark。Druid 系统维护老本高,无 Join 能力,且语法利用绝对简单。
从计算速度角度,ClickHouse 比 Presto 快 2 倍 +,比 Impala 快 3 倍 +,比 SparkSql 快约 4 倍,计算性能比拟如下。
实测数据,对 2.2 亿 + 条 1.79GB 记录数据,进行单表聚合 0.095s,剖析速度 18.95GB/s。
和 Impala 相比,ClickHouse 能够通过 JDBC 间接导入,数据导入成本低,ClickHouse 系统维护老本绝对低。另外,ClickHouse 语法简略,易用性很强,对页面开发敌对,能够疾速开发出可视化页面。
基于下面这些因素,咱们采纳 HDFS+ClickHouse+Spark 技术计划。在这里,应用 Spark 补齐 ClickHouse 无奈进行大规模 Join 操作短板,比方解决大规模简单的关联剖析工作。
另外,Spark 能够无缝拜访 HDFS 中 Hive 表数据,无需从新导数据,利用效率高。应用 HDFS 存储历史全量标签与行为数据(占比约 80%),应用 ClickHouse 存储近期标签与行为数据(占比 20%)。
3. 页面交互
MVP 页面交互模式,80% 数据分析诉求是能够间接通过页面实时剖析实现,剩下约 20% 简单剖析工作,是通过提交工作式剖析实现。
页面实时剖析秒级返回剖析后果,提交工作式剖析须要 5 -15 分钟返回后果。经营指标体系、事件模型剖析、漏斗模型剖析、留存模型剖析等,是通过页面实时剖析实现,用户人群画像洞察、用户趣味偏好洞察是通过提交工作式剖析实现。
4. 利用成果
依照传统数据分析模式,依据“提出需要 -> 需要评审 -> 写需要单 -> 数据分析 -> 输入后果”的标准流程,数据诉求须要经验 3 - 5 天能力解决问题,通过 MVP 零碎能够疾速实现数据分析诉求,大大缩短工期,对剖析效率晋升显著。目前 MVP 数据分析系统曾经在外部应用,近期,应用 MVP 进行数据分析工作数达到 1500+,顶峰冲破两千次。
从“人工数据分析 -> 工具化数据分析”的转变,对数据分析效率晋升显著,更有利于数据驱动产品精细化经营。
5. 总结
本文尝试介绍从 0 到 1 实现一款轻量级大数据分析系统——MVP。目前 MVP 数据分析系统曾经在外部应用,对于晋升数据分析效率显著,为数据驱动产品业务增长赋能。同时,节俭了数据分析师的人力投入。前期,基于产品矩阵业务,在欠缺现有模块状况下,还将对各个增长工具进行进一步打磨,晋升 MVP 应用体验。
MVP 乘风出海,联合先悉数据平台服务产业端
MVP 作为外部零碎,目前为部门在挪动数据分析中节约了大量的工夫老本,并积淀了丰盛的互联网剖析模板与工具。在部门服务行业客户过程中,咱们发现 MVP 所代表的挪动数据分析解决方案,是目前传统产业数字化转型同样须要的必备工具。
为此,后续咱们利用轻量级数据平台——先悉 作为数据底座,解决了 MVP 对外部署的底层平台问题,开发了可独自私有化交付给行业客户应用的 MVP toB 版本,帮忙行业客户通过实时用户行为剖析、画像洞察为驱动,优化经营策略。
先悉数据平台是一款轻量级的大数据平台产品,有部署性价比高、运维便当、可私有化等特点,可能以“小而美”的形式满足中小规模我的项目的大数据利用落地。在具体我的项目实际中,先悉数据平台 +MVP 造成了一套优势互补的组合,目前曾经开始为行业客户提供“开箱即用”的挪动剖析服务。
先悉性能简介:
- 先悉具备高性能、批流一体的大数据组件,无需自行部署各类繁冗的开源组件,疾速实现私有化数据平台的部署;
- 先悉提供可视化工作流,作为数据开发平台,联合 Spark SQL 及咱们提供的 SPL,在图形化界面疾速开发一款数据利用;
- 先悉自带弱小可视化图表能力,可疾速建设一个可视化站点,向共事、客户及领导展现您的数据指标。
先悉数据平台征询 / 商务单干:_Xdata_Suite@tencent.com_
参考文章:
[1] https://zhuanlan.zhihu.com/p/54907288
[2] https://clickhouse.tech/docs/en/sql-reference/statements/create/
看腾讯技术,学云计算常识,关注云加社区