在产品精细化经营时代，常常会遇到产品增长问题：比方指标涨跌起因剖析、版本迭代成果剖析、经营流动成果剖析等。这一类剖析问题高频且具备较高时效性要求，然而在人力资源缓和状况，传统的数据分析模式难以满足。本文尝试从0到1实现一款轻量级大数据分析系统——MVP，以解决上述痛点问题。

文章作者：数据熊，腾讯云大数据分析工程师。

一、背景及问题

在产品矩阵业务中，通过仪表盘能够疾速发现增长中遇到的问题。然而，如何疾速洞悉问题背地的起因，是一个高频且简单的数据分析诉求。

如果数据分析师通过人工计算剖析，往往会占用0.5-1天工夫能力找到起因。因而，人工计算剖析形式，占用人力大，且数据分析效率低。

另外，产品版本迭代与业务经营流动，也须要对新版本、新性能、新流动进行疾速数据分析，已验证成果。因而，在产品矩阵业务精细化经营中，存在大量的数据分析诉求，且须要疾速实现。

在传统的数据分析模式下，对于每个需要，个别须要经验3-5天能力解决问题。除此之外，该模式还须要大量数据分析师对接需要。因而，在数据分析师人力紧缺状况下，该模式无奈满足产品增长的数据分析诉求。

二、解决办法

在传统数据分析模式生效状况下，急需开辟新的数据分析模式，以疾速满足产品增长的数据分析诉求。

为此，笔者和我的项目小团队从0到1实现一款轻量级大数据分析系统——MVP，心愿通过MVP数据分析，驱动产品从”Minimum Viable Product” to “Most Valuable Product”。

除此之外，通过MVP数据分析系统，一方面心愿晋升数据分析效率；另一方面心愿节俭数据分析人力。

MVP数据分析系统分为四个模块，在产品业务-经营指标模块，基于AARRR模型对产品增长指标剖析，剖析产品增长北极星指标；在指标异样-根因预警模块，对增长指标异动进行监控，并提供根因线索；在剖析工具-增长剖析模块，对用户行为进行深入分析，洞悉用户行为；在AB-Test试验评估模块，对业务决策计划进行试验，评估业务决策的合理性。通过四个模块，实现数据分析驱动产品精细化经营。

三、技术实现

一款轻量级大数据分析系统，至多须要从数据建模、技术选型、页面交互三方面实现。数据建模如水流，贯通整个数据分析系统；技术选型是基础设施，撑持整个零碎高效运行；页面交互是面向用户，用数据谈话，对业务增长进行数据赋能。

1. 数据建模

在开发MVP之前，因为历史起因，现有的产品矩阵中产品与产品之间，存在数据建设扩散、数据开发反复、数据隔离等问题，一个用户会存在多条信息记录。

这种数据格局，不仅会导致计算、存储、人力资源的节约，更重大的是会很大水平影响下层数据利用的效率。因而，旧的数据模式行不通，须要开辟新的数据模式。

MVP数据分析系统底层数据建设，一方面基于“用户(User)+事件ID(Event)+配置(Config)”思路，对产品数据信息进行高度形象整合，收敛产品矩阵业务数据；另一方面，基于Key-Value模型，生成用户大宽表，一个User_Id仅有一条记录信息。

2. 技术选型

在日常产品数据可视化中，通常会想到应用MySQL进行页面交互式数据分析，然而MySQL数据库承载数据能力在百万级，适宜对后果型数据进行剖析，对于上亿级数据是无能为力。

在简单的数据分析场景中，通常须要基于用户画像与用户行为，对用户进行OLAP多维自在穿插组合分析。因而，对于百万级以上的产品业务，应用MySQL是无奈满足OLAP实时剖析，须要尝试新的技术选型。

为了实现实时OLAP剖析，对业界的大数据分析平台的技术计划咱们进行了调研比拟。业界存储引擎次要是HDFS与HBASE，计算引擎应用比拟多的是Impala，Druid，ClickHouse，Spark。Druid系统维护老本高，无Join能力，且语法利用绝对简单。

从计算速度角度，ClickHouse比Presto快2倍+，比Impala快3倍+，比SparkSql快约4倍，计算性能比拟如下。

实测数据，对2.2亿+条1.79GB记录数据，进行单表聚合0.095s，剖析速度18.95GB/s。

和Impala相比，ClickHouse能够通过JDBC间接导入，数据导入成本低，ClickHouse系统维护老本绝对低。另外，ClickHouse语法简略，易用性很强，对页面开发敌对，能够疾速开发出可视化页面。

基于下面这些因素，咱们采纳HDFS+ClickHouse+Spark技术计划。在这里，应用Spark补齐ClickHouse无奈进行大规模Join操作短板，比方解决大规模简单的关联剖析工作。

另外，Spark能够无缝拜访HDFS中Hive表数据，无需从新导数据，利用效率高。应用HDFS存储历史全量标签与行为数据（占比约80%），应用ClickHouse存储近期标签与行为数据（占比20%）。

3. 页面交互

MVP页面交互模式，80%数据分析诉求是能够间接通过页面实时剖析实现，剩下约20%简单剖析工作，是通过提交工作式剖析实现。

页面实时剖析秒级返回剖析后果，提交工作式剖析须要5-15分钟返回后果。经营指标体系、事件模型剖析、漏斗模型剖析、留存模型剖析等，是通过页面实时剖析实现，用户人群画像洞察、用户趣味偏好洞察是通过提交工作式剖析实现。

4. 利用成果

依照传统数据分析模式，依据“提出需要->需要评审->写需要单->数据分析->输入后果”的标准流程，数据诉求须要经验3-5天能力解决问题，通过MVP零碎能够疾速实现数据分析诉求，大大缩短工期，对剖析效率晋升显著。目前MVP数据分析系统曾经在外部应用，近期，应用MVP进行数据分析工作数达到1500+，顶峰冲破两千次。

从“人工数据分析 -> 工具化数据分析”的转变，对数据分析效率晋升显著，更有利于数据驱动产品精细化经营。

5. 总结

本文尝试介绍从0到1实现一款轻量级大数据分析系统——MVP。目前MVP数据分析系统曾经在外部应用，对于晋升数据分析效率显著，为数据驱动产品业务增长赋能。同时，节俭了数据分析师的人力投入。前期，基于产品矩阵业务，在欠缺现有模块状况下，还将对各个增长工具进行进一步打磨，晋升MVP应用体验。

MVP乘风出海，联合先悉数据平台服务产业端

MVP作为外部零碎，目前为部门在挪动数据分析中节约了大量的工夫老本，并积淀了丰盛的互联网剖析模板与工具。在部门服务行业客户过程中，咱们发现MVP所代表的挪动数据分析解决方案，是目前传统产业数字化转型同样须要的必备工具。

为此，后续咱们利用轻量级数据平台——先悉作为数据底座，解决了MVP对外部署的底层平台问题，开发了可独自私有化交付给行业客户应用的MVP toB版本，帮忙行业客户通过实时用户行为剖析、画像洞察为驱动，优化经营策略。

先悉数据平台是一款轻量级的大数据平台产品，有部署性价比高、运维便当、可私有化等特点，可能以“小而美”的形式满足中小规模我的项目的大数据利用落地。在具体我的项目实际中，先悉数据平台+MVP造成了一套优势互补的组合，目前曾经开始为行业客户提供“开箱即用”的挪动剖析服务。

先悉性能简介：

先悉具备高性能、批流一体的大数据组件，无需自行部署各类繁冗的开源组件，疾速实现私有化数据平台的部署；
先悉提供可视化工作流，作为数据开发平台，联合Spark SQL及咱们提供的SPL，在图形化界面疾速开发一款数据利用；
先悉自带弱小可视化图表能力，可疾速建设一个可视化站点，向共事、客户及领导展现您的数据指标。

先悉数据平台征询/商务单干：_Xdata_Suite@tencent.com_

参考文章：

[1] https://zhuanlan.zhihu.com/p/54907288

[2] https://clickhouse.tech/docs/en/sql-reference/statements/create/

看腾讯技术，学云计算常识，关注云加社区

HDFSClickHouseSpark从0到1实现一款轻量级大数据分析系统

一、背景及问题

二、解决办法

三、技术实现

1. 数据建模

2. 技术选型

3. 页面交互

4. 利用成果

5. 总结

MVP乘风出海，联合先悉数据平台服务产业端

评论

发表回复取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

HDFSClickHouseSpark从0到1实现一款轻量级大数据分析系统

一、背景及问题

二、解决办法

三、技术实现

1. 数据建模

2. 技术选型

3. 页面交互

4. 利用成果

5. 总结

MVP乘风出海，联合先悉数据平台服务产业端

评论

发表回复 取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

发表回复取消回复