乐趣区

关于大数据:网易云音乐用户画像资产治理及业务赋能

针对业务场景中数据利用价值的落地,网易数帆造成了以 DataOps、DataFusion、DataProduct 为内核,数据技术、数据资产、数据利用和数据经营为四因素的数据生产力模型,其中网易公司数据经营的一个重要伎俩是网易数据治理大赛。本文是第二届网易数据治理大赛获奖作品分享,来自于网易互娱用户体验核心数据团队。云音乐用户画像资产,存在链路强耦合、计存高老本、口径不对立、产品性能又有余的现状问题。本年度通过肯定的治理和产品能力扩大,实现资产治理和业务赋能。

在现在降本提效的大背景下,用户画像资产在人维度数据上占据大头资源,历史遗留问题也不少,数据治理火烧眉毛。本文将从我的项目背景、我的项目挑战、我的项目计划、我的项目成绩四个方面进行分享论述,心愿分享能帮忙到大家。

1 我的项目背景

着重阐明下业务和技术背景。首先是业务背景,云音乐现阶段用户增长瓶颈总量几十亿用户,日活几千万左右,月活几亿,想要再增长用户老本极高,精细化经营曾经是破圈的必须伎俩。面对当初不同的用户人群,具备不同的商业化潜质,须要对不同人进行商业化分层,能力更好的帮忙用户精细化运行。除了主站业务的拓展,子业务扩大也是火烧眉毛,用户画像能够帮忙子业务从主站业务开掘和扩大须要的用户群体,帮忙做业务扩大,扩单云音乐整体营收能力。

再说技术背景,次要也分 3 块内容,历史用户画像建设标签反复建设,多达 32 张相干画像表存在,局部依赖层级多,且标签反复建设。圈选产品不对立,存在多套产品,比方 muse、诺伦、sniper 等,产品侧须要做肯定的重组。圈选产品的响应速度,也是整个产品取得用户依赖的外围指标,通过肯定的技术改造实现从 sql 圈选到 ms 级圈选能力是很有必要的。

综上,能够概括为云音乐用户画像资产,存在链路强耦合,计存高老本,口径不对立,产品性能又有余的现状问题。

2 我的项目挑战

数据侧难点:数量大,链路长,时效低,口径多。数量大体当初用户画像波及上千指标,须要对这些指标做对立的治理,确保指标及其对应表的高内聚底耦合,工作链路存在很多 7 - 8 层的工作层级,层级越多,工作的稳定性越差,须要对工作链路进行压缩;实效性方面,现阶段工作的时效性不高,每天产出的工夫是 10 点左右,远没有达到用户须要的 6 点时效性要求,须要进行产出工夫的压缩;对于工作的一致性,须要进行,则是如此之多的画像指标,如何做到指标的一致性是具备很大挑战的。

3 我的项目计划

3.1 计划框架

针对以上内容,这些脏乱差数据应该如何治理是值得咱们花工夫去做的事件。本我的项目结合实际可实现的内容,整顿并欠缺整个我的项目计划,以治理降本和产品提效为两大主线为解决方案,如下图:

从图中能够看出,整个我的项目分为五层。底层为画像底表层,包含流量数据、用户中台数据、内容数据、会员数据、社区数据等数仓公共层数据;下层为画像逻辑层,通过对底层数据进行实体关系建模,形象成用户根底画像、用户行为画像、用户统计开掘几大块内容。

用户画像的逻辑层建模就是为了实现整个画像层,能够实现数据的一致性规范,确保数是高内聚低耦合的,同时也确保了整体的可扩展性,比方新增游戏业务的话,那就在行为画像中增加游戏实体,能够实现整个逻辑层的可扩大而不须要重构整个内容。

画像的应用层,测试整个画像的输入局部,包含画像外围全量表,以及各类画像的切片画像,如会员画像、日活画像、月活画像等等。

画像产品层是基于画像数据进行的画像产品,包含魔镜圈选产品,实现标签治理的标签工厂,实现标签服务化的标签服务能力等等。

在画像逻辑层和画像应用层波及整个画像的治理工作,包含画像的产出保障以及工作下线。

再向上则是最终服务业务的业务产品,魔镜通过买通和业务产品的能力,比方买通灵渠,能够实现从用户人群圈选到用户 push 的买通构建。还有天秤、音乐人经营等产品。

3.2 标签建设

用户画像标签建设以需要触发为出发点,需要调研 case 如下左表。需要起源包含各线分析师、魔镜、标签工厂产品、经营同学等。通过联合数仓分层和 ER 实体关系建模的办法、依靠业务诉求,设计画像逻辑层。实现数据的高内聚低耦合,从而确保了良好的可扩展性。

比方歌单、歌曲、直播、mv 都是实体对象,通过与用户的二元叉乘失去相干数据指标,后续业务扩大游戏等,也可间接实现用户叉乘游戏,实现横向实体扩大。确保实体内数据高内聚,实体间数据低耦合。

3.3 保障体系

保障体系重点在于数据品质的监控保障,以数据稳定性、一致性、及时性、唯一性、完整性、准确性为外围保障内容,具体工具和形式见下图所示:

3.4 工作下线

工作下线机制则次要以定策略,用工具为次要伎俩,逐渐推动下线。

3.5 魔镜产品

用户画像上游接入魔镜产品,实现用户画像表服务各类业务的圈选性能,上游链接各类产品投放产品,实现画像数据的业务赋能。

4 我的项目成绩

我的项目成绩从产品价值、治理价值、业务价值三大块阐明。

4.1 产品价值

对立数据服务基于画像数据及标签元数据提供高效的标签服务、圈选服务,根本笼罩了云音乐全副业务圈选服务,利用于用户经营、线上流动、AB 试验、广告投放等多个产品及场景。对立数据凋谢接口的提供为用户经营、线上流动、AB 试验、广告投放全业务线提供服务,做到一次开发多产品应用,缩小人力开发成本。

产品总计实现 1900 屡次人群包圈选,百亿次圈选,500 万次多的 push 服务,笼罩音乐几十亿用户和上百 + 标签。

4.2 治理价值

总体预计下线 32 张表,上千多标签治理,预计节约存储老本近 150 万,年节俭计算成本近 200 万,预计年度总节俭 300 多万元。

 4.3 业务价值

除了产品链路买通后大大节俭了 push 时效外,还有子业务的画像服务场景,也大大体现了业务价值。比方某子业务应用主站用户标签数据,每日实现拉新几千用户,年可节俭千万左右老本。

以上是对云音乐数据画像资产治理实际的分享,在这里感激网易数帆大数据团队对咱们的各种反对。

试用网易大数据产品

退出移动版