简介:如何通过 PAI+MaxCompute 实现用户增长模型 AARRR 全链路,蕴含拉新、促活、留存、创收、分享。
本文作者 李博 阿里云智能 高级产品专家
在过来一年阿里云 PAI 机器学习团队做了很多偏业务的实际,其中有一条就是基于 MaxCompute+PAI 的产品计划实际,解决客户遇到用户增长相干的问题。本文次要分享,阿里云团队在用户增长畛域的一些摸索和实际。心愿能够通过本次分享给大家在用户增长方面带来一些帮忙。
一、用户增长模型
AARRR
用户增长更多的是针对互联网类型的公司,互联网客户的业务实质上都是在解决用户增长的问题。用户增长从业务角度讲有很多的模型。明天次要针对 AARRR 用户增长模型进行解说。
互联网 APP 经营同学应该是十分相熟 AARRR 模型,这个模型是把整个互联网产品的用户增长做为一个环状构造,首先最上方是对业务比拟重要的拉新,拉新对应到业务指标是拜访、下载、注册、关注。之前几年拉新是十分火,是因为互联网用户红利还在。但当初中国互联网用户曾经到了一个天花板,那咱们的产品该如何增长,就对上面几局部尤为重要。比方当初小说类的 APP 是比拟火的,因为当咱们用户量不能增长的时候,做用户时长的减少尤为重要,所以小说业务有助于拉长用户在 APP 外面的停留时长。促活的指标是登录、点击浏览、停留时长。接下来就是留存,当咱们没有方法获取新用户的时候,咱们要尝试把咱们的不沉闷用户和散失用户召回。MaxCompute+PAI 在留存方面有很多经典案例存在。互联网 APP 怎么基于流量和用户行为进行创收,这部分在 AI 畛域也能够做很多工作。裂变型的 APP 会更加关注分享指标。
那在整个 AARRR 用户增长模型外面,MaxCompute+PAI 能在哪个模块外面能做哪些工作?能给客户带来哪些价值?
MaxCompute+PAI 业务撑持架构
MaxCompute+PAI 做为底座撑持用户增长,产品架构如下图。
从计算引擎层是 MaxCompute,计算引擎之上就是 AI 的场景,咱们重点介绍的是基于 PAI 机器学习的 AI 能力来赋能用户增长的业务场景。首先咱们提供了凋谢框架,能够基于 TensorFlow\PYTorch,SQL\PYSpark\Spark 开发本人的算法模型。再下面的产品层就是 PAI 机器学习的产品体系,整个产品体系也做为咱们一个业务的撑持,包含 PAI-DLC(云原生深度学习运行环境)能够把本人的 code 训练脚本打包成一个镜像包在 DLC 内运行、PAI-Studio(可视化建模)会将用户增长畛域相干的算子做成模块化通过简略的拖拽,就能够来做整个用户增长的模型训练、PAI-DSW(交互式建模)对于技术能力比拟强的开发者,能够本人开发相应的脚本,而不是应用咱们封装好的脚本、PAI-EAS(模型在线服务)能够把 studio 和 DSW 生成的模型生成一个 RESTful API,再通过 HTTP 申请的形式调用该服务。生成的 RESTful 申请就能够撑持解决方案,包含广告 RTA 解决方案、广告 DSP 计划、智能举荐计划、用户 召回计划、LTV 计算计划。解决方案最终是要解决用户增长问题,包含拉新、促活、留存、创收、分享。
二、MaxCompute+PAI 用户增长分类目具体计划
用户增长 - 拉新
以后通过广告拉新仍然是互联网客户的一个外围重要的伎俩。在广告行业有一个比拟风行的计划是 RTA。在 RTA 计划里 MaxCompute+PAI 的作用是什么呢。首先看下 RTA 的原理,过来一个 APP 想要拉新用户,会把钱投放给 DSP 广告投放平台,由平台去圈选用户进行竞价。那 RTA 做了一件事件,就是当广告主心愿能管制一些 DSP 人群,之前是没有方法的,在 RTA 技术支持下,凋谢一个接口,每一次广告平台在圈选用户时,会申请一个模型,这个模型的作用就是通知平台,这个用户要不要。那 MaxCompute+PAI 就能够帮客户生成这样的模型。
通过 MaxCompute 做数据清理,通过 PAI 做竞价模型的训练,通过模型筛选值得投放的用户。
外围劣势
1. 弱小的数据计算能力:MaxCompute 提供 PB 级别的数据计算能力。
2. 丰盛的算法:PAI 提供 LR、GBDT 等经典机器学习算法,同时也提供 DeepFM、MultiTower 等深度学习算法。
用户增长 - 促活
在新用户都比拟少的状况下,咱们心愿存量客户能在咱们平台下面浏览时长减少,更多的点击。关上一个互联网 APP,70% 以上的 APP 都有一个 feed 流举荐也能够叫相关性举荐,这个零碎举荐率精确的高下是影响用户在平台下面的活跃度。如果举荐的内容都是用户喜爱看的,喜爱浏览的,会人造的减少平台下面的点击量,并且停留时长会减少。比方业内比拟火的短视频 APP,其实都是有比拟好的个性化举荐零碎。那么怎么基于 MaxCompute+PAI 构建一套举荐零碎。如下图所示能够基于 MaxCompute+PAI+DataWorks+Hologres+Flink 做一套相关性举荐零碎。更加具体信息可参考文章:PAI 平台搭建企业级个性化举荐零碎
做好一个举荐零碎首先须要一个线上的服务模块,服务模块能够分为多路召回、过滤、排序、冷启动。召回模块是做一个粗筛,比方一个用户进来,咱们平台存量有 1000 万个商品,拿这个用户跟 1000 万个商品去做比对,其实计算量十分大。那召回就是我先粗筛一下,比方选出几百个商品,这个时候我再做这个用户对这几百个商品的排序,整个计算的复杂性就会变的非常低。
那召回跟排序这两个模型怎么用 MaxCompute+PAI 训练进去?从架构图上来看,最底层咱们要把用户的行为日志、用户画像数据、物料属性数据这三个外围的表,上传到 MaxCompute 中,利用 DataWorks 针对表做一个特色加工,加工出训练样本、用户个性数据、物料特色数据。接下来进入到 PAI-Studio,一个内置的建模平台,外面内建了大量举荐畛域的算法,比方 PAI-EasyRec、GraphLearn、Alink。咱们利用 PAI-Studio 外面的召回算法,生产一些根底的召回表,比方 u2i、i2i、c2i,把这些后果放到 Hologres 外面,这个咱们能够把多路召回服务跟 Hologres 做一个关联,解决了咱们召回模型训练的问题。
排序服务能够在 PAI-Studio 外面抉择排序算法,生产排序模型,排序模型能够部署到 PAI-EAS 外面,变成一个 RESTful API,这样排序模块就能够申请排序模型的 RESTful API,生产一个实时的排序后果返回。
通过咱们的多路召回,把一些反复的商品过滤掉,在进行排序,就能够拿到一个 TopN 举荐列表。就能够展现到 APP 的 feed 流外面。那 MaxCompute+PAI 的价值就是实现整个排序业务的数据处理以及模型训练。这一整套相关性举荐零碎,会无效晋升咱们 APP 里 feed 流的 CTR、CVR 的转化率,帮忙 APP 晋升用户的活跃度和停留时长。
用户增长 - 留存
当一个 APP 的存量用户做到百万、千万、上亿时,在数据库中寄存大量历史用户,然而又有一段时间没有应用 APP 的用户。所以当下互联网拉新艰难的状况下,咱们须要对“沉睡”用户和散失用户做一个召回。以后互联网行业比拟风行的计划还是通过短信召回,因为短信没有打电话的局限性,也不会像 push 那样被拦挡。针对短信来讲,触达用户的成果和概率还是比拟高的。
基于 MaxCompute+PAI 曾经对很多行业用户,如小说、社交、游戏等行业,构建了散失用户短信召回解决方案。
大体的做法就是把用户埋点数据存到 MaxCompute 中,通过 DataWorks 做特色加工,用 PAI 机器学习平台训练一个散失用户召回模型,之后就能够针对已有的存量用户做一次预测,预测出哪些存量用户当用短信触达时,回到 APP 的概率比拟高,这样咱们就能够只针对这部分高概率用户进行短信召回,这样能够节俭咱们的召回老本,并且晋升咱们的召回率。
客户案例
客户为一家陌生人社交 APP,库内有近千万级别的沉睡用户。通过短信实现散失用户的召回。
PAI 外围价值:
用了 PAI 之后百万条短信召回比例从 3% 晋升至 8%,成果晋升 267%,变相降低成本 2 倍左右。
用户增长 -LTV 分计算 & 分享分计算
通过 PAI+MaxCompute 构建分数预测模型,能够对 LTV 分、分享概率分进行预测。
当 APP 通过广告带来一个用户时,都会关怀这个用户会不会付费,或者说产生的 APP 值有多少。有的客户须要在新用户进来的同时,计算出将来这个用户在 APP 上的生产状况是多少。如果这个用户是一个高价值用户,那就须要通过优惠券或者补贴的的形式来进行用户激活。咱们提供了 LTV 计划,举个例子,比方一个 APP 的新用户,咱们怎么计算他的 LTV 分呢?
找一个第三方的数据源,因为新用户在 APP 内还没有任何行为日志产生。MaxCompute+PAI 会提供一套联结建模的计划,合乎可信计算规范。也就是说用户数据和第三方数据不会有任何接触,两方数据能够联邦建模,在 PAI 内生成模型,这个模型能够对每一个新用户进行 LTV 打分,针对 LTV 分领导后续经营流动。
客户案例
场景介绍:客户是一家小说平台,对于纯新用户,须要做 30 天内购买 VIP 服务的预测。以便在用户还简直没有什么行为时,可能对用户将来购买 VIP 的行为进行预测,能够让新用户经营对症下药,进步经营效率。
对于纯新用户购买 VIP 判断准确率晋升显著,圈选出 40% 左右的用户作为训练数据,联邦建模生成的模型就能够将 67% 的会天然购买 VIP 的会员辨认进去,进步 67.5% 的经营效率(和随机圈选用户进行比拟)。
三、实操介绍 - 散失用户召回
数据上传到 MaxCompute
通过 MaxCompute 的 Tunnel 命令上传数据到我的项目中:tunnelupload{file}{table};
文档链接:https://help.aliyun.com/docum…
构建 Workflow
进入 PAI-Studio 实现 workflow 的构建。
构建训练样本:7 天不登录的作为散失用户
通过筛选注册日期和最初一次登录工夫能够确定哪些用户是 7 天不登录用户。
特色加工
通过加工把数据变成结构化数据。
One-hot 编码
One-Hot 编码能够将类别变量转换为机器学习算法易于应用的模式,通过 One-Hot 转换后的格局如下图所示。
模型训练和评估
进行逻辑回归的模型训练,PAI 平台上有几十种的分类模型,判断发短信是否能召回能够定义为二分类问题,yes/no。能够应用二分类算法,进行模型训练。逻辑模型训练完后,咱们把一部分数据做为测试数据,就能获取到模型成果。咱们在二分类评估上面生成一个模型评估报告。ROC 值的面积越大阐明模型成果越好。
模型预测
生成完模型后,咱们能够把模型部署成 RESTful 服务,供业务方或者是经营同学去调用。调用格局如下图所示:
原文链接
本文为阿里云原创内容,未经容许不得转载。