关于人工智能:基于MaxComputePAI的用户增长方案实践

简介：如何通过PAI+MaxCompute实现用户增长模型AARRR全链路，蕴含拉新、促活、留存、创收、分享。

本文作者李博阿里云智能高级产品专家

在过来一年阿里云PAI机器学习团队做了很多偏业务的实际，其中有一条就是基于 MaxCompute+PAI的产品计划实际，解决客户遇到用户增长相干的问题。本文次要分享，阿里云团队在用户增长畛域的一些摸索和实际。心愿能够通过本次分享给大家在用户增长方面带来一些帮忙。

一、用户增长模型

AARRR

用户增长更多的是针对互联网类型的公司，互联网客户的业务实质上都是在解决用户增长的问题。用户增长从业务角度讲有很多的模型。明天次要针对AARRR用户增长模型进行解说。

互联网APP经营同学应该是十分相熟AARRR模型，这个模型是把整个互联网产品的用户增长做为一个环状构造，首先最上方是对业务比拟重要的拉新，拉新对应到业务指标是拜访、下载、注册、关注。之前几年拉新是十分火，是因为互联网用户红利还在。但当初中国互联网用户曾经到了一个天花板，那咱们的产品该如何增长，就对上面几局部尤为重要。比方当初小说类的APP是比拟火的，因为当咱们用户量不能增长的时候，做用户时长的减少尤为重要，所以小说业务有助于拉长用户在APP外面的停留时长。促活的指标是登录、点击浏览、停留时长。接下来就是留存，当咱们没有方法获取新用户的时候，咱们要尝试把咱们的不沉闷用户和散失用户召回。MaxCompute+PAI在留存方面有很多经典案例存在。互联网APP怎么基于流量和用户行为进行创收，这部分在AI畛域也能够做很多工作。裂变型的APP会更加关注分享指标。

那在整个AARRR用户增长模型外面，MaxCompute+PAI能在哪个模块外面能做哪些工作？能给客户带来哪些价值？

MaxCompute+PAI业务撑持架构

MaxCompute+PAI做为底座撑持用户增长，产品架构如下图。

从计算引擎层是 MaxCompute，计算引擎之上就是AI的场景，咱们重点介绍的是基于PAI机器学习的AI能力来赋能用户增长的业务场景。首先咱们提供了凋谢框架，能够基于TensorFlow\PYTorch，SQL\PYSpark\Spark开发本人的算法模型。再下面的产品层就是PAI机器学习的产品体系，整个产品体系也做为咱们一个业务的撑持，包含PAI-DLC(云原生深度学习运行环境）能够把本人的code训练脚本打包成一个镜像包在DLC内运行、PAI-Studio（可视化建模）会将用户增长畛域相干的算子做成模块化通过简略的拖拽，就能够来做整个用户增长的模型训练、PAI-DSW（交互式建模）对于技术能力比拟强的开发者，能够本人开发相应的脚本，而不是应用咱们封装好的脚本、PAI-EAS(模型在线服务）能够把studio和DSW生成的模型生成一个RESTful API，再通过HTTP申请的形式调用该服务。生成的RESTful申请就能够撑持解决方案，包含广告RTA解决方案、广告DSP计划、智能举荐计划、用户召回计划、LTV计算计划。解决方案最终是要解决用户增长问题，包含拉新、促活、留存、创收、分享。

二、MaxCompute+PAI用户增长分类目具体计划

用户增长-拉新

以后通过广告拉新仍然是互联网客户的一个外围重要的伎俩。在广告行业有一个比拟风行的计划是RTA。在RTA计划里MaxCompute+PAI的作用是什么呢。首先看下RTA的原理，过来一个APP想要拉新用户，会把钱投放给DSP广告投放平台，由平台去圈选用户进行竞价。那RTA做了一件事件，就是当广告主心愿能管制一些DSP人群，之前是没有方法的，在RTA技术支持下，凋谢一个接口，每一次广告平台在圈选用户时，会申请一个模型，这个模型的作用就是通知平台，这个用户要不要。那MaxCompute+PAI就能够帮客户生成这样的模型。

通过MaxCompute做数据清理，通过PAI做竞价模型的训练，通过模型筛选值得投放的用户。

外围劣势

1.弱小的数据计算能力：MaxCompute提供PB级别的数据计算能力。

2.丰盛的算法：PAI提供LR、GBDT等经典机器学习算法，同时也提供DeepFM、MultiTower等深度学习算法。

用户增长-促活

在新用户都比拟少的状况下，咱们心愿存量客户能在咱们平台下面浏览时长减少，更多的点击。关上一个互联网APP，70%以上的APP都有一个feed流举荐也能够叫相关性举荐，这个零碎举荐率精确的高下是影响用户在平台下面的活跃度。如果举荐的内容都是用户喜爱看的，喜爱浏览的，会人造的减少平台下面的点击量，并且停留时长会减少。比方业内比拟火的短视频APP，其实都是有比拟好的个性化举荐零碎。那么怎么基于MaxCompute+PAI构建一套举荐零碎。如下图所示能够基于MaxCompute+PAI+DataWorks+Hologres+Flink做一套相关性举荐零碎。更加具体信息可参考文章：PAI平台搭建企业级个性化举荐零碎

做好一个举荐零碎首先须要一个线上的服务模块，服务模块能够分为多路召回、过滤、排序、冷启动。召回模块是做一个粗筛，比方一个用户进来，咱们平台存量有1000万个商品，拿这个用户跟1000万个商品去做比对，其实计算量十分大。那召回就是我先粗筛一下，比方选出几百个商品，这个时候我再做这个用户对这几百个商品的排序，整个计算的复杂性就会变的非常低。

那召回跟排序这两个模型怎么用MaxCompute+PAI训练进去？从架构图上来看，最底层咱们要把用户的行为日志、用户画像数据、物料属性数据这三个外围的表，上传到MaxCompute中，利用DataWorks针对表做一个特色加工，加工出训练样本、用户个性数据、物料特色数据。接下来进入到PAI-Studio，一个内置的建模平台，外面内建了大量举荐畛域的算法，比方PAI-EasyRec、GraphLearn、Alink。咱们利用PAI-Studio外面的召回算法，生产一些根底的召回表，比方u2i、i2i、c2i，把这些后果放到Hologres外面，这个咱们能够把多路召回服务跟Hologres做一个关联，解决了咱们召回模型训练的问题。

排序服务能够在PAI-Studio外面抉择排序算法，生产排序模型，排序模型能够部署到PAI-EAS外面，变成一个RESTful API，这样排序模块就能够申请排序模型的RESTful API，生产一个实时的排序后果返回。

通过咱们的多路召回，把一些反复的商品过滤掉，在进行排序，就能够拿到一个TopN举荐列表。就能够展现到APP的feed流外面。那MaxCompute+PAI的价值就是实现整个排序业务的数据处理以及模型训练。这一整套相关性举荐零碎，会无效晋升咱们APP里feed流的CTR、CVR的转化率，帮忙APP晋升用户的活跃度和停留时长。

用户增长-留存

当一个APP的存量用户做到百万、千万、上亿时，在数据库中寄存大量历史用户，然而又有一段时间没有应用APP的用户。所以当下互联网拉新艰难的状况下，咱们须要对“沉睡”用户和散失用户做一个召回。以后互联网行业比拟风行的计划还是通过短信召回，因为短信没有打电话的局限性，也不会像push那样被拦挡。针对短信来讲，触达用户的成果和概率还是比拟高的。

基于MaxCompute+PAI曾经对很多行业用户，如小说、社交、游戏等行业，构建了散失用户短信召回解决方案。

大体的做法就是把用户埋点数据存到MaxCompute中，通过DataWorks做特色加工，用PAI机器学习平台训练一个散失用户召回模型，之后就能够针对已有的存量用户做一次预测，预测出哪些存量用户当用短信触达时，回到APP的概率比拟高，这样咱们就能够只针对这部分高概率用户进行短信召回，这样能够节俭咱们的召回老本，并且晋升咱们的召回率。

客户案例

客户为一家陌生人社交APP，库内有近千万级别的沉睡用户。通过短信实现散失用户的召回。

PAI外围价值：

用了PAI之后百万条短信召回比例从3%晋升至8%，成果晋升267%，变相降低成本2倍左右。

用户增长-LTV分计算&分享分计算

通过PAI+MaxCompute构建分数预测模型，能够对LTV分、分享概率分进行预测。

当APP通过广告带来一个用户时，都会关怀这个用户会不会付费，或者说产生的APP值有多少。有的客户须要在新用户进来的同时，计算出将来这个用户在APP上的生产状况是多少。如果这个用户是一个高价值用户，那就须要通过优惠券或者补贴的的形式来进行用户激活。咱们提供了LTV计划，举个例子，比方一个APP的新用户，咱们怎么计算他的LTV分呢？

找一个第三方的数据源，因为新用户在APP内还没有任何行为日志产生。MaxCompute+PAI会提供一套联结建模的计划，合乎可信计算规范。也就是说用户数据和第三方数据不会有任何接触，两方数据能够联邦建模，在PAI内生成模型，这个模型能够对每一个新用户进行LTV打分，针对LTV分领导后续经营流动。

客户案例

场景介绍：客户是一家小说平台，对于纯新用户，须要做30天内购买VIP服务的预测。以便在用户还简直没有什么行为时，可能对用户将来购买VIP的行为进行预测，能够让新用户经营对症下药，进步经营效率。

对于纯新用户购买VIP判断准确率晋升显著，圈选出40%左右的用户作为训练数据，联邦建模生成的模型就能够将67%的会天然购买VIP的会员辨认进去，进步67.5%的经营效率（和随机圈选用户进行比拟）。

三、实操介绍-散失用户召回

数据上传到MaxCompute

通过MaxCompute的Tunnel命令上传数据到我的项目中：tunnelupload{file}{table};

文档链接：https://help.aliyun.com/docum...

构建Workflow

进入PAI-Studio实现workflow的构建。

构建训练样本：7天不登录的作为散失用户

通过筛选注册日期和最初一次登录工夫能够确定哪些用户是7天不登录用户。

特色加工

通过加工把数据变成结构化数据。

One-hot编码

One-Hot编码能够将类别变量转换为机器学习算法易于应用的模式，通过One-Hot转换后的格局如下图所示。

模型训练和评估

进行逻辑回归的模型训练，PAI平台上有几十种的分类模型，判断发短信是否能召回能够定义为二分类问题，yes/no。能够应用二分类算法，进行模型训练。逻辑模型训练完后，咱们把一部分数据做为测试数据，就能获取到模型成果。咱们在二分类评估上面生成一个模型评估报告。ROC值的面积越大阐明模型成果越好。

模型预测

生成完模型后，咱们能够把模型部署成RESTful服务，供业务方或者是经营同学去调用。调用格局如下图所示：

原文链接
本文为阿里云原创内容，未经容许不得转载。