关于算法:哈啰出行精准营销框架及算法实践

2次阅读

共计 3723 个字符,预计需要花费 10 分钟才能阅读完成。

导读:本次跟大家分享的是哈啰出行精准营销场景的算法与实际,包含以下几大部分:

  • 精准营销的背景和价值
  • 精准营销框架
  • 精准营销算法能力
  • 将来方向

精准营销的背景和价值

首先和大家分享一下精准营销背景和价值。

精准营销的业务背景

哈啰由出行逐步迈向服务电商,除了两轮以外,还包含本地生存、酒店和电动车等多种业务。须要通过精准营销去实现各个新业务的用户增长。咱们的业务指标是通过用户全生命周期精准营销和精细化经营,去晋升用户增长的北极星指标。

精准营销的场景和流程

依照用户生命周期来划分,精准营销的场景次要分为三个方面:

  • 拉新:次要是充沛去开掘一些潜在用户。
  • 沉闷:次要是为了留存和促活目前曾经有的存量用户。
  • 挽留:次要是通过一些精准营销的形式去召回一些散失用户,最终去晋升各个新业务的 DAU。

流程包含三大部分:

  • 首先是 who,也就是指标群组;
  • 接下来 what,投什么内容;
  • 之后是 how,以什么样的形式去投。

最初进行精准营销。

精准营销业务痛点

精准营销业务次要蕴含以下四个痛点:

  • 寻找精准人群的效率低:次要体现在是要凭经营人工大量的去测试。
  • ROI 比拟低:次要体现在营销老本很高,然而理论的收益却是很低。
  • 算法覆盖面低,接入效率较低:次要体现在仅可能笼罩局部人群的局部场景,定制化是很重大的。
  • 未造成体系化:次要体现在不足营销后的剖析优化,没有造成一个精准营销的闭环。

精准营销我的项目价值

精准营销的我的项目价值次要体现在以下两个方面:

  • 提效:次要体现在两点,第一点是晋升精准营销的效率,次要体现在经营能够间接对算法的精准人群包去进行营销,不必去做后期的大量测试。第二点,次要是晋升转化率,次要是通过精准营销人群模型的搭建,去晋升业务点击率,预计晋升 CTR 的幅度是 20%。
  • 增收:通过精精准营销能够晋升业务的订单量,预计能够晋升 20%。

精准营销框架

在搭建精准营销框架之前,须要深刻理解业务,找到哈啰精准营销场景的特点,并找到对应的解法。

精准营销场景特点与解法

通过后期的数据分析和调研发现,目前哈啰精准营销的场景特点和咱们针对性的解法次要有以下三方面:

  • 精准营销场景泛滥,定制化反复开发:算法从模块化逐渐走向组件化,以及最终走向的平台化。
  • 高质量人群须要持续扩量:采纳目前业界比拟先进的半监督框架 Pu-Learning。
  • 种子用户过少,不足以算法建模:去通过一些无监督的学习办法,进行智能放量。

精准营销业务框架

精准营销的业务框架次要分为以下三大模块:

  • 特色解决:次要分为离线特色解决和实时特色解决,离线的特色解决次要是通过埋点数据计算出的离线表提前存储到机器本地。实时特色次要是通过 Flink 去计算一些实时特色,将其存储在 Redis 中。
  • 精准营销:包含算法、用户剖析平台和投放平台模块。首先是算法,算法次要分为两个点,第一个就是行业包,所谓的行业包就是在 Pu-Learning 框架下的 LookAlike 建模办法。第二点是智能放量,通过 Graph Embedding 无监督学习的形式去失去用户之间的 embedding,之后通过向量引擎去计算用户和用户之间的类似度,失去每个用户的 top n 类似用户。其次是用户剖析平台模块,经营首先创立由原子标签组成的种子人群群组,而后抉择是否进行智能放量,如若抉择,算法将会返回放量后的指标群组。再次是投放平台,当经营在进行工作投放时,首先须要创立工作,而后抉择工作计划,这个计划就是用户剖析平台返回的指标群组,之后进行工作的下发,以及一些 ab 成果的回收。
  • 算法场景:次要是业务拉新、业务促活和业务散失。流动方面,次要蕴含资源位的投放,Banner,站内信,或者是 push。

精准营销技术框架

接下来站在技术的视角去看精准营销的框架。

经营在创立营销工作时,首先抉择工作计划,这个计划背地是用户的指标群组,此群组由两个局部形成:

  • 由行业包造成的群组:通过一些离线的样本和特色,离线训练模型,将模型部署在 DataMan,最初造成一个离线的预测工作。此工作将输入的数据存储在 hive 表,尔后将表数据存储在 ES 中,造成标签,最终形成指标群组。
  • 智能放量服务放量后的指标群组:业务前端收集行为埋点数据,将其存储在 kafka 中,而后通过 flink 实时计算,将计算出的实时特色,存储在 Redis,当智能放量服务应用时,间接从特色平台取数据。

精准营销算法能力

Pu-Learning 框架下的 LookAlike 建模办法

什么是 lookAlike?它不是一种特定的算法,而是一种思维,次要是依据种子用户去寻找类似的拓展人群。

怎么做 lookAlike?次要分为两个办法:利用机器学习模型进行隐式人群拓展;利用社交图构造的类似人群拓展。其中机器学习模型次要分为有监督、半监督和无监督三类,在有监督学习,分类过程中,所有的训练数据都是有标签的;在半监督学习中,训练数据的一部分是有标签的,另一部分没有标签,并且没标签数据的量经常远大于有标签的量。而在无监督学习中是没有标签的。

在做 lookAlike 的时候遇到的挑战,以及对应解决方案:

  • 新业务用户特色稠密:稠密次要体现在,哈啰目前以两轮流量给新业务导流,并且两轮的用户群体基数是比拟大的。然而新业务在起量时,用户往往是比拟少的,所以会导致用户行为特色的稠密。对此,采纳的解决方案是应用两轮特色。
  • 可用特色较少:对此解决方案是剖析各业务间的共性,失去业务之间的穿插特色。
  • 高质量人群须要持续扩量:对此采纳的计划是采纳的是业界目前比拟先进的 Pu-Learning 框架。

面对多个业务多阶段倒退的时候,算法迭代分为以下两个阶段:

  • 采纳 GBM 有监督学习模型。正样本是新业务实在转化的种子用户,负样本是从一些未转化的用户外面随机去选取的一部分样本。因为各个业务间存在差别,业务成绩晋升 30%-130% 不等。
  • 采纳 TSA 半监督模型。此模型次要分为两步,第一步在未标记样本中辨认出一些牢靠的负样本,第二步在正样本和第一步取得的牢靠负样本上进行有监督的学习。

传统 TSA 建模流程如下:

  • 第一步:将正样本混入未标注样本中(特务样本),将他们对立视为负样本进行第一次的模型训练,训练完之后,次要是通过抉择正样本的分数范畴去抉择出一些牢靠的负样本。具体如上图。
  • 第二步:在正样本和第一步失去的牢靠负样本上进行监督学习。

优化的 TAS 建模流程如下:

  • 对传统 TSA 的第一步,采纳 EM 模型。其中 EM 中为特务样本分布的最小值,为算法离线指标 recall 很高时的概率。
  • 对正样本进行数据加强,即对正样本进行裁减,裁减的办法是将 [є2,1] 间的样本也视为真正样本,而 [0,є1] 间的样本视为真负样本,输出到 DeepFM 模型进行训练。

优化 TSA 的业务成绩:在保障就是 ROI 不升高的状况下,人群数量扩 3-10 倍。

Graph Embedding 在精准营销上的工业级利用

Graph Embedding,次要是基于用户关系链去寻找类似的人群。分为两个步骤,首先是获取用户 Embedding,其次计算用户间 Embedding 类似度。首先是 Embedding 的获取,次要是利用某种无监督机器学习办法失去。

在做 Graph Embedding 时面对的挑战和对应计划:

  • 种子人群少,如何扩量:无监督计算 Embedding 类似度。
  • 如何构图:时空信息构图。
  • 如何加强序的概念:APP 点击序列。

时空信息构图由点、边形成。点指的是用户。边指的是用户与用户在同一地块、同一时间、同时产生的行为。其中用户行为,次要包含用户对单车的扫码和关锁等。权重是无向等权,即当用户在一个地块一个时间段同时产生某种行为时,它们之间会有一条边,并且此边是等权重的。

而后采纳 DeepWalk 失去用户的 Embedding。DeepWalk 的原理是先在图中随机走出一个门路,之后将门路序列输出到 Skip-Gram 里进行训练,最初失去用户的向量。

然而上述做法存在肯定的有余,即只思考了用户和用户之间的关系,没有将用户之间自身的一些个性加到模型中。因而后续第二个迭代版本采纳的是 EGES 模型,其次要和以上做法有两点不同:

第一点:把用户 Side information 退出到模型。

第二点:不同类型用户 Side information 设置不同权重。

在后面两个算法迭代版本中,次要是两轮的骑行行为,用户间的关系以及用户自身个性三大方面的特色,然而要思考哈啰 APP 的所有用户,所以第三个迭代局部是将一些 APP 的行为序列给加进去。

工业级向量类似度的计算方法,采纳向量引擎 Milvus,它的次要长处有两个:

第一:可达到近实时查问的成果。

第二:集成了多个向量索引库,可在限定的工夫内给业务返回后果。

此次业务成绩次要体现在两个方面:

  • 覆盖度:全面平台化,0 老本反对智能放量人群包,并笼罩 60% 场景。
  • 晋升度:ROI 晋升 20+%。

将来方向

最初来讲一下咱们对精准营销的将来布局。

  • 首先是图的构建,因为数据是模型的下限,在 Graph Embedding 里,首先要做到的是把图构建好。后续咱们有两个布局,用户公域点击行为和用户私域点击行为。
  • 第二是智能放量阈值,目前抉择阈值次要是经营,比方想扩 10 倍或 1000 倍,就是随机靠人工去拍板。前面心愿建设一个阈值举荐机制,能够通过背地的算法举荐 ROI 最高状况下的放量倍数。

(本文作者:郁丽萍)

正文完
 0