乐趣区

关于算法:广告主视角下的信息流广告算法探索

导读:广告主不能像广告平台一样,获取到比拟多的用户维度的曝光数据,并且在广告主侧获取不到端外新用户的特色。本次分享会着重讲一下哈啰出行作为广告主,是如何在这些挑战下进行信息流广告算法建模摸索的。

本次介绍会围绕上面四点开展:

  • 信息流广告投放现状
  • 哈啰业务背景介绍
  • 广告主侧的算法优化计划
  • 将来方向

信息流广告投放现状

倒退历程

咱们在刷朋友圈、抖音、头条时,应该都看过信息流类型的广告。它是一种嵌入在媒体内容流中的广告模式,内容包含图片、图文、视频等等。它的次要个性是内容的价值性和原生性。对于受众来说,信息流广告可能为用户提供更多有内容,有价值的货色,而不是单纯的广告。所以它的内容植入和出现不会毁坏页面自身的谐和度,用户角度体验感也是比拟好的。

上图右边的图展现了信息流广告的发展史,信息流广告最早在 2006 年呈现在 Facebook 上,11 年呈现在 Twitter 上,12 年利用在微博,14 年头条,15 年朋友圈。直到 16 年进入了全面暴发阶段,百度、快手、UC 等都相应地推出了信息流广告。上图右侧的图展现了搜寻广告、电商广告、信息流广告在整个市场上的占比。能够看出,从 2015 年到 2021 年信息流广告的占比逐年减少。到了 2022 年预计能够达到 40.8%。目前信息流广告被少数广告主选用在拉新促活的用户增长伎俩,所以哈啰出行也抉择了信息流广告作为站外拉新的次要形式。

投放流程

上图是平台视角和广告主视角两个角度下的广告投放流程。

平台视角,用户在流量主侧产生浏览行为,流量主会向 ADX(ad exchange 广告实时竞价交易平台)发送广告申请,广告交易平台在接管到广告交易申请,接着会向 DSP(demand side platform,广告投放平台)发送申请。DSP 在承受到这个竞价申请后,外部会进行一系列包含从流量筛选到广告召回,而后排序、出价等操作。目前大家常说的广告算法,更多的是嵌入在 DSP 外部的召回,排序等算法,并且这种广告算法在业界内也比拟成熟。

广告主视角,这里指的是广告主针对线上投放所可能做的操作。一开始会通过一个竞价机制。当一个广告申请过去,对于这个申请带过去的用户,咱们来决定要不要参加对这个用户的竞价。这个竞价机制在以下四个方面进行了考量:转化状况,用户价值,曝光状况,还有其余的烦扰策略等等。在竞价机制后就到了投放机制,投放机制更偏差于线上的理论投放,蕴含了账户设置、异样监测、数据监控和主动投放等等。

哈啰业务背景介绍

上面介绍一下哈啰出行外投业务背景。

哈啰外投倒退阶段

广告主投放能力的倒退历程会通过以下四个阶段:

  • 第一个阶段是摸索阶段,在这个阶段广告主业务个别是刚刚起步,它须要通过投放广告来摸索市场。此时广告主所须要做的就是间接在平台下面开户。
  • 通过后期的摸索,验证了广告的投放成果之后就进入到第二阶段,投放初步阶段。这个阶段的目标是迅速占领市场,所以会在市场上投入大量的广告,晋升投放效率。在这个阶段广告主须要技术支持来进行后续的转化归因,监测体系,数据监控等等。
  • 提效之后就到了以降本为目标的倒退阶段。通过后期的大量的市场投放后,广告的获客老本会越来越高,这个时候须要对流量做精细化经营,所以须要更多的技术能力来撑持和实现降本的指标。当初倒退比拟成熟的有 DMP,平台提供的人群治理 API,包含前面我要提到的 marketing API。
  • 经验过以上三步之后,就达到了成熟阶段,成熟期的指标就是智能化,领有全链路的算法和自动化实现,不再须要人工参加。

目前哈啰曾经在倒退阶段,技术能力和数据能力都曾经比拟成熟。

外投零碎框架

上图是哈啰的外投零碎框架。在业务上对接的比拟大的三个渠道是巨量引擎,广点通和快手。

因为波及到一些接口对接,所以在服务端要建设一个对立接口网关,而后进入到存储层,存储层应用了业界比拟通用的组件包含:redis,MYSQL,HBASE,Elasticsearch 等等。再通过数据层后,达到应用层。应用层次要列了三点,就是决策机制,自动化经营和归因机制。决策机制也是我前面次要介绍的重点。因为算法更多是作用在决策机制层。

广告主侧的算法优化计划

第三局部具体讲一下下面提到的决策机制外面的算法优化计划。次要从三个方面进行介绍:广告打算维度,创意维度,以及竞价前的预判机制。

广告打算维度

首先是广告打算维度, 上图的上半局部图列出了用户从被广告曝光到完单的整体链路。以哈啰车主拉新为例,一个新用户须要通过曝光、点击 / 三秒曝光、注册成为哈啰用户、提交认证成车主这几步后,能力进行完单行为。对于广告主来说,完单才是最终能产生价值的行为。但目前对接的几家比拟大的渠道,都是以提交认证老本来作为获客老本。现业务上一个痛点是提交认证到完单的比例比拟低,大略百分之二三十左右。这对广告主是不利的,因为广告主破费了钱来拉用户,但用户在端内并没有产生价值,这部分就是有效的估算。上图中下半局部的图,联合了广告账户平台构造从新解释了下面提到的业务痛点。平台下面通用的广告账户构造是一个账户下蕴含着不同的广告组,不同的广告组又蕴含着不同的广告打算。

为了比拟形象地示意从提交认证到完单这部分比例比拟低的状况,能够看一下上图用红框和蓝框中的两个广告打算。下面这个广告打算是品质比拟低的广告打算。上面的是品质比拟高的。能够看到这两个打算在提交认证,也就是转化这一步都假如有四个人转化。但下面的这个打算,只有一个人完单,完单率只有 25%。而上面这个广告打算的完单率达到了 75%。很显著,上面这个广告打算的品质比下面的品质要高。针对这个问题,咱们进行了算法计划优化的摸索。

目前面临的第一个挑战是在线上起量的打算的量级比拟小。因为算法建模是基于数据,如果能用的数据量少,就会间接影响到后续建模的精确度。第二个挑战是咱们不能取得广告平台商的曝光点击和竞价等明细数据。针对这两个挑战,做了一个问题的转化,从打算品质辨认转化为劣质流量辨认,再转化为用户完单率预估的问题。

因为咱们的用户都是在广告打算上面转化的,所以最后的目标是进行打算品质辨认。但因为数据量等起因,将问题转化成了劣质流量辨认。而对于广告主来说劣质流量能够定义成没有产生价值的流量,所以问题就变成判断用户在提交认证之后是否可能完单。这样问题会简略很多,且尽管他可能在端外是新用户,但他在提交认证之后,咱们就能够取到他端内的画像数据特色,所以有足够的数据来解决这个问题。

上图是完单模型的建模思路。由数据分析,样本构建,特色选取,模型训练四局部形成。

在数据分析局部,咱们通过剖析发现,大部分用户从提交认证到产生完单行为的工夫距离是在七天之内的。如果超过七天他还没有完单,那大概率上就不会完单了,就变成了刚刚提到的劣质流量了。所以在样本构建局部,通过提交认证之后,是否能在七天之内完单这个逻辑来构建正负样本。上图的 submit_pt 代表的是用户提交认证的工夫。

然而车主是否完单,其实是受很多内部因素制约的。并且样本的数据量也是比拟小的,为了更贴合业务状况,进行了数据加强操作。将原始的用户维度采样加强为以订单维度采样,具体为在用户进行提交认证之后,将每次在发单页面有过拜访或者点击行为的日期作为基点来预测它之后七天内完单的概率。

而后是特色选取局部。特色选取应用了用户特色,环境特色,广告特色,工夫特色等特色。工夫特色应用了用户产生转化到浏览的工夫距离作为特色。

模型抉择遵循了奥卡姆剃刀原理,抉择了简略高效的 lightGBM。

创意维度

在理论的业务下,广告优化师会因为不确定广告投放成果,在不同的账户或者不同的打算上面沉积大量类似创意,去测试其成果。这就导致线上会存在着大量的有效素材,他们并不能起量,然而会产生一些小额耗费,节约了估算。

并且类似的创意,因为不同的账户的历史体现不一样,所以广告平台的算法对类似创意预估出的分值可能会不一样,针对这个问题这边构建了一个预估新创意是否起量的模型,来领导广告优化师后续的计划调整。决定创意是否起量的因素是品质度。不同的渠道对品质度有着不同的偏重,从上方的表格能够看出,巨量引擎可能更侧重于成果的反馈。广点通更重视 eCPM,百度则侧重于定向形式。对于广告主而言,定向形式和成果反馈是没方法干涉的,所以更多的是干涉 eCPM。从下面列出的 ecpm 的公式能够看出,预估创意是否可能起量,更多的是偏差于 ctr 方面。所以这边列了三点,定向,创意,“户口”。“户口”是指账户的历史体现,比如说他在线上曾经投放了多少天,用户的转化和完单等数据。

上图展现了构建模型的挑战,第一个挑战点在最开始也介绍了,就是数据的制约,从左图上的自定义列,能够看到广告主可能拿到的一些数据,打算的估算以及左图上展示的数据都偏差于广告打算维度。对于一些数值信息,比方展示数据,转化数据等,广告主所可能拿到的数据也都是绝对粗粒度的。由右图所示,咱们只能拿到这一条广告打算上面的耗费、展现量、点击率等。针对用户维度的具体的数据,比方曝光、参竞数据等,广告主是拿不到的。

第二个挑战是新创意只有刚配置完的配置信息,短少后续投放的相干数据。

针对以上两个问题,次要是在构建样本和特色工程两个方面进行解决的,针对新创意没有相干投放数据的问题,解决办法是在样本构建时同时选取了新创意和老创意,新创意是可能学习到配置特色的重要性。老创意能够学习到更偏差于左边这张图的投放特色。通过这个形式让模型同时学到创意维度或者打算维度的配置数据和一些投放的数值特色。

特色工程中次要利用了特色穿插去获取更多的数据,由下图所示:

上图就是特色工程,通过特色穿插解决了数值型数据比拟少的问题。这张图的右边是创意 ID,两头框出来的是特色工程比拟外围的局部。次要是做了三局部内容:

  • 第一局部是将 ID 特色应用 word2vector 产生 ID 特色序列。一个创意属于一个打算下。一个打算则属于一个广告组下。所以从账户 ID 到广告组 ID 到打算 ID,都是一对多的关系。而一个创意是由不同的素材形成的,不同的素材蕴含着不同的视频、封面、题目等。针对这部分 ID 特色就是做了一个 ID 特色序列,将他们展成文本序列,而后应用 word2vector 转化成向量。
  • 第二局部是针对投放的数值特色的解决形式。对于投放的数值特色局部以及配置参数特色局部,次要是进行了不同维度的特色穿插,比如说一个创意 ID 和一个打算 ID 穿插来拿到打算 ID 下相应的数值特色。在做了各种穿插之后,就拿到了不同的视频、封面、题目、打算 ID 上面的数据特色。
  • 第三局部是针对广告配置参数特色的解决形式。配置参数特色其实就是广告在进行投放时配置的定向参数的特色,比如说投放工夫,用户定向,投放城市等。解决形式与第二局部相似,也是通过穿插拿到打算的配置特色和创意的配置特色。

通过这整个特色解决之后,会进行模型训练,最初咱们抉择了应用多分类模型。因为一开始在解决这个问题时,有尝试过回归,但回归预测进去成果不是很好,MSE 特地高,所以前面将问题转化为多分类,相对来说多分类会比回归成果好很多,准确率也高很多。

上图是整体模型框架图,从下至上展现了数据从输出到输入,下半局部就是后面特色工程的汇总,最上面是特色输出,包含刚刚说过的数值特色,类别特色和 ID 特色。数值特色通过归一化,离散化后进行 embedding。类别特色也是进行 embedding。ID 特色首先展成文本序列,而后通过 word2vector 产生向量。而后 embedding 产生的向量和 word2vector 产生向量这两局部同时输到模型外面,再通过一个 concat 层,最初应用 softmax 输入不同类别的概率。

上图是人工账户与算法操作账户的成果数据比照。蓝色的是人工账户,橙色的是算法操作账户。由图所示,不论是在转化老本或者首单老本,算法操作账户晋升比拟高的,大略可能升高到 10~20% 左右,成果还是比较显著的。

竞价前预判机制

这个机制更偏差于前置策略,也就是说一个用户过去,咱们可能决定对这个用户到底进不进行曝光,或者说有一些其余的烦扰用户品质分。

从上方的左图大家能够看到,当初业界比拟支流的针对老客拉活的操作是 RTB,RTB 电商做的比拟多。而对于新客次要是做 RTA,因为 RTA 更偏差于流量屏蔽。对于老客和新客都实用的就是两头的穿插局部加强 RTA,当初比拟支流的媒体,像腾讯,头条等都有接口可能反对的。针对两头穿插局部,咱们应用了因果推断的 uplift 模型构建了促活模型。

在构建样本时思考到了用户志愿,选取选信息流广告下转化的用户为正样本,天然转化的用户为负样本。uplift 分值能够体现用户的志愿度,它是有须要内部的广告激励能力转化,还是它自身就有志愿转化。公式里的 T 代表是否存在广告干涉。而后根据 uplift 的分值从 0 到 5 将用户进行分档,0 是曾经转化的用户,这部分用户咱们会间接屏蔽掉,不会对他们出价。1 是天然转化,2~4 为营销敏感度低、中、高用户,5 是新用户,因为咱们没有方法拿到新用户的数据,所以咱们会返回最高的用户品质分。这个机制实现了用户价值分层阶梯出价买量,线上成果降本显著。

将来方向

上面从前置策略和线上投放两方面介绍咱们的将来布局。

前置策略拉新场景下的后续指标,更偏重于精准屏蔽的模型,目前咱们只是针对端内曾经转化的用户进行屏蔽,当咱们接入曝光数据后,就能够深刻开掘曝光数据来制订策略,例如一个用户最大曝光次数等,来进行精准屏蔽。拉活场景下的用户投放更侧重于 RTB,因为目前哈啰用户体量比拟大,也有足够的数据撑持去做 RTB。

布局的第二个方向是全自动线上投放,闭环治理。通过算法来抉择最优计划构建创意和打算,缩小人工手动配置。进行不同创意不同打算之间的估算调配,以达到广告打算 ROI 最大为目标设置用户定向。

左边这张大图能够看成是整个布局的概览图。外面左下角的小图是算法能力的建设,包含出价治理,跨渠道治理,RTB 估算调配,DPA 等。左边的小图列出了算法能力的技术撑持,包含 uplift,强化学习,在业务场景内融入业界比拟成熟的 ctr 算法,以及应用 CV 相干算法实现素材的翻新,针对不同的用户展现不同的素材。

精彩问答

Q:如果存在多业务拉活,怎么去防止恶性竞争抬价呢?

A:不同业务针对的人群大概率是不一样的。比方做四轮车主拉新的人群肯定是有车人群。如果是两轮业务拉新,那么更偏差的是没有车的人群。在不同的业务线针对的用户不一样的状况下,两头的穿插应该不会特地重大。

Q:类似素材为什么在不同账户下的体现会不同呢?

A:因为平台方会从很多方面来判断是否要给一个打算或者一个素材放量。举个例子来说,一个在线上曾经跑得比拟好的账户,它上面会有很多的用户转化,如果拿他跟一个刚起量的账户比照,那平台的偏重肯定是不一样的。所以雷同的素材在线上跑得比较稳定的打算下和在线上刚跑的打算下,必定是在比较稳定的打算或者账户下更容易起量。

Q:在将来布局的那页 PPT 中,拉活局部的潜客模型是筹备通过 RTB 而不是 RTA 来达到的?

A:RTB 和 RTA 从自身的概念讲是不能够相互替换的,RTB 是一个实时竞价的框架,而 RTA 只是一个接口,这页 PPT 次要想表白的意思是将 RTB 的外围性能点集成到 RTA 外面,通过 RTA 的接口,来实现实时竞价。

(本文作者:周冰倩)

退出移动版