关于程序员:Bidding模型训练新范式阿里妈妈生成式出价模型AIGB详解

导读： 明天以 ChatGPT 为代表的生成式大模型让科技行业从新兴奋起来，也为广告营销注入了新的想象力。生成式大模型简直肯定会带来用户与互联网产品交互模式的扭转，进而颠覆广告营销模式。广告技术人，你们筹备好了吗？阿里妈妈技术已提前在该方向布局，并推出了新的广告营销智能技术体系，明天将揭露出其神秘面纱的一角，窥探背地的思考和实际。

出价产品智能化成为行业趋势，极简产品背地则是弱小的主动出价的撑持，其技术一直演进走过了 3 个大的阶段：PID 管制、RL-based Bidding、SORL(Sustainable Online RL)，那么下一步代际性技术升级是什么？明天以 ChatGPT 为代表的生成式大模型以波澜壮阔之势到来，简直肯定会颠覆广告营销模式，一方面，新的用户交互模式会孕育新的商业机会，给主动出价的产品带来微小扭转；另一方面，新的技术理念和技术范式也会给主动出价算法带来革命性的降级。阿里妈妈技术团队提前布局，以智能营销决策大模型 AIGA（AI Generated Action）为外围重塑了广告智能营销的技术体系，并衍生出以 AIGB（AI Generated Bidding）为代表的各种畛域技能模型。AIGB 是一种基于生成式模型结构的出价模型优化计划，与以往解决序列决策问题的强化学习视角不同，其将策略建模为条件生成模型，从而打消了以往强化学习视角下的复杂性问题。具体实现上，将出价、优化指标和束缚等具备相关性的指标视为一个联结概率分布，并以优化指标和束缚项为条件，生成相应出价策略的条件散布。训练时将历史次优投放轨迹数据作为训练样本，以最大似然预计的形式拟合轨迹数据中的散布特色；推断时基于束缚和优化指标，以合乎散布法则的形式输入出价策略。本文提出的计划可防止传统 RL 计划中的散布偏移和策略进化问题，又具备满足不同出价类型和不同束缚的灵活性。通过 AIGB 的技术钻研和线上实际，咱们愈发地感触到新的技术浪潮正在朝咱们奔来，AIGB 只是这所有的开始 …

广告平台吸引广告主继续投放的外围在于给广告主带来更大的投放价值，出价产品的智能化已成为行业趋势并加以重点建设的能力(如图 1)。以阿里妈妈为代表的互联网广告平台一直地摸索流量的多元化价值，并设计更能贴近营销实质的主动出价产品，广告主只须要简略的设置就能清晰的表白出营销诉求。极简产品背地则是弱小的出价策略撑持，广告主出价策略从海量数据中开掘更好的营销模式，晋升广告主对特定价值的优化能力，赋能广告主投放。

阿里妈妈技术团队多年来致力于极致的优化主动出价策略，帮忙广告主取得最好的投放成果，其主动出价策略的技术演进能够大体分为三个大的阶段，具体如下图。

第一阶段：估算耗费管制，通过管制估算的耗费速度尽可能平滑来优化成果，个别通过经典的控制算法，如 PID 等。在假如竞价环境中流量价值散布平均的状况下，这种办法可能达到比拟好的成果。

第二阶段：RL-based Bidding，事实环境中的竞价环境是非常复杂且动态变化的，只管制估算无奈满足更多样的出价打算的进一步优化。AlphaGo 的惊艳体现，展示了强化学习的力量，而主动出价是一个十分典型的序列决策问题，在估算周期内，后面花的好不好会影响到前面的出价决策，而这正是强化学习的强项，因而第二阶段咱们用了基于强化学习的 Bidding。Simulation based bidding 的一些工作 [1] 奠定了咱们在广告主报价畛域的领先地位。

第三阶段：SORL，它的特点是针对强化学习中离线仿真环境与在线环境不统一。咱们间接在在线环境中进行可交互的学习，这是工程设计和算法设计联结的例子。SORL[2]上线之后，很大水平上解决了强化学习强依赖于仿真平台的问题。

明天以 ChatGPT 为代表的生成式大模型让科技行业从新兴奋起来，也为广告营销注入了新的想象力。生成式大模型简直肯定会带来用户与互联网产品交互模式的扭转，例如，多模态交互式对话形式会取代搜索引擎的位置，以广告位拍卖为根底的互联网广告的逻辑也会产生扭转。一方面，新的用户交互模式会孕育新的商业机会，给主动出价的产品带来颠覆的扭转；另一方面，新的技术理念和技术范式也会给主动出价算法带来革命性的降级。

现在，革命性降级曾经到来！

思考到广告指标、估算和𝑀 个 KPI 束缚，打算的诉求能够通过（LP1）示意为对立的带束缚竞价问题。
$$\max_{xi} \sum_iv_ix_i$$
$$s.t. \sum_ic_ix_i \leq B$$
$$\frac{\sum_ic_{ij}x_i}{\sum_ip_{ij}x_i} \leq k_j , \forall j$$
$$x_i \leq 1 , \forall i$$
$$x_i \geq 0 , \forall i$$

如果曾经晓得流量汇合的全副信息，包含可能触达的每条流量 i 的流量价值 $v_i$ 和老本 $c_{i}$ 等，那么能够通过解决线性规划问题（LP1）来取得最优解 $x_i$。然而，在理论利用中，咱们须要在流量汇合未知的状况下进行实时竞价。因为在线广告池的动态变化以及每天拜访用户的随机性，很难通过精确的预测来构建流量汇合。因而，惯例的线性规划解决办法并不齐全实用。所以在理论利用中，通过对上述出价公式的一些变换，结构一个最优出价公式，将原问题转化为求解最优参数的问题，从而大大降低了在线状况下求解此问题的难度。

最优的出价公式为：
$$b_i ^*= w^*_0 v_i – \sum_j w^*_j(q_{i,j}(1-1_{CR_j})-k_jp_{ij})$$
其中，$q_{i,j}$ 是常数项，$w^*$ 是参数，其范畴为：$w^*_0>0$。如果束缚 j 是 CR，则 $w^*_j \in [0,1]$；如果束缚 j 是 NCR，则 $w^*_j>0$。证实过程详见论文[1]。

最优出价公式共蕴含 m+1 个外围参数 𝑤𝑘, 𝑘 ∈ [0, …, 𝑀]，公式中其余项为在线流量竞价时可取得的流量信息。因为最优出价公式存在，对于具备估算束缚和 M 个 KPI 束缚、且心愿最大化博得流量的总价值的问题，最优解能够通过找到 M+1 个最优参数并依据公式进行出价，而不是别离为每个流量寻找最优出价。现实状况下，通过求解最优参数 $w_j^*$，即能间接取得每个广告打算的最优出价。咱们能够通过 PID 或者 RL 来迫近实在环境中的最优参数。

生成式模型近年来失去了迅速的倒退，在图像生成、文本生成、计算机视觉等畛域获得了重大突破，并催生出了近期大热的 ChatGPT 等。生成式模型次要从数据分布的角度去了解数据，并通过拟合训练数据集中的样本分布来进行特征提取，最终生成合乎数据集散布的新样本。目前罕用的生成式模型包含 Transformer[3]、Diffusion Model[4]等。Transformer 次要基于自注意力机制，可能对样本中跨时序和分层信息进行提取和关联，善于解决长序列和高维特色数据，如图像、文本和对话等。而 Diffusion Model 则将数据生成看作一个分阶段去噪的过程，将生成工作合成为多个步骤，逐渐退出越来越多的信息，从而生成指标散布中的样本。这一过程与人类进行绘画过程较为类似，由此可见，Diffusion Model 善于解决图像生成等工作。

依附生成式模型弱小的信息生成能力，咱们也能够引入生成式模型将序列决策问题建模为一个序列动作生成问题。模型通过拟合历史轨迹数据中的行为模式，达到策略输入的指标。Decision Transformer(DT)[5] 和 Decision Diffuser(DD)[6] 别离将 Transformer 以及 Diffusion Model 利用于序列决策，在通用数据集中，相比支流的 RL 办法 [7,8] 获得了较好的成果晋升。这一后果为咱们的 Bidding 建模提供了一个可用的迭代计划。

早在生成式模型如 ChatGPT 惊艳之前，阿里妈妈技术团队就曾经开始尝试用生成式和大模型重塑智能营销的技术体系，并继续投入相应的团队和资源，设计了一套全新的智能营销技术体系。

其中，在营销层，变革了以往性能繁多操作麻烦的 BP，给广告主带来一种新的对话式交互体验，广告主只须要通过简略的自然语言的形容，即可实现全副的营销流程，大大简化了广告主的操作和学习老本。而这些都依赖于弱小的智能营销决策大模型 AIGA（AI Generated Action），以及衍生进去的各种畛域技能模型，典型的畛域技能模型 AIGB（AI Generated Bidding）是专门服务于主动出价算法的模型。这些模型的训练基于阿里团体自研的高性能硬件以及相应的框架。

AIGB 是一种基于生成式模型结构的出价模型优化计划。与以往解决序列决策问题的强化学习视角不同，AIGB 将策略建模为条件生成模型，从而打消了以往强化学习视角下的复杂性问题。咱们进一步思考额定的条件变量，展现了将出价策略建模为条件生成模型的劣势。在训练过程中，对束缚进行条件化，使得推断时的行为能够同时满足多个束缚组合。咱们的钻研结果表明，应用条件生成式模型来解决出价问题中的序列决策问题是一个好的抉择。

从生成式模型的角度来看，咱们能够将出价、优化指标和束缚等具备相关性的指标视为一个联结概率分布，从而将出价问题转化为条件散布生成问题。这意味着咱们能够以优化指标和束缚项为条件，生成相应出价策略的条件散布。图 4 直观地展现了生成式出价（AIGB）模型的流程：在训练阶段，模型将历史次优投放轨迹数据作为训练样本，以最大似然预计的形式拟合轨迹数据中的散布特色。这使得模型可能主动学习出价策略、状态间转移概率、优化指标和束缚项之间的相关性。在线上推断阶段，生成式模型能够基于束缚和优化指标，以合乎散布法则的形式输入出价策略。
总的来说，生成式模型的劣势 在于：

训练阶段，条件生成式模型通过最大似然预计进行训练，能够最大水平地防止散布偏移和策略进化问题。
推断阶段，条件生成式模型能够依据不同的出价类型生成不同的出价轨迹，以实现不同束缚项的满足。

如图 5，给定以后轨迹信息 $x_t^{-1}(\tau):=(s_0,b_0,s_{1},…,s_t)$ 和策略生成条件 $y(\tau)$，AIGB 模型能够一一生成将来的出价策略：
$$p_\theta(x_{t}(\tau)|x^{-1}_t,y)。$$

其中出价策略 $x_t(\tau):=(s_t^*,b_t^*,s_{t+1}^*,…,s_T^*)$ 是由将来的最优状态和与之对应的最优出价组成的序列。生成条件 $y(\tau)$ 包含了优化指标（购买量最大化、点击量最大化）以及束缚项（PPC、ROI、投放平滑性）等。$p_{\theta}$ 被用来预计条件概率分布。模型基于以后的投放状态信息以及策略生成条件输入将来的投放策略，相比于以往的 RL 策略仅仅黑盒输入单步 action，AIGB 策略能够被了解为在布局的根底上进行决策，更善于解决长序列问题。这一长处有利于咱们在实践中进一步减小出价距离，晋升策略的疾速反馈能力。与此同时，基于布局的出价策略也具备更好的可解释性，可能帮忙咱们更好地进行离线策略评估，不便专家教训与模型深度交融。

AIGB 模型通过最大似然预计历史数据集 D 中轨迹 $x_t^{-1}(\tau):=(s_0,b_0,s_{1},…,s_t)$ 和策略生成条件 $y(\tau)$ 所对应的轨迹信息进行训练，从而最大限度拟合历史轨迹的散布信息：
$$\mathop{max}\limits_{\theta}\mathbb{E}_{\tau \sim D}[log \ p_{\theta}(x(\tau))|x^{-1}(\tau),y(\tau)]。$$
拟合历史散布的过程能够通过引入 Diffusion Model 或 Transformer 等生成式模型来实现。以咱们实在应用的扩散模型为例，咱们将序列决策问题看作一个条件扩散过程，包含正向过程 $q(x_{k+1}(\tau)|x_k(\tau))$ 和反向过程 $p_{\theta}(x_{k-1}(\tau)|x_k(\tau),y(\tau))$。整个训练过程如图 6 所示，k 示意正向过程的迭代步，在正向过程，高斯噪声 $x_{K}(\tau)$ 转化为历史投放轨迹散布 $x_{0}(\tau)$；反向过程则示意从 $x_{0}(\tau)$ 转变为 $x_{K}(\tau)$ 的过程。每一次 $x_{k}(\tau)$ 到 $x_{k-1}(\tau)$ 的转换均通过退出含有肯定信息的高斯扰动实现。除此之外，在反向过程中，咱们还心愿可能表白 $y(\tau)与 x_{k-1}(\tau)$ 的相关性，因而能够引入 DD 模型中应用的 Classifier-free 办法，利用
$$(\epsilon_{\theta}(x_k(\tau), x^{-1}(\tau) ,y(\tau), k)-\epsilon_{\theta}(x_k(\tau), x^{-1}(\tau),\varnothing, k))$$
提取数据集中与 $y(\tau)$ 相关度最高的局部。其中 $\epsilon_\theta$ 为噪声模型，通过神经网络生成每一个工夫步所减少的噪声。k 步所对应的高斯扰动能够示意为：
$$\hat{\epsilon}:=\epsilon_{\theta}(x_k(\tau), \varnothing, k)+\omega\sum_{i=1}^{n}(\epsilon_{\theta}(x_k(\tau), x^{-1}(\tau) ,y^i(\tau), k)-\epsilon_{\theta}(x_k(\tau), x^{-1}(\tau),\varnothing, k))$$
其中 $i$ 示意不同的指标或者束缚，$\omega$ 用来调节 $y(\tau)$ 的权重。Classifier-free 办法能够较为优雅地解决多种优化指标和约束条件，防止以往 RL 训练过程中因为束缚信号稠密而成果降落的问题。咱们将这一基于扩散模型进行出价建模的办法称为 Decision Diffuser based Generative Bidding（DDGB）。DDPG 的 Planning 具体过程如下：

AIGB 计划能够带来诸多劣势，包含解决困扰 RL Bidding 在离线不统一问题，更好地训练多束缚出价模型，更好的可解释性以及更为顺畅的与专家教训的联合能力等，这些长处能够帮忙咱们进一步晋升模型迭代效率和成果下限。能够看出，生成式模型驱动的 AIGB 曾经在以齐全不同的形式重构主动出价的技术体系。然而，这仅仅是一个开始。阿里妈妈积淀了亿级广告投放轨迹数据，是业界为数不多具备超大规模决策类数据资源储备的平台。这些海量数据资源能够成为营销决策大模型训练的无力保障，从而推动 AIGA 技术的倒退。与此同时，用户和互联网产品的交互方式也将产生粗浅的变动。重塑广告营销模式的机会之门曾经在变动之中逐渐浮现，咱们须要做的就是通过继续一直地摸索和尝试来迎接变动。期待后续有机会与大家分享和交换咱们的停顿与实际。

[1] He Y, Chen X, Wu D, et al. A unified solution to constrained bidding in online display advertising[C]//Proceedings of the 27th ACM SIGKDD Conference on Knowledge Discovery & Data Mining. 2021: 2993-3001.

[2] Mou Z, Huo Y, Bai R, et al. Sustainable Online Reinforcement Learning for Auto-bidding[J]. arXiv preprint arXiv:2210.07006, 2022.

[3] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[J]. Advances in neural information processing systems, 2017, 30.

[4] Ho J, Jain A, Abbeel P. Denoising diffusion probabilistic models[J]. Advances in Neural Information Processing Systems, 2020, 33: 6840-6851.

[5] Chen L, Lu K, Rajeswaran A, et al. Decision transformer: Reinforcement learning via sequence modeling[J]. Advances in neural information processing systems, 2021, 34: 15084-15097.

[6] Ajay A, Du Y, Gupta A, et al. Is Conditional Generative Modeling all you need for Decision-Making?[J]. arXiv preprint arXiv:2211.15657, 2022.

[7] Kumar A, Zhou A, Tucker G, et al. Conservative q-learning for offline reinforcement learning[J]. Advances in Neural Information Processing Systems, 2020, 33: 1179-1191.

[8] Kostrikov I, Nair A, Levine S. Offline reinforcement learning with implicit q-learning[J]. arXiv preprint arXiv:2110.06169, 2021.

本文由 mdnice 多平台公布

关于程序员:Bidding模型训练新范式阿里妈妈生成式出价模型AIGB详解

▐ 摘要

一、背景

1.1 出价产品智能化成为行业趋势

1.2 主动出价技术的一直演进

二、相干工作

2.1 主动出价建模

2.2 生成式模型

三、AIGB（AI Generated Bidding）

3.1 智能营销技术体系的重塑

3.2 AIGB 建模计划

3.2.1 模型构造：

3.2.2 训练方法：

四、总结及将来瞻望

▐ 参考文献