关于程序员:聊聊机器如何写好广告文案

作者 | 张超

“除非你的广告建设在平凡的创意之上，否则它就像夜航的船，不为人所留神。”
—— 大卫·奥格威，古代广告业奠基人

创意作为一种信息载体，将广告主的营销内容出现给用户，辅助用户生产决策，乃至激发潜在需要。通常，创意可体现为文本、图片及视频物料的繁多或组合模式，而创意优化旨在晋升创意物料的业务价值，本文简要聊聊针对创意文案主动撰写的一些摸索与实际，整体分五局部：第一局部简述广告文案优化的必要性；第二局部介绍文本生成相干概念及支流办法；第三局部介绍在文案生成方面的摸索实际；第四局部借鉴业界研究成果，探讨文案主动生成将来的一些工作思路；最初做下小结。

广告文案优化的必要性

广告创意是连贯用户和客户服务的桥梁，是信息传递最重要、最间接的形式，因而创意的品质很大水平决定了用户需要满足度和客户推广成果。

面对海量的用户需要，客户推广创意的人工经营 + 保护老本较高，尤其对于中小客户更难以承当，导致品质参差不齐，千篇一律，无奈实现精细化的业务表白，更无奈做到链路的闭环优化。

文本生成在学术界称为 NLG(Nature Language Generation)，狭义上讲，只有输入为自然语言文本的工作均可划入文本生成的领域。只管 NLG 畛域起源较早，但很长一段时间处于停滞状态，次要起因在于 NLG 是一个简略输出到简单输入的工作，问题复杂度太大，很难有精确高且泛化强的办法，许多场景下甚至低于人工规定。近年来，随着深度学习实践技术的成熟，NLG 畛域特地是机器翻译、文档摘要等有了突破性停顿。

依据输出数据的模式，文本生成可细分为文本到文本 (Text2Text)、数据到文本(Data2Text) 以及图到文本 (Image2Text) 的生成。本文重点探讨 Text2Text，以后业界最支流的解决方案是 Seq2Seq+Attension 的序列式生成框架(如下图)。

其中：

编码端 (Encoder)：将输出序列的词(Token) 映射成 Embedding 向量，借助深度神经网络学习到整个句子的语境示意(Contextual Representation);
解码端(Decoder)：基于输出序列的语境示意以及已生成的词，预测以后工夫步最可能的词，最终失去残缺的语句；
注意力机制(Attention)：相比固定编码端的语境示意，注意力机制通过动静调整不同输出词在每一步生成时的奉献权重，使得解码器可能抽取更要害无效的信息，进而作出更精确的决策。

Seq2Seq+Attention 很好地解决了不定长输出到序列式输入的问题，是非常通用的生成计划，被广泛应用于机器翻译、摘要生成、主动对话、浏览了解等支流工作，各项外围指标获得显著晋升。

序列式文本生成框架下，依据编解码两侧的数据组织模式，分为抽取式和形象式两种，联合实践经验，总结出各自的优劣势如下：

抽取式(Less open-ended)：从原文抽取出要害信息，再通过编码表征和解码表白实现文本输入。其劣势在于，升高工作复杂度，可解释性好，保障与原文较高的相关性；劣势在于，依赖要害信息的提取品质，同时受限于原文，泛化性有余；
形象式(More open-ended)：脱离原文的限度，实现齐全端到端的生成，泛化能力上具备压倒式劣势，但建模复杂度高，可解释性有余，管制难度较大。

后面提到，编码端 Encoder 通过对源端输出进行建模获取语义示意。实际上解码端 Decoder 生成时，同样须要获取已生成序列的语义示意。因而，如何设计模型学习文本的深层语义示意，对于最终工作的成果极为重要。

最后，词袋模型 (BOW) 是最罕用的文本示意办法。随着深度神经网络的衰亡，人们提出了一种取得词向量的词嵌入（Word Embedding）办法，以解决词汇表过大带来的“维度爆炸”问题。词 / 句嵌入思维已成为所有基于深度学习的 NLP 零碎的重要组成部分，通过在固定长度的浓密向量中编码词和句子，大幅度提高神经网络解决语句乃至文档级数据的能力。

词向量的获取形式能够大体分为基于统计的办法（如共现矩阵、SVD）和基于语言模型的办法两类。2013 年 Google 公布基于语言模型获取词向量的 word2vec 框架，其核心思想是通过词的上下文学习该词的向量化示意，包含 CBOW（通过左近词预测中心词）和 Skip-gram（通过中心词预测左近词）两种办法，联合负采样 / 层级 softmax 的高效训练。word2vec 词向量能够较好地表白不同词之间的类似和类比关系，被广泛应用于 NLP 工作中。

语境示意学习 (Contextual Embedding Learning) 解决的外围问题是，利用大量未标注的文本语料作预训练 (Pre-training)，学习文本的深层语境表白，进而在微调阶段(Fine-tuning) 辅助监督工作更好地实现指标。

目前，语境示意学习畛域代表性的工作包含 ELMO(Embeddings from Language Models)、GPT(Generative Pre-Training)和 BERT(Bidirectional Encoder Representations from Transformers)。其中，ELMO 模型提出依据上下文动态变化词向量，通过深层双向 LSTM 模型学习词的示意，可能解决单词用法中的简单个性，以及这些用法在不同的语言上下文中的变动，无效解决一词多义的问题。GPT 模型采纳 Transformer 抽取文本特色，首次将 Transformer 利用于预训练语言模型，并在监督工作上引入语言模型 (LM) 辅助指标，从而解决微调阶段的灾难性忘记问题(Catastrophic Forgetting)。相比 GPT 的单向 LM，BERT 引入双向 LM 以及新的预训练指标 NSP(Next Sentence Prediction)，借助更大更深的模型构造，显著晋升对文本的语境示意能力。业务发展过程中，咱们的文本示意办法也经验了从传统 RNN 到全面拥抱 Transformer 的转变。

上面特地介绍同文本生成工作高度适配的 MASS 预训练框架 (Masked Sequence to Sequence pre-training)。咱们晓得，惯例 BERT 只能用于文本了解(NLU) 相干工作，如文本分类、情感辨认、序列标注等，无奈间接用在文本生成上，因为 BERT 只预训练出一个编码器用于上游工作，而序列式文本生成框架蕴含编码器、解码器以及起连贯作用的注意力机制。对此，微软团队提出将 BERT 降级至 MASS，非常适合生成工作的预训练。

MASS 的整体构造如下，其训练形式仍属于无监督。对于一段文本，首先随机 mask 其中间断的 K 个词，而后把这些词放入 Decoder 的雷同地位，而 Encoder 中只保留未被 mask 掉的词。借助这种学习形式，冀望 Decoder 能综合利用 Encoder 的语义表白信息和 Decoder 后面的词，来预测这些被 mask 的词序列。

有意思的是，BERT 和 GPT 都可视为 MASS 的特例。当 masked 序列长度 K = 1 时，MASS 解码器端没有任何输出信息，相当于只用到编码器模块，此时 MASS 就进化成 BERT；当 K= 句子长度时，MASS 编码器端所有词都被屏蔽掉，解码器的注意力机制相当于没有获取到信息，此时 MASS 便进化成 GPT，或规范单向 LM。

对于为什么 MASS 能获得比拟好的成果？论文给出了以下解释：

Encoder 中 mask 局部 tokens，可能迫使它了解 unmasked tokens，晋升语义示意能力；
Decoder 中须要预测 masked 的间断 tokens，这同监督训练时的序列式解码相一致；
Decoder 中只保留 masked 的 tokens，而不是所有的 tokens，促使 Decoder 尽量从 Encoder 中抽取要害信息，Attetion 机制也失去无效训练。

目前支流的评估办法次要基于机器指标 [25] 和人工评测。机器指标从不同角度主动掂量生成文本的品质，如基于模型输入概率判断是否表白通顺的 perplexity，基于字符串重叠判断内容一致性的 BLUE/ROUGE、判断内容多样性的 Distinct-N/Self-Bleu 等。基于数据的评测，在机器翻译、浏览了解等绝对关闭、确定的场景下有很大意义，这也是对应畛域最先冲破的重要起因。对广告创意优化场景来说，除选取适合的根底机器指标作为参考，会更重视业务指向的指标优化，故多以线上实际效果为导向，辅以人工评测。

对于人工评测指标，次要看两方面：一是生成文案的根底品质，包含文本可读性及内容一致性，可读性次要看字面是否通顺、反复及是否有错别字等，一致性次要看前后语义逻辑是否统一、是否同落地页内容统一；二是内容多样性，这间接关系到用户的浏览体验及客户的产品满意度。

“巧妇难为无米之炊”，要发展文本创意生成的工作，业务关联数据必不可少。以后应用到的文本数据源次要包含：

广告展点日志：客户自提题目 / 形容、用户行为数据
广告主落地页：落地页题目、业务形容、常识文章
大搜日志: 天然后果展点数据

上述数据起源丰盛、数据规模大，也随同着如下挑战：

内容多样：数据长度散布、内容表达形式存在显著差别，对文本示意提出较高要求；
品质不一：尽管数据量大，实际上较大比例的数据品质并不达标，如果源端不做好品质管制，势必影响业务指标的优化；
场景不一：不同的业务场景下，模型优化的侧重点也不一样，对如何利用已有数据达成业务指标提出更高要求。比方广告题目与广告形容，除了优化点击率、转化率这些外围业务指标，前者更偏重内容简明扼要、精确传播客户外围业务，后者偏重内容丰盛多样、容许适度做扩大延长。

传统意义上的「抽取式」，类如在文档摘要工作中，从段落中选出一些重要片段排列组合后作为摘要后果，不产生新信息。这里将抽取式生成示意为：从原文中抽取出一些要害信息，进行间接管制型生成(directed generation)。

在创意优化工作的发展初期，咱们调研并上线了抽取式的生成策略，获得较好的指标晋升。上面介绍抽取式生成在广告形容上的利用，这一办法突出劣势在于生成的新文本同原文整体符合度高，也具备肯定的泛化表白。

信息提取 ：广告创意中的要害信息，个别体现为外围业务 / 营销点 / 品牌词 / 专名等，而广告形容绝对题目更长，内容模式更天然，要残缺保留原文要害信息有肯定难度。对此，咱们采纳由粗到精(coarse-to-fine) 的抉择策略：首先通过 wordrank 选出高权重词，再以片段为单位，各片段保留次高权重词 / 专名词，并对被切散的品牌词作策略捞回。
生成模型：采纳 Transform-based Seq2Seq 文本生成框架(如下图)，输出端蕴含 Source 和 Context 两局部，咱们将拍卖词作为 Source，将从形容提取的关键词序列作为 Context，Target 对应原形容，相似”选词造句”的形式，领导模型学习将离散词组合表述成残缺语句的能力。

为兼顾生成品质与业务指标的晋升，咱们构建了以下重要的管制机制:

外围业务统一 ：拍卖词(bidword) 是用户需要及广告主业务的表白，而广告创意广泛蕴含拍卖词，通过将拍卖词作为 Source，在 Encoder Source 与 Decoder Output 构建起强束缚(Hard Constrained)，保障模型生成的内容同外围业务高度一致；
业务指标统一：生成模型实质是一个 Language Model，训练指标是最小化词级别的穿插熵损失，而业务指标次要是优化广告点击率，这导致训练任务和业务指标不统一。对此，采样的计划是：假如外围指标同创意品质正相干，则能够依照 ” 触发买词 + 触发类型 + 广告地位 ” 进行分桶，分桶目标是尽量升高裸露偏差(Exposure Bias)；同一桶内按外围后验指标排序，取头部的创意作为训练语料，从而领导模型学习高质量创意的内容组织与表达方式；
信息辨别抉择：Context 中关键词序列若全副来自 Target，天然也引入了强束缚，即输出词均将呈现在输入文本中，这种状况下的束缚关系同业务指标却不太符合，首先要害信息提取阶段容易引入低质噪声词，再加上模型受众次要是低质广告创意，在其内容整体欠优的状况下，强束缚式生成难以保障生成品质。对此，组织训练数据时通过在 Context 中随机退出一些烦扰词，促使模型具备甄别 Context 优质信息的能力，缓解强束缚式生成带来的泛化性有余以及品质问题。

抽取式创意生成在品质和业务指标上均获得较好成果，但也存在显著瓶颈，即受限于原文，泛化能力无限，同时依赖要害信息的抽取品质，尤其原始内容整体欠优时难以完成二次优化。对此，咱们尝试了形象式的生成策略：一方面去掉 Context 中原文的要害信息，解除同 Target 强束缚关系；另一方面，引入业务场景相干的原始文本作为领导，相似情景写作，给定以后情景的 topic 以及前文信息，生成相匹配的后文。只有管制好外围主题以及业务敏感信息，形象式生成的摸索空间比抽取式凋谢得多，对创意内容的优化后劲显著晋升。

上面介绍形象式生成策略在广告题目上的利用。广告题目是连贯用户与客户最重要的信息渠道，因而除了优化题目点击率，用户体验同样重要，即广告题目 (所见) 须要同广告落地页 (所得) 保持一致，” 挂羊头卖狗肉”的景象非常有损用户体验。最间接的想法，就是将落地页的文本信息前置到广告题目中。剖析发现，落地页文本在内容散布与表达方式上同广告差别较大，间接替换或局部插入的形式不太可取。对此，咱们借助形象式生成策略，将落地页信息退出 Context 作为领导，冀望生成与之匹配且合乎广告表达形式的文本，模型如下所示。

实际过程中，发现很多 case 生成品质不佳(字面反复、语义不通顺)，而且没有蕴含落地页的内容，通过剖析可能有以下起因：

如前所述，形象式生成的建模复杂度自身就高，加上训练数据中两端文本在内容散布和表白上的显著差别，进一步加大模型的学习难度；

训练数据中，Target 端广告创意蕴含 Context 中落地页信息的占比很小，此外将拍卖词作为 Source(保留外围业务)，不可避免地引入强束缚，进一步减弱 Attention 机制对落地页信息的关注，最终在解码输入时天然难以呈现同落地页相匹配的内容。

针对以上问题，一方面咱们引入 MASS 预训练技术、调大模型构造，另一方面基于信息校验调整训练语料，促使落地页内容更好地融入生成后果。其中，预训练环节比拟无效，肯定水平缓解调整后平行语料匮乏的问题，同时赋予编码端更强的语义刻画能力、attention 机制更好的信息捕获能力以及解码端更精确的信息表达能力。评估生成成果，模型可能更好参考落地页的内容，联合广告外围业务，生成体验统一的优质广告文案。

前一节中提到业务发展过程遇到的一些问题，大部分通过模型降级、数据优化及规定校验可能失去无效解决，但对于内容一致性、内容多样性两个重要方面，解决方案并非最优，仍有较大优化空间，参考学术界相干钻研，上面列举两个优化思路。

目前咱们采纳的 Seq2Seq 生成框架(如下图)，在输出端将 Source 和 Context 连成一个文本序列送入编码器。整体来看 Source 和 Context 在工作中扮演着不同的角色，合并输出容易对编码器的语义特征提取造成烦扰。比方，Context 文本个别比 Source 长，且 Context 往往蕴含一些噪声，尽管通过训练数据组织构建了强束缚关系(Source 拍卖词广泛呈现在 Target 中)，但在从模型构造上看，编码端理论弱化了 Source，解码端很难对交融编码后的信息进行辨别，不利于无效生成，甚至会呈现业务偏离的梦幻 case，尤其对于形象式地生成，因为该场景下 Source 与 Context 的内容散布通常差别较大。

对此，有钻研提出将 Source 与 Context 辨别开来，在输出端两者各自进行编码(见论文[13])，这样可能带来诸多益处：

打消编码阶段不同源数据的互相烦扰，有利于改善 Encoder 语义特色的提取成果；
容许依据具体业务需要，为不同起源的数据施行特有的编码控制策略，比方文本过长且蕴含噪声的 Context 容易升高 Encoder 编码成果，对此能够在 self-attention 模块中退出 Softmax temperature 以影响概率分布计算结果(如下图)，其中 τ 值越大将促使模型更加关注那些得分高的词，即 Context 中的重要信息
Decoder 侧可依据理论需要，对多源数据的隐层表白施行不同的整合策略 (如下图)，其中：策略(a) 间接将 Source 与 Context 的编码向量 E(S)与 E(C)间接 Concat 送入 Decoder 的 Attention 模块；策略 (b) 先后对 E(C)与 E(S)别离作 Attention，从而一方面实现 Source 与 Context 的信息交互，更增强了 Source 对于解码输入的管制，这一策略有助于晋升生成文本同 Source 的一致性；策略 (c) 在(b)的根底上，通过多轮交替式的 Attention 进一步增强 Source 与 Context 的信息交互。
对 Context 独自编码，便于后续引入更多类型的数据，比方结构化常识、客户属性、用户个性化特色，甚至跨模态的图片 / 视频向量表白。

此外，论文提出一种数据加强策略，试验论证各项评估指标获得显著晋升，具体是：对于每条训练数据(示意为 <S, C> -> T)，以肯定概率结构 S ->T 或者 S ->C 的新语料，前者领导模型生成与 Source 更相干的内容，后者一方面促使编码器从 Source 提取到与 Context 更相干的信息、另一方面因为 Context 要比 Source 长许多，可视为对解码器作 LM 预训练。

无论是抽取式还是形象式，生成指标都是对输出信息进行正当精确的扩大与泛化，理论解码预测时次要基于编码器对输出信息的了解示意，输入概率最大的序列。因而，编码器是否可能充沛了解输出文本，决定了最终生成的成果。

在人工评测时发现许多 ” 题目党 ”、” 万金油”式的生成文本，比方”XXX，通知你一个简略的解决办法”、”XXX 是一家集研发、生产、销售为一体的公司”、”XXX，欢送点击征询”等，在对话工作中称这类景象为 ”general and meaningless response”。呈现这种景象次要在于，仅仅依附 Source/Context 本身文本，在语义编码阶段难以对业务实体、专名等概念类的词进行充沛了解和示意，加之数据驱动的模型容易”偷懒”，从而导致生成文本偏短、偏通用化、业务实体缺失 / 偏离。

惯例解决办法是调整 / 裁减训练语料、在 Decoder 端退出相干控制策略，肯定水平上可能缓解。实际上，Seq2Seq 的生成工作普遍存在上述问题，对此，目前业界宽泛钻研且验证无效的计划是引入内部常识性常识(commonsense knowledge)，辅助领导模型作出更全面、更精确的决策。对于如何利用内部常识，一类做法是在监督训练之前，基于常识物料作预训练，加深模型对实体信息的了解，训练语料通常是 ” 实体 + 描述性定义 ”，如”主机游戏，又名电视游戏，蕴含掌机游戏和家用机游戏两局部，是一种用来娱乐的交互式媒体”；另一类做法是在监督训练阶段，先从 Source 和 Context 文本中提取出一系列实体词，将实体词作为索引从通用知识库中检索出对应的 Knowledge 信息，借助 memory 机制将其融入模型中(如下图)，实现 <Source，Context，Knowledge> 三者独特作用训练与生成，具体实现细节见论文[14]。

针对文本生成的一系列节点，从模型构造到优化指标，从数据组织到工作迁徙，业界不断涌现出泛滥优良的钻研及实际成绩，如大规模预训练模型 (ERNIE/PLATO/T5/BART)、图谱常识嵌入、Memory 机制、跨模态 / 跨场景联结建模等等，为技术业务迭代给予很好的借鉴领导，后续有机会再交换，感兴趣的同学可参考[15]~[24] 相干材料，欢送探讨交换。

————END————

参考资料：
[1]Neural machine translation by jointly learning to align and translate，arXiv:1409.0473
[2]Attention Is All You Need，arXiv:1706.03762
[3]ELMO：Deep contextualized word representations，arXiv:1802.05365
[4]OPAI GPT: Improving Language Understanding by Generative Pre-Training
[5]Bert: Pre-training of deep bidirectional transformers for language understanding，arXiv:1810.04805
[6]MASS: Masked Sequence to Sequence Pre-training for Language Generation，arXiv:1905.02450
[7]Generating sequences with recurrent neural networks，arXiv:1308.0850
[8]Distributed Representations of Words and Phrases and their Compositionally，arXiv:1310.4546
[9]Get To The Point: Summarization with Pointer-Generator Networks，arXiv:1704.04368
[10]Don’t Give Me the Details, Just the Summary! Topic-Aware Convolutional Neural Networks for Extreme Summarization，arXiv:1808.08745
[11]Pre-trained Models for Natural Language Processing: A Survey，arXiv:2003.08271
[12]Do Massively Pretrained Language Models Make Better Storytellers?，arXiv:1909.10705
[13]Improving Conditioning in Context-Aware Sequence to Sequence Models，arXiv:1911.09728
[14]CTEG: Enhancing Topic-to-Essay Generation with External Commonsense Knowledge
[15]Unified Language Model Pre-training for Natural Language Understanding and Generation，arXiv:1905.03197
[16]Knowledge Diffusion for Neural Dialogue Generation
[17]Coherent Comment Generation for Chinese Articles with a Graph-to-Sequence Model，arXiv:1906.01231
[18]Fast Abstractive Summarization with Reinforce-Selected Sentence Rewriting，arXiv:1805.11080
[19]What makes a good conversation? How controllable attributes affect human judgments，arXiv:1902.08654
[20]The curious case of neural text degeneration，arXiv:1904.09751
[21]Straight to the Gradient: Learning to Use Novel Tokens for Neural Text Generation，arXiv:2106.07207
[22]Towards Facilitating Empathic Conversations in Online Mental Health Support: A Reinforcement Learning Approach，arXiv:2101.07714
[23]ERNIE-GEN: An Enhanced Multi-Flow Pre-training and Fine-tuning Framework for Natural Language Generation，arXiv:2001.11314
[24]PLATO: Pre-trained Dialogue Generation Model with Discrete Latent Variable，arXiv:1910.07931
[25]Evaluation of Text Generation: A Survey，arXiv:2006.14799

举荐浏览：
百度工程师教你玩转设计模式（适配器模式）
百度搜寻业务交付无人值守实际与摸索
分布式 ID 生成服务的技术原理和我的项目实战
揭秘百度智能测试在测试评估畛域实际
再添神器！Paddle.js 公布 OCR SDK
视频中为什么须要这么多的色彩空间？

关于程序员:聊聊机器如何写好广告文案

01 引子

02 文本生成工作

2.1 生成框架及工作分级

2.1 文本示意的常见办法

2.3 怎么评估生成文案的好坏

03 广告文案生成实际

3.1 根底数据起源

3.2 抽取式创意生成

3.3 形象式创意生成

04 可借鉴的一些思路

4.1 模型构造改良

4.2 内部常识加强

05 小结