关于程序员:聊聊机器如何写好广告文案

作者 | 张超

“除非你的广告建设在平凡的创意之上，否则它就像夜航的船，不为人所留神。”
—— 大卫·奥格威，古代广告业奠基人

创意作为一种信息载体，将广告主的营销内容出现给用户，辅助用户生产决策，乃至激发潜在需要。通常，创意可体现为文本、图片及视频物料的繁多或组合模式，而创意优化旨在晋升创意物料的业务价值，本文简要聊聊针对创意文案主动撰写的一些摸索与实际，整体分五局部：第一局部简述广告文案优化的必要性；第二局部介绍文本生成相干概念及支流办法；第三局部介绍在文案生成方面的摸索实际；第四局部借鉴业界研究成果，探讨文案主动生成将来的一些工作思路；最初做下小结。

广告文案优化的必要性

广告创意是连贯用户和客户服务的桥梁，是信息传递最重要、最间接的形式，因而创意的品质很大水平决定了用户需要满足度和客户推广成果。

面对海量的用户需要，客户推广创意的人工经营 + 保护老本较高，尤其对于中小客户更难以承当，导致品质参差不齐，千篇一律，无奈实现精细化的业务表白，更无奈做到链路的闭环优化。

文本生成在学术界称为 NLG(Nature Language Generation)，狭义上讲，只有输入为自然语言文本的工作均可划入文本生成的领域。只管 NLG 畛域起源较早，但很长一段时间处于停滞状态，次要起因在于 NLG 是一个简略输出到简单输入的工作，问题复杂度太大，很难有精确高且泛化强的办法，许多场景下甚至低于人工规定。近年来，随着深度学习实践技术的成熟，NLG 畛域特地是机器翻译、文档摘要等有了突破性停顿。

依据输出数据的模式，文本生成可细分为文本到文本 (Text2Text)、数据到文本(Data2Text) 以及图到文本 (Image2Text) 的生成。本文重点探讨 Text2Text，以后业界最支流的解决方案是 Seq2Seq+Attension 的序列式生成框架(如下图)。

其中：

编码端 (Encoder)：将输出序列的词(Token) 映射成 Embedding 向量，借助深度神经网络学习到整个句子的语境示意(Contextual Representation);
解码端(Decoder)：基于输出序列的语境示意以及已生成的词，预测以后工夫步最可能的词，最终失去残缺的语句；
注意力机制(Attention)：相比固定编码端的语境示意，注意力机制通过动静调整不同输出词在每一步生成时的奉献权重，使得解码器可能抽取更要害无效的信息，进而作出更精确的决策。

Seq2Seq+Attention 很好地解决了不定长输出到序列式输入的问题，是非常通用的生成计划，被广泛应用于机器翻译、摘要生成、主动对话、浏览了解等支流工作，各项外围指标获得显著晋升。

序列式文本生成框架下，依据编解码两侧的数据组织模式，分为抽取式和形象式两种，联合实践经验，总结出各自的优劣势如下：

抽取式(Less open-ended)：从原文抽取出要害信息，再通过编码表征和解码表白实现文本输入。其劣势在于，升高工作复杂度，可解释性好，保障与原文较高的相关性；劣势在于，依赖要害信息的提取品质，同时受限于原文，泛化性有余；
形象式(More open-ended)：脱离原文的限度，实现齐全端到端的生成，泛化能力上具备压倒式劣势，但建模复杂度高，可解释性有余，管制难度较大。

后面提到，编码端 Encoder 通过对源端输出进行建模获取语义示意。实际上解码端 Decoder 生成时，同样须要获取已生成序列的语义示意。因而，如何设计模型学习文本的深层语义示意，对于最终工作的成果极为重要。

最后，词袋模型 (BOW) 是最罕用的文本示意办法。随着深度神经网络的衰亡，人们提出了一种取得词向量的词嵌入（Word Embedding）办法，以解决词汇表过大带来的“维度爆炸”问题。词 / 句嵌入思维已成为所有基于深度学习的 NLP 零碎的重要组成部分，通过在固定长度的浓密向量中编码词和句子，大幅度提高神经网络解决语句乃至文档级数据的能力。

词向量的获取形式能够大体分为基于统计的办法（如共现矩阵、SVD）和基于语言模型的办法两类。2013 年 Google 公布基于语言模型获取词向量的 word2vec 框架，其核心思想是通过词的上下文学习该词的向量化示意，包含 CBOW（通过左近词预测中心词）和 Skip-gram（通过中心词预测左近词）两种办法，联合负采样 / 层级 softmax 的高效训练。word2vec 词向量能够较好地表白不同词之间的类似和类比关系，被广泛应用于 NLP 工作中。

语境示意学习 (Contextual Embedding Learning) 解决的外围问题是，利用大量未标注的文本语料作预训练 (Pre-training)，学习文本的深层语境表白，进而在微调阶段(Fine-tuning) 辅助监督工作更好地实现指标。

目前，语境示意学习畛域代表性的工作包含 ELMO(Embeddings from Language Models)、GPT(Generative Pre-Training)和 BERT(Bidirectional Encoder Representations from Transformers)。其中，ELMO 模型提出依据上下文动态变化词向量，通过深层双向 LSTM 模型学习词的示意，可能解决单词用法中的简单个性，以及这些用法在不同的语言上下文中的变动，无效解决一词多义的问题。GPT 模型采纳 Transformer 抽取文本特色，首次将 Transformer 利用于预训练语言模型，并在监督工作上引入语言模型 (LM) 辅助指标，从而解决微调阶段的灾难性忘记问题(Catastrophic Forgetting)。相比 GPT 的单向 LM，BERT 引入双向 LM 以及新的预训练指标 NSP(Next Sentence Prediction)，借助更大更深的模型构造，显著晋升对文本的语境示意能力。业务发展过程中，咱们的文本示意办法也经验了从传统 RNN 到全面拥抱 Transformer 的转变。

上面特地介绍同文本生成工作高度适配的 MASS 预训练框架 (Masked Sequence to Sequence pre-training)。咱们晓得，惯例 BERT 只能用于文本了解(NLU) 相干工作，如文本分类、情感辨认、序列标注等，无奈间接用在文本生成上，因为 BERT 只预训练出一个编码器用于上游工作，而序列式文本生成框架蕴含编码器、解码器以及起连贯作用的注意力机制。对此，微软团队提出将 BERT 降级至 MASS，非常适合生成工作的预训练。

MASS 的整体构造如下，其训练形式仍属于无监督。对于一段文本，首先随机 mask 其中间断的 K 个词，而后把这些词放入 Decoder 的雷同地位，而 Encoder 中只保留未被 mask 掉的词。借助这种学习形式，冀望 Decoder 能综合利用 Encoder 的语义表白信息和 Decoder 后面的词，来预测这些被 mask 的词序列。

有意思的是，BERT 和 GPT 都可视为 MASS 的特例。当 masked 序列长度 K = 1 时，MASS 解码器端没有任何输出信息，相当于只用到编码器模块，此时 MASS 就进化成 BERT；当 K= 句子长度时，MASS 编码器端所有词都被屏蔽掉，解码器的注意力机制相当于没有获取到信息，此时 MASS 便进化成 GPT，或规范单向 LM。

对于为什么 MASS 能获得比拟好的成果？论文给出了以下解释：

Encoder 中 mask 局部 tokens，可能迫使它了解 unmasked tokens，晋升语义示意能力；
Decoder 中须要预测 masked 的间断 tokens，这同监督训练时的序列式解码相一致；
Decoder 中只保留 masked 的 tokens，而不是所有的 tokens，促使 Decoder 尽量从 Encoder 中抽取要害信息，Attetion 机制也失去无效训练。

目前支流的评估办法次要基于机器指标 [25] 和人工评测。机器指标从不同角度主动掂量生成文本的品质，如基于模型输入概率判断是否表白通顺的 perplexity，基于字符串重叠判断内容一致性的 BLUE/ROUGE、判断内容多样性的 Distinct-N/Self-Bleu 等。基于数据的评测，在机器翻译、浏览了解等绝对关闭、确定的场景下有很大意义，这也是对应畛域最先冲破的重要起因。对广告创意优化场景来说，除选取适合的根底机器指标作为参考，会更重视业务指向的指标优化，故多以线上实际效果为导向，辅以人工评测。

对于人工评测指标，次要看两方面：一是生成文案的根底品质，包含文本可读性及内容一致性，可读性次要看字面是否通顺、反复及是否有错别字等，一致性次要看前后语义逻辑是否统一、是否同落地页内容统一；二是内容多样性，这间接关系到用户的浏览体验及客户的产品满意度。

“巧妇难为无米之炊”，要发展文本创意生成的工作，业务关联数据必不可少。以后应用到的文本数据源次要包含：

广告展点日志：客户自提题目 / 形容、用户行为数据
广告主落地页：落地页题目、业务形容、常识文章
大搜日志: 天然后果展点数据

上述数据起源丰盛、数据规模大，也随同着如下挑战：

内容多样：数据长度散布、内容表达形式存在显著差别，对文本示意提出较高要求；
品质不一：尽管数据量大，实际上较大比例的数据品质并不达标，如果源端不做好品质管制，势必影响业务指标的优化；
场景不一：不同的业务场景下，模型优化的侧重点也不一样，对如何利用已有数据达成业务指标提出更高要求。比方广告题目与广告形容，除了优化点击率、转化率这些外围业务指标，前者更偏重内容简明扼要、精确传播客户外围业务，后者偏重内容丰盛多样、容许适度做扩大延长。

传统意义上的「抽取式」，类如在文档摘要工作中，从段落中选出一些重要片段排列组合后作为摘要后果，不产生新信息。这里将抽取式生成示意为：从原文中抽取出一些要害信息，进行间接管制型生成(directed generation)。

在创意优化工作的发展初期，咱们调研并上线了抽取式的生成策略，获得较好的指标晋升。上面介绍抽取式生成在广告形容上的利用，这一办法突出劣势在于生成的新文本同原文整体符合度高，也具备肯定的泛化表白。

信息提取 ：广告创意中的要害信息，个别体现为外围业务 / 营销点 / 品牌词 / 专名等，而广告形容绝对题目更长，内容模式更天然，要残缺保留原文要害信息有肯定难度。对此，咱们采纳由粗到精(coarse-to-fine) 的抉择策略：首先通过 wordrank 选出高权重词，再以片段为单位，各片段保留次高权重词 / 专名词，并对被切散的品牌词作策略捞回。
生成模型：采纳 Transform-based Seq2Seq 文本生成框架(如下图)，输出端蕴含 Source 和 Context 两局部，咱们将拍卖词作为 Source，将从形容提取的关键词序列作为 Context，Target 对应原形容，相似”选词造句”的形式，领导模型学习将离散词组合表述成残缺语句的能力。

为兼顾生成品质与业务指标的晋升，咱们构建了以下重要的管制机制:

外围业务统一 ：拍卖词(bidword) 是用户需要及广告主业务的表白，而广告创意广泛蕴含拍卖词，通过将拍卖词作为 Source，在 Encoder Source 与 Decoder Output 构建起强束缚(Hard Constrained)，保障模型生成的内容同外围业务高度一致；
业务指标统一：生成模型实质是一个 Language Model，训练指标是最小化词级别的穿插熵损失，而业务指标次要是优化广告点击率，这导致训练任务和业务指标不统一。对此，采样的计划是：假如外围指标同创意品质正相干，则能够依照 ” 触发买词 + 触发类型 + 广告地位 ” 进行分桶，分桶目标是尽量升高裸露偏差(Exposure Bias)；同一桶内按外围后验指标排序，取头部的创意作为训练语料，从而领导模型学习高质量创意的内容组织与表达方式；
信息辨别抉择：Context 中关键词序列若全副来自 Target，天然也引入了强束缚，即输出词均将呈现在输入文本中，这种状况下的束缚关系同业务指标却不太符合，首先要害信息提取阶段容易引入低质噪声词，再加上模型受众次要是低质广告创意，在其内容整体欠优的状况下，强束缚式生成难以保障生成品质。对此，组织训练数据时通过在 Context 中随机退出一些烦扰词，促使模型具备甄别 Context 优质信息的能力，缓解强束缚式生成带来的泛化性有余以及品质问题。

抽取式创意生成在品质和业务指标上均获得较好成果，但也存在显著瓶颈，即受限于原文，泛化能力无限，同时依赖要害信息的抽取品质，尤其原始内容整体欠优时难以完成二次优化。对此，咱们尝试了形象式的生成策略：一方面去掉 Context 中原文的要害信息，解除同 Target 强束缚关系；另一方面，引入业务场景相干的原始文本作为领导，相似情景写作，给定以后情景的 topic 以及前文信息，生成相匹配的后文。只有管制好外围主题以及业务敏感信息，形象式生成的摸索空间比抽取式凋谢得多，对创意内容的优化后劲显著晋升。

上面介绍形象式生成策略在广告题目上的利用。广告题目是连贯用户与客户最重要的信息渠道，因而除了优化题目点击率，用户体验同样重要，即广告题目 (所见) 须要同广告落地页 (所得) 保持一致，” 挂羊头卖狗肉”的景象非常有损用户体验。最间接的想法，就是将落地页的文本信息前置到广告题目中。剖析发现，落地页文本在内容散布与表达方式上同广告差别较大，间接替换或局部插入的形式不太可取。对此，咱们借助形象式生成策略，将落地页信息退出 Context 作为领导，冀望生成与之匹配且合乎广告表达形式的文本，模型如下所示。

实际过程中，发现很多 case 生成品质不佳(字面反复、语义不通顺)，而且没有蕴含落地页的内容，通过剖析可能有以下起因：

如前所述，形象式生成的建模复杂度自身就高，加上训练数据中两端文本在内容散布和表白上的显著差别，进一步加大模型的学习难度；

训练数据中，Target 端广告创意蕴含 Context 中落地页信息的占比很小，此外将拍卖词作为 Source(保留外围业务)，不可避免地引入强束缚，进一步减弱 Attention 机制对落地页信息的关注，最终在解码输入时天然难以呈现同落地页相匹配的内容。

针对以上问题，一方面咱们引入 MASS 预训练技术、调大模型构造，另一方面基于信息校验调整训练语料，促使落地页内容更好地融入生成后果。其中，预训练环节比拟无效，肯定水平缓解调整后平行语料匮乏的问题，同时赋予编码端更强的语义刻画能力、attention 机制更好的信息捕获能力以及解码端更精确的信息表达能力。评估生成成果，模型可能更好参考落地页的内容，联合广告外围业务，生成体验统一的优质广告文案。

前一节中提到业务发展过程遇到的一些问题，大部分通过模型降级、数据优化及规定校验可能失去无效解决，但对于内容一致性、内容多样性两个重要方面，解决方案并非最优，仍有较大优化空间，参考学术界相干钻研，上面列举两个优化思路。

目前咱们采纳的 Seq2Seq 生成框架(如下图)，在输出端将 Source 和 Context 连成一个文本序列送入编码器。整体来看 Source 和 Context 在工作中扮演着不同的角色，合并输出容易对编码器的语义特征提取造成烦扰。比方，Context 文本个别比 Source 长，且 Context 往往蕴含一些噪声，尽管通过训练数据组织构建了强束缚关系(Source 拍卖词广泛呈现在 Target 中)，但在从模型构造上看，编码端理论弱化了 Source，解码端很难对交融编码后的信息进行辨别，不利于无效生成，甚至会呈现业务偏离的梦幻 case，尤其对于形象式地生成，因为该场景下 Source 与 Context 的内容散布通常差别较大。

对此，有钻研提出将 Source 与 Context 辨别开来，在输出端两者各自进行编码(见论文[13])，这样可能带来诸多益处：

打消编码阶段不同源数据的互相烦扰，有利于改善 Encoder 语义特色的提取成果；
容许依据具体业务需要，为不同起源的数据施行特有的编码控制策略，比方文本过长且蕴含噪声的 Context 容易升高 Encoder 编码成果，对此能够在 self-attention 模块中退出 Softmax temperature 以影响概率分布计算结果(如下图)，其中 τ 值越大将促使模型更加关注那些得分高的词，即 Context 中的重要信息
Decoder 侧可依据理论需要，对多源数据的隐层表白施行不同的整合策略 (如下图)，其中：策略(a) 间接将 Source 与 Context 的编码向量 E(S)与 E(C)间接 Concat 送入 Decoder 的 Attention 模块；策略 (b) 先后对 E(C)与 E(S)别离作 Attention，从而一方面实现 Source 与 Context 的信息交互，更增强了 Source 对于解码输入的管制，这一策略有助于晋升生成文本同 Source 的一致性；策略 (c) 在(b)的根底上，通过多轮交替式的 Attention 进一步增强 Source 与 Context 的信息交互。
对 Context 独自编码，便于后续引入更多类型的数据，比方结构化常识、客户属性、用户个性化特色，甚至跨模态的图片 / 视频向量表白。

此外，论文提出一种数据加强策略，试验论证各项评估指标获得显著晋升，具体是：对于每条训练数据(示意为 <S, C> -> T)，以肯定概率结构 S ->T 或者 S ->C 的新语料，前者领导模型生成与 Source 更相干的内容，后者一方面促使编码器从 Source 提取到与 Context 更相干的信息、另一方面因为 Context 要比 Source 长许多，可视为对解码器作 LM 预训练。

无论是抽取式还是形象式，生成指标都是对输出信息进行正当精确的扩大与泛化，理论解码预测时次要基于编码器对输出信息的了解示意，输入概率最大的序列。因而，编码器是否可能充沛了解输出文本，决定了最终生成的成果。

在人工评测时发现许多 ” 题目党 ”、” 万金油”式的生成文本，比方”XXX，通知你一个简略的解决办法”、”XXX 是一家集研发、生产、销售为一体的公司”、”XXX，欢送点击征询”等，在对话工作中称这类景象为 ”general and meaningless response”。呈现这种景象次要在于，仅仅依附 Source/Context 本身文本，在语义编码阶段难以对业务实体、专名等概念类的词进行充沛了解和示意，加之数据驱动的模型容易”偷懒”，从而导致生成文本偏短、偏通用化、业务实体缺失 / 偏离。

惯例解决办法是调整 / 裁减训练语料、在 Decoder 端退出相干控制策略，肯定水平上可能缓解。实际上，Seq2Seq 的生成工作普遍存在上述问题，对此，目前业界宽泛钻研且验证无效的计划是引入内部常识性常识(commonsense knowledge)，辅助领导模型作出更全面、更精确的决策。对于如何利用内部常识，一类做法是在监督训练之前，基于常识物料作预训练，加深模型对实体信息的了解，训练语料通常是 ” 实体 + 描述性定义 ”，如”主机游戏，又名电视游戏，蕴含掌机游戏和家用机游戏两局部，是一种用来娱乐的交互式媒体”；另一类做法是在监督训练阶段，先从 Source 和 Context 文本中提取出一系列实体词，将实体词作为索引从通用知识库中检索出对应的 Knowledge 信息，借助 memory 机制将其融入模型中(如下图)，实现 <Source，Context，Knowledge> 三者独特作用训练与生成，具体实现细节见论文[14]。

针对文本生成的一系列节点，从模型构造到优化指标，从数据组织到工作迁徙，业界不断涌现出泛滥优良的钻研及实际成绩，如大规模预训练模型 (ERNIE/PLATO/T5/BART)、图谱常识嵌入、Memory 机制、跨模态 / 跨场景联结建模等等，为技术业务迭代给予很好的借鉴领导，后续有机会再交换，感兴趣的同学可参考[15]~[24] 相干材料，欢送探讨交换。

————END————

参考资料：
[1]Neural machine translation by jointly learning to align and translate，arXiv:1409.0473
[2]Attention Is All You Need，arXiv:1706.03762
[3]ELMO：Deep contextualized word representations，arXiv:1802.05365
[4]OPAI GPT: Improving Language Understanding by Generative Pre-Training
[5]Bert: Pre-training of deep bidirectional transformers for language understanding，arXiv:1810.04805
[6]MASS: Masked Sequence to Sequence Pre-training for Language Generation，arXiv:1905.02450
[7]Generating sequences with recurrent neural networks，arXiv:1308.0850
[8]Distributed Representations of Words and Phrases and their Compositionally，arXiv:1310.4546
[9]Get To The Point: Summarization with Pointer-Generator Networks，arXiv:1704.04368
[10]Don’t Give Me the Details, Just the Summary! Topic-Aware Convolutional Neural Networks for Extreme Summarization，arXiv:1808.08745
[11]Pre-trained Models for Natural Language Processing: A Survey，arXiv:2003.08271
[12]Do Massively Pretrained Language Models Make Better Storytellers?，arXiv:1909.10705
[13]Improving Conditioning in Context-Aware Sequence to Sequence Models，arXiv:1911.09728
[14]CTEG: Enhancing Topic-to-Essay Generation with External Commonsense Knowledge
[15]Unified Language Model Pre-training for Natural Language Understanding and Generation，arXiv:1905.03197
[16]Knowledge Diffusion for Neural Dialogue Generation
[17]Coherent Comment Generation for Chinese Articles with a Graph-to-Sequence Model，arXiv:1906.01231
[18]Fast Abstractive Summarization with Reinforce-Selected Sentence Rewriting，arXiv:1805.11080
[19]What makes a good conversation? How controllable attributes affect human judgments，arXiv:1902.08654
[20]The curious case of neural text degeneration，arXiv:1904.09751
[21]Straight to the Gradient: Learning to Use Novel Tokens for Neural Text Generation，arXiv:2106.07207
[22]Towards Facilitating Empathic Conversations in Online Mental Health Support: A Reinforcement Learning Approach，arXiv:2101.07714
[23]ERNIE-GEN: An Enhanced Multi-Flow Pre-training and Fine-tuning Framework for Natural Language Generation，arXiv:2001.11314
[24]PLATO: Pre-trained Dialogue Generation Model with Discrete Latent Variable，arXiv:1910.07931
[25]Evaluation of Text Generation: A Survey，arXiv:2006.14799

举荐浏览：
百度工程师教你玩转设计模式（适配器模式）
百度搜寻业务交付无人值守实际与摸索
分布式 ID 生成服务的技术原理和我的项目实战
揭秘百度智能测试在测试评估畛域实际
再添神器！Paddle.js 公布 OCR SDK
视频中为什么须要这么多的色彩空间？

关于程序员:聊聊机器如何写好广告文案

01 引子

02 文本生成工作

2.1 生成框架及工作分级

2.1 文本示意的常见办法

2.3 怎么评估生成文案的好坏

03 广告文案生成实际

3.1 根底数据起源

3.2 抽取式创意生成

3.3 形象式创意生成

04 可借鉴的一些思路

4.1 模型构造改良

4.2 内部常识加强

05 小结

Just My Socks（注册教程内含优惠码）

关于程序员:聊聊机器如何写好广告文案

01 引子

02 文本生成工作

2.1 生成框架及工作分级

2.1 文本示意的常见办法

2.3 怎么评估生成文案的好坏

03 广告文案生成实际

3.1 根底数据起源

3.2 抽取式创意生成

3.3 形象式创意生成

04 可借鉴的一些思路

4.1 模型构造改良

4.2 内部常识加强

05 小结

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）