关于人工智能:对话摘要技术在美团的探索SIGIR

随着互联网产生的文本数据越来越多，文本信息过载问题日益严重，对各类文本进行一个“降维”解决显得十分必要，而文本摘要就是其中一个重要的伎俩。本文首先介绍了经典的文本摘要办法，包含抽取式摘要办法和生成式摘要办法，随后剖析了对话摘要的模型，并分享了美团在实在对话摘要场景中面临的挑战。心愿能给从事相干工作的同学带来一些启发或者帮忙。

文本摘要 ^[65-74] 旨在将文本或文本汇合转换为蕴含要害信息的简短摘要，是缓解文本信息过载的一个重要伎俩。文本摘要依照输出类型，可分为单文档摘要和多文档摘要。单文档摘要从给定的一个文档中生成摘要，多文档摘要从给定的一组主题相干的文档中生成摘要。依照输入类型可分为抽取式摘要和生成式摘要。抽取式摘要从源文档中抽取要害句和关键词组成摘要，摘要信息全副来源于原文。生成式摘要依据原文，容许生成新的词语、短语来组成摘要。此外，依照有无监督数据，文本摘要能够分为有监督摘要和无监督摘要。依据输出数据畛域，文本摘要又能够分为新闻摘要、专利摘要、论文摘要、对话摘要等等。

主动文本摘要能够看作是一个信息压缩的过程，咱们将输出的一篇或多篇文档主动压缩为一篇简短的摘要，该过程不可避免地存在信息损失，但要求保留尽可能多的重要信息。主动文摘零碎通常波及对输出文档的了解、要点的筛选以及文摘合成这三个次要步骤。其中，文档了解可浅可深，大多数主动文摘零碎只须要进行比拟浅层的文档了解，例如段落划分、句子切分、词法剖析等，也有文摘零碎须要依赖句法解析、语义角色标注、指代消解，甚至深层语义剖析等技术。

对话摘要是文本摘要的一个特例，其外围面向的是对话类数据。对话类数据有着不同的模式，例如：会议、闲聊、邮件、答辩、客服等等。不同模式的对话摘要在本人的特定畛域有着不同的利用场景，然而它们的外围与摘要工作的外围是统一的，都是为了捕获对话中的要害信息，帮忙疾速了解对话的核心内容。与文本摘要不同的是，对话摘要的要害信息经常散落在不同之处，对话中的谈话者、话题不停地转换。此外，以后也短少对话摘要的数据集，这些都增大了对话摘要的难度^[64]。

基于理论的场景，本文提出了浏览了解的间隔监督 Span-Level 对话摘要计划《Distant Supervision based Machine Reading Comprehension for Extractive Summarization in Customer Service》（已发表在 SIGIR 2021），该办法比强基准办法在 ROUGE- L 指标和 BLEU 指标上晋升了 3% 左右。

文本摘要从生成形式上可分为抽取式摘要和生成式摘要两种模式。抽取式摘要通常应用算法从源文档中提取现成的关键词、句子作为摘要句。在通顺度上，个别优于生成式摘要。然而，抽取式摘要会引入过多的冗余信息，无奈体现摘要自身的特点。生成式摘要则是基于 NLG（Natural Language Generation）技术，依据源文档内容，由算法模型生成自然语言形容，而非间接提取原文的句子。

目前，生成式摘要很多工作都是基于深度学习中的 Seq2Seq 模型 ^[44]。最近在以 BERT^[34] 为代表的大量预训练模型入世后，也有很多工作集中在如何利用预训练模型来做 NLG 工作。上面别离介绍上述两种模式下的经典模型。

抽取式摘要从原文中选取关键词、要害句组成摘要。这种办法人造在语法、句法上错误率低，保障了肯定的成果。传统的抽取式摘要办法应用图办法、聚类等形式实现无监督摘要。目前风行的基于神经网络的抽取式摘要，往往将问题建模为序列标注和句子排序两类工作。上面首先介绍传统的抽取式摘要办法，接着简述基于神经网络的抽取式摘要办法。

Lead-3

一般来说，文档经常会在题目和文档开始就表明主题，因而最简略的办法就是抽取文档中的前几句作为摘要。罕用的办法为 Lead-3^[63]，即抽取文档的前三句作为文档的摘要。Lead- 3 办法尽管简略间接，但却是十分无效的办法。

TextRank

TextRank^[58] 算法仿照 PageRank，将句子作为节点，应用句子间类似度，结构无向有权边。应用边上的权值迭代更新节点值，最初选取 N 个得分最高的节点，作为摘要。

聚类

基于聚类的办法，将文档中的句子视为一个点，依照聚类的形式实现摘要。例如 Padmakumar 和 Saran ^[11]将文档中的句子应用 Skip Thought Vectors 和 Paragram Embeddings 两种形式进行编码，失去句子级别的向量示意。而后再应用 K 均值聚类 ^[59] 和 Mean-Shift 聚类 ^[60] 进行句子聚类，失去 N 个类别。最初从每个类别中，抉择间隔质心最近的句子，失去 N 个句子，作为最终的摘要。

近年来神经网络风靡之后，基于神经网络的抽取式摘要办法比传统的抽取式摘要办法性能显著更高。基于神经网络的抽取式摘要办法次要分为序列标注形式和句子排序形式，其区别在于句子排序形式应用句子收益作为打分形式，思考句子之间的互相关系。

这种办法能够建模为序列标注工作进行解决，其外围想法是：为原文中的每一个句子打一个二分类标签（0 或 1），0 代表该句不属于摘要，1 代表该句属于摘要。最终摘要由所有标签为 1 的句子形成。

这种办法的关键在于取得句子的示意，行将句子编码为一个向量，依据该向量进行二分类工作，例如 SummaRuNNer 模型^[48]，应用双向 GRU 别离建模词语级别和句子级别的示意（模型如下图 1 所示）。蓝色局部为词语级别示意，红色局部为句子级别示意，对于每一个句子示意，有一个 0、1 标签输入，批示其是否是摘要。

该模型的训练须要监督数据，现有数据集往往没有对应的句子级别的标签，能够通过启发式规定进行获取。具体方法为：首先选取原文中与规范摘要计算 ROUGE 得分最高的一句话退出候选汇合，接着持续从原文中进行抉择，保障选出的摘要汇合 ROUGE 得分减少，直至无奈满足该条件。失去的候选摘要汇合对应的句子设为 1 标签，其余为 0 标签。

抽取式摘要还能够建模为句子排序工作，与序列标注工作的不同点在于，序列标注对于每一个句子示意打一个 0、1 标签，而句子排序工作则是针对每个句子输入其是否是摘要句的概率，最终根据概率，选取 Top K 个句子作为最终摘要。尽管工作建模形式（最终选取摘要形式）不同，然而其外围关注点都是对于句子示意的建模。

序列标注形式的模型在失去句子的示意当前对于句子进行打分，这就造成了打分与抉择是拆散的，先打分，后依据得分进行抉择，没有利用到句子之间的关系。NeuSUM^[49]提出了一种新的打分形式，应用句子收益作为打分形式，思考到了句子之间的互相关系。其模型 NeuSUM 如下图 2 所示：

句子编码局部与之前基本相同。打分和抽取局部应用单向 GRU 和双层 MLP 实现。单向 GRU 用于记录过来抽取句子的状况，双层 MLP 用于打分，如下公式所示：

抽取式摘要在语法、句法上有肯定的保障，然而也面临了肯定的问题，例如：内容抉择谬误、连贯性差、灵活性差等问题。生成式摘要容许摘要中蕴含新的词语或短语，灵活性较高。随着近几年神经网络模型的倒退，序列到序列（Seq2Seq）模型被宽泛地用于生成式摘要工作，并获得肯定的成绩。上面介绍生成式摘要模型中经典的 Pointer-Generator^[50]模型和基于要点的生成式摘要模型 Leader+Writer^[4]。

仅应用 Seq2Seq 来实现生成式摘要存在如下问题：①未登录词问题（OOV）；②反复生成问题。Pointer-Generator^[50]在基于注意力机制的 Seq2Seq 根底上减少了 Copy 和 Coverage 机制，无效地缓解了上述问题。其模型构造如下图 3 所示：

该模型基于注意力机制的 Seq2Seq 模型，应用每一步解码的隐层状态与编码器的隐层状态计算权重，最终失去 Context 向量，利用 Context 向量和解码器隐层状态计算输入概率。

两个翻新

Copy 机制：在解码的每一步计算拷贝或生成的概率，因为词表是固定的，该机制能够抉择从原文中拷贝词语到摘要中，无效地缓解了未登录词（OOV）的问题。
Coverage 机制：在解码的每一步思考之前步的注意力权重，联合 Coverage 损失，防止持续思考曾经取得高权重的局部。该机制能够无效缓解生成反复的问题。

Leader-Writer 模型次要通过开掘对话中存在的要点 (例如背景、论断等) 来生成摘要。作者总结了生成式摘要现存的几个问题：①逻辑性，例如在客服对话中，背景应该在论断之前；②完整性，即对话中存在的各个要点都应该在摘要中存在；③要害信息正确，例如“用户批准”和“用户不批准”尽管只有一字之差，但含意齐全相同；④摘要过长问题。为了解决这些问题，本文提出了如下解决方案：

引入要点序列预测辅助工作，并利用对话的要点序列信息疏导模型生成具备逻辑性、完整性、要害信息正确的摘要。如下图 4 所示，Leader-Writer 模型用一个档次的 Transformer 编码器编码每个话语，用 Leader 解码器对每个话语的要点进行分类，并应用 Writer 解码器进行摘要生成。Leader 解码器解码的输入作为 Writer 解码器初始状态的输出，以利用不同对话片段的要点信息。
引入 Pointer-Generator 模型，以生成更长、信息更丰盛的摘要。

对话具备要害信息散落、低信息密度、多畛域、话题转换、谈话者角色常常转换等特点，因而能够间接将文本摘要利用于对话摘要，一些钻研工作也致力于解决这些问题。上面介绍 2 个有代表性的对话摘要模型：SPNet^[53]和 TDS-SATM^[54]。

针对对话摘要面临的 3 个问题：①谈话者泛滥；②难以正确总结要害实体信息；③对话畛域泛滥、畛域个性大。为此，本文提出了 3 个解决方案：

应用 Pointer-generator 进行生成式的摘要提取，同时引入不同编码器编码不同的谈话者角色。
针对地名、工夫等实体信息，在编码器的输出用对立的符号代替，如工夫都用 [time] 代替。
引入对话畛域分类的辅助损失，减少了多个畛域分类的穿插熵损失作为辅助损失。

对话的重要信息经常散落在不同句子当中，而大多数话语是不重要的常见表述，此外乐音和本义谬误也经常呈现在对话中。为了解决上述问题，作者提出了如下两个解决办法：

在神经主题模型的根底上提出了显著性感知神经主题模型 (SATM)，通过对话推断出主题散布。作者把主题分为有信息的主题和其余主题。在 SATM 的生成过程中，作者把与规范摘要绝对应的每个单词束缚为从有信息的主题中生成，这样 SATM 能够生成主题更相干的词。
为了捕捉角色信息并从对话中提取语义主题，作者应用 SATM 别离对客户话语，客服话语和整体对话执行多角色主题建模。作者应用两阶段的摘要生成器，包含句子抽取和从抽取的句子中生成摘要。将 SATM 失去的主题信息融入摘要生成器中，以通过对话中的重要信息生成摘要。

模型的整体架构图如下图 5 所示：

将来保障良好的用户体验，美团有大量的人工客服来解决用户复电问题，客服同学接到电话后需手动记录电话的内容，耗时费劲。一个无效的对话摘要模型能够大大增加客服同学的工作效率，升高人工客服解决每通复电的均匀解决工夫。

只管上述经典办法在 CNN/Daily Mail、LCSTS 等数据集上获得了不错的成果，但在理论的场景中依然会遇到很多挑战。例如，生成式摘要仍然短少稳定性（反复或者产生奇怪的词）和逻辑性，而抽取式摘要如果没有明确的标注信息去训练模型，个别通过“ROUGE- L 指标高的句子标为正例”的形式主动标注句子档次的标签，但这种只抽取句子档次的粗粒度形式也容易带来乐音。此外，现有对话摘要后果不可控，难以失去特定的信息因素。

为了实用理论的场景，咱们介绍基于浏览了解的 Span-Level 抽取式对话摘要计划，该办法基于现有人工客服记录的摘要，不须要额定标注，也获得了不错的后果。其中相干的成绩发表也在 SIGIR 2021 国内会议上，下文将具体介绍该办法。

为了解决现有对话摘要难以失去指定信息因素以及短少标注数据的问题，咱们提出了一个更灵便的、基于近程监督和浏览了解的抽取式摘要模型（Distant Supervision based Machine Reading Comprehension Model for Extractive Summarization），简称为 DSMRC-S，总体构造如下图 6 所示：

DSMRC- S 由一个基于 BERT 的 MRC（Machine Reading Comprehension）模块、近程监督模块和一个基于密度的提取策略组成。在预处理阶段，对话中的 Token 会被主动标注，模型会被训练去预测对话中每个 Token 呈现在答案中的概率。而后，基于上一步预测的概率，一个基于密度的提取策略会被用来提取最合适的 Span 作为答案。

咱们的办法能够次要分成两局部：①将对话摘要工作转换成浏览了解；②无需额定标注的浏览了解计划。

客服接到一个电话后须要写一个摘要，摘要的内容通常会蕴含一些固定的要害因素，比方“用户复电背景”、“用户复电诉求”、“解决方案”等。基于这样的特点，咱们将主动摘要工作转换成浏览了解工作，摘要中的每一个要害因素对应浏览了解工作中的一个问题。

这样转换的益处在于：

能够更无效地利用预训练语言模型弱小的语言理解能力。
相比 Seq2Seq 生成内容不可控，浏览了解的形式能够通过问句进行更有针对性疏导，使得答案作为摘要更聚焦，能够失去关注的信息因素。

浏览了解工作须要通常须要大量的标注数据。侥幸的是，人工客服记录了大量的要害信息（例如“用户复电背景”、“用户复电诉求”、“解决方案”等），这些记录能够作为浏览了解问句对应的答案。然而人工客服的记录不是对话的原始文本片段，不能间接用于抽取式浏览了解，为了解决这个问题，咱们设计了如下两个阶段（不依赖额定标注的浏览了解计划）。

在本节中，咱们评估 DSMRC- S 的模型性能，上面具体介绍试验设置和试验后果。

咱们在美团场景数据中进行评估，该数据集包含 40 万段对话，每个对话蕴含四个坐席手写的要害因素（比方用户复电诉求、坐席解决方案等）。

咱们应用机器翻译和文本摘要中罕用的 BLEU 和 ROUGE-L (F1) 指标来掂量输入后果和参考文本（客服手写摘要）的靠近水平，它们别离基于准确率和 F1 分数评估模型输入文本与参考文本在 n -grams 上的重叠状况。同时，Distinct 指标也被应用去掂量输入摘要的差异性。

S2S+Att：一个基于 RNN+Attention^[45]机制的 Sequence-to-Sequence^[44]模型。
S2S+Att+Pointer：减少了 Pointer 机制^[50]，让模型本人决定是从生成一个 Token 还是从对话中复制一个 Token。
S2S+Att+Pointer（w）：（w）指的是将整个摘要作为一个整体进行预测，而不是预测多个要害因素，再最终组合。
Trans+Att+Pointer：将 RNN 替换为 Transformer^[46]。
Trans+Att+Pointer（w）：将 RNN 替换为 Transformer，（w）指的是将整个摘要作为一个整体进行预测，而不是预测多个要害因素，再最终组合。
Leader+Writer：一个层次化的 Transformer 构造^[4]，Leader 模块先预测要害因素序列，Writer 模块依据要害因素序列生成最终的摘要。
TDS+SATM：利用 Transformer 构造进行句子级别的摘要抽取和字符级别的摘要生成的两阶段办法^[54]，并应用神经主题模型进行主题加强。
DSMRC-S：咱们提出的基于浏览了解的 Span-level 抽取式摘要办法。

主试验

DSMRC- S 和其余 Baseline 办法的性能如表 1 所示。咱们能够失去以下论断：

咱们的模型取得了最好的性能，比最好的 Baseline 办法在 BLEU 上和 ROUGE- L 上都晋升了约 3%。
独自对每个要害因素进行预测的形式，比起对整个摘要进行预测，成果显著更好。比方，Trans+Att+Pointer 比 Trans+Att+Pointer（w）要在 ROUGE- L 上高 3.62%。这意味着在客服场景，对摘要进行拆分预测是有必要的。
从摘要的差异性来看，咱们的模型也取得了最好的性能，比最好的 Baseline 办法在 Distinct1 指标上晋升了 3.9%。

不同要害因素上的性能

如上图所示，咱们展现了模型在预测不同的要害因素上的性能。咱们的办法 DSMRC- S 在每个要害因素的预测上都优于其余的 Baseline 办法，这阐明咱们的办法有利于抽取不同要害因素的内容。具体地，在第二个要害因素（用户的诉求）上，咱们的办法显著更好（可能是因为用户诉求个别会一成不变地在对话中提到）。

不同长度的对话上的性能

如上图所示，咱们也展现了模型在不同的对话轮次和摘要长度的样本上的性能。随着对话轮次和摘要长度的减少，所有办法的 ROUGE- L 都简直在降落，这是因为预测难度的晋升。然而咱们的办法 DSMRC- S 在不同的对话轮次和摘要长度的样本上，都体现比 Baseline 办法更好的准确率。

本文先介绍了文本摘要的经典办法，包含抽取式摘要办法和生成式摘要办法，随后介绍了更为灵便的基于间隔监督浏览了解的 Span-Level 计划，该办法比强基准办法在 ROUGE- L 指标和 BLEU 指标上高出了 3% 左右。将来，咱们将从如下方向持续在对话摘要上摸索和实际：

多 Span 答案的摘要抽取办法；
基于 Prompt 的生成式对话摘要办法的摸索；
对话构造的深度建模，捕捉更为丰盛的对话信息。

[1] A. M. Rush, S. Chopra, and J. Weston,“A neural attention model for abstractive sentence summarization,”in Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, EMNLP 2015.
[2] A. See, P. J. Liu, and C. D. Manning,“Get to the point: Summarization with pointer-generator networks,”in Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics, ACL 2017.
[3] S. Gehrmann, Y. Deng, and A. M. Rush,“Bottom-up abstractive summarization,”in Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, EMNLP 2018.
[4] C. Liu, P. Wang, J. Xu, Z. Li, and J. Ye,“Automatic dialogue summary generation for customer service,”in Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, KDD 2019.
[5] S. Chopra, M. Auli, and A. M. Rush,“Abstractive sentence summarization with attentive recurrent neural networks,”in NAACL HLT 2016.
[6] Y. Miao and P. Blunsom,“Language as a latent variable: Discrete generative models for sentence compression,”in Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing, EMNLP 2016.
[7] D. Wang, P. Liu, Y. Zheng, X. Qiu, and X. Huang,“Heterogeneous graph neural networks for extractive document summarization,”in Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, ACL 2020.
[8] M. Zhong, D. Wang, P. Liu, X. Qiu, and X. Huang,“A closer look at data bias in neural extractive summarization models.”
[9] Q. Zhou, N. Yang, F. Wei, S. Huang, M. Zhou, and T. Zhao,“Neural document summarization by jointly learning to score and select sentences,”in Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics, ACL 2018,
[10] J. Cheng and M. Lapata,“Neural summarization by extracting sentences and words,”in Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics, ACL 2016
[11] R. Nallapati, F. Zhai, and B. Zhou,“Summarunner: A recurrent neural network based sequence model for extractive summarization of documents,”in Proceedings of the Thirty-First AAAI Conference on Artificial Intelligence,
[12] H. Pan, J. Zhou, Z. Zhao, Y. Liu, D. Cai, and M. Yang,“Dial2desc: End-to-end dialogue description generation,”CoRR, vol. abs/1811.00185, 2018.
[13] C. Goo and Y. Chen,“Abstractive dialogue summarization with sentence-gated modeling optimized by dialogue acts,”in 2018 IEEE Spoken Language Technology Workshop, SLT 2018
[14] J. Gu, T. Li, Q. Liu, Z. Ling, Z. Su, S. Wei, and X. Zhu,“Speaker-aware BERT for multi-turn response selection in retrieval-based chatbots,”in CIKM’20
[15] K. Filippova, E. Alfonseca, C. A. Colmenares, L. Kaiser, and O. Vinyals,“Sentence compression by deletion with lstms,”in Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, EMNLP 2015.
[16] R. Nallapati, B. Zhou, C. N. dos Santos, C ̧. Gu ̈lc ̧ehre, and B. Xiang,“Abstractive text summarization using sequence-to-sequence rnns and beyond,”in Proceedings of the 20th SIGNLL Conference on Computational Natural Language Learning, CoNLL 2016,
[17] A. Celikyilmaz, A. Bosselut, X. He, and Y. Choi,“Deep communicating agents for abstractive summarization,”in Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics
[18] R. Paulus, C. Xiong, and R. Socher,“A deep reinforced model for abstractive summarization,”in 6th International Conference on Learning Representations, ICLR 2018
[19] L. Zhao, W. Xu, and J. Guo,“Improving abstractive dialogue summarization with graph structures and topic words,”in Proceedings of the 28th International Conference on Computational Linguistics, COLING 2020,
[20] Y. Zou, L. Zhao, Y. Kang, J. Lin, M. Peng, Z. Jiang, C. Sun, Q. Zhang, X. Huang, and X. Liu,“Topic-oriented spoken dialogue summarization for customer service with saliency-aware topic modeling,”in Thirty-Fifth AAAI Conference on Artificial Intelligence, AAAI 2021
[21] Q. Zhou, N. Yang, F. Wei, S. Huang, M. Zhou, and T. Zhao,“A joint sentence scoring and selection framework for neural extractive document summarization,”IEEE ACM Trans. Audio Speech Lang. Process., vol. 28, pp. 671–681, 2020.
[22] Y. Chen and M. Bansal,“Fast abstractive summarization with reinforce-selected sentence rewriting,”in Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics, ACL 2018.
[23] A. Jadhav and V. Rajan,“Extractive summarization with SWAP-NET: sentences and words from alternating pointer networks,”in Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics, ACL 2018,
[24] S. Narayan, S. B. Cohen, and M. Lapata,“Ranking sentences for extractive summarization with reinforcement learning,”in Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, NAACL-HLT 2018,
[25] X. Zhang, M. Lapata, F. Wei, and M. Zhou,“Neural latent extractive document summarization,”in Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing,
[26] Y. Liu, I. Titov, and M. Lapata,“Single document summarization as tree induction,”in Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, NAACL-HLT 2019,
[27] J. Xu, Z. Gan, Y. Cheng, and J. Liu,“Discourse-aware neural extractive text summarization,”in Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, ACL 2020
[28] M. Zhong, P. Liu, Y. Chen, D. Wang, X. Qiu, and X. Huang,“Extractive summarization as text matching,”in Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, ACL 2020
[29] Y. Wu, W. Wu, C. Xing, ou, and Z. Li,“Sequential matching network: A new architecture for multi-turn response selection in retrieval-based chatbots,”in ACL 2017,
[30] Z.Zhang,J.Li,P.Zhu,H.Zhao,andG.Liu,“Modelingmulti-turn conversation with deep utterance aggregation,”in COLING 2018,
[31] X. Zhou, L. Li, D. Dong, Y. Liu, Y. Chen, W. X. Zhao, D. Yu, and H. Wu,“Multi-turn response selection for chatbots with deep attention matching network,”in ACL 2018
[32] C. Tao, W. Wu, C. Xu, W. Hu, D. Zhao, and R. Yan,“One time of interaction may not be enough: Go deep with an interaction-over-interaction network for response selection in dialogues,”in ACL 2019
[33] M. Henderson, I. Vulic, D. Gerz, I. Casanueva, P. Budzianowski, S. Coope, G. Spithourakis, T. Wen, N. Mrksic, and P. Su,“Training neural response selection for task-oriented dialogue systems,”in Proceedings of the 57th Conference of the Association for Computational Linguistics, ACL 2019
[34] J. Devlin, M. Chang, K. Lee, and K. Toutanova,“BERT: pre-training of deep bidirectional transformers for language understanding,”in Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, NAACL-HLT 2019,
[35] J. Dong and J. Huang,“Enhance word representation for out-of-vocabulary on ubuntu dialogue corpus,”CoRR, vol. abs/1802.02614, 2018.
[36] C. Goo and Y. Chen,“Abstractive dialogue summarization with sentence-gated modeling optimized by dialogue acts,”in 2018 IEEE Spoken Language Technology Workshop, SLT 2018,
[37] Q. Chen, Z. Zhuo, and W. Wang,“BERT for joint intent classification and slot filling,”CoRR, vol. abs/1902.10909, 2019.
[38] L. Song, K. Xu, Y. Zhang, J. Chen, and D. Yu,“ZPR2: joint zero pronoun recovery and resolution using multi-task learning and BERT,”in Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, ACL 2020
[39] S. Chuang, A. H. Liu, T. Sung, and H. Lee,“Improving automatic speech recognition and speech translation via word embedding prediction,”IEEE ACM Trans. Audio Speech Lang. Process., vol. 29, pp. 93–105, 2021.
[40] C.-Y. Lin,“ROUGE: A package for automatic evaluation of summaries,”in Text Summarization Branches Out. Barcelona, Spain: Association for Computational Linguistics, Jul. 2004, pp. 74–81.
[41] K. Papineni, S. Roukos, T. Ward, and W. Zhu,“Bleu: a method for automatic evaluation of machine translation,”in Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics,
[42] J. Li, M. Galley, C. Brockett, J. Gao, and B. Dolan,“A diversity-promoting objective function for neural conversation models,”in NAACL HLT 2016, The 2016 Conference of the North American Chapter of the Association for Computational Linguistics.
[43] Y. Liu and M. Lapata,“Text summarization with pretrained encoders,”in Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing, EMNLP-IJCNLP 2019,
[44] I.Sutskever,O.Vinyals,andQ.V.Le,“Sequence-to-sequence learning with neural networks,”in Advances in Neural Information Processing Systems 27: Annual Conference on Neural Information Processing Systems 2014
[45] D. Bahdanau, K. Cho, and Y. Bengio,“Neural machine translation by jointly learning to align and translate,”in 3rd International Conference on Learning Representations, ICLR 2015,
[46] A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, L. Kaiser, and I. Polosukhin,“Attention is all you need,”in Advances in Neural Information Processing Systems 30: Annual Conference on Neural Information Processing Systems 2017,
[47] C. Raffel, N. Shazeer, A. Roberts, K. Lee, S. Narang, M. Matena, Y. Zhou, W. Li, and P. J. Liu,“Exploring the limits of transfer learning with a unified text-to-text transformer,”J. Mach. Learn. Res., vol. 21, pp. 140:1–140:67, 2020.
[48] R.Nallapati, F. Zhai, B. Zhou,“SummaRuNNer: A Recurrent Neural Network Based Sequence Model for Extractive Summarization of Documents.”AAAI 2017.
[49] Q. Zhou, N. Yang, F. Wei, S. Huang, M. Zhou, T. Zhao,“Nerual Document Summarization by Jointly Learning to Score and Select Sentences,”ACL 2018.
[50] Abigail See, Peter J Liu, and Christopher D Manning. Get to the point: Summarization with pointer-generator networks. arXiv preprint arXiv:1704.04368, 2017.
[51] Abdelrahman Mohamed, Omer Levy, Veselin Stoyanov and Luke Zettlemoyer.“BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension.”ACL (2020).
[52] Zhang, Jingqing, Yao Zhao, Mohammad Saleh and Peter J. Liu.“PEGASUS: Pre-training with Extracted Gap-sentences for Abstractive Summarization.”ArXiv abs/1912.08777 (2020): n. pag.
[53] Yuan, Lin and Zhou Yu.“Abstractive Dialog Summarization with Semantic Scaffolds.”ArXiv abs/1910.00825 (2019): n. pag.
[54] Zou, Yicheng, Lujun Zhao, Yangyang Kang, Jun Lin, Minlong Peng, Zhuoren Jiang, Changlong Sun, Qi Zhang, Xuanjing Huang and Xiaozhong Liu.“Topic-Oriented Spoken Dialogue Summarization for Customer Service with Saliency-Aware Topic Modeling.”AAAI (2021).
[55] Brown, Tom B. et al.“Language Models are Few-Shot Learners.”ArXiv abs/2005.14165 (2020): n. pag.
[56] Radford, Alec, Jeff Wu, Rewon Child, David Luan, Dario Amodei and Ilya Sutskever.“Language Models are Unsupervised Multitask Learners.”(2019).
[57] Radford, Alec and Karthik Narasimhan.“Improving Language Understanding by Generative Pre-Training.”(2018).
[58] Mihalcea, Rada and Paul Tarau.“TextRank: Bringing Order into Text.”EMNLP (2004).
[59] Hartigan, J. A. and M. Anthony. Wong.“A k-means clustering algorithm.”(1979).
[60] Comaniciu, Dorin and Peter Meer.“Mean Shift: A Robust Approach Toward Feature Space Analysis.”IEEE Trans. Pattern Anal. Mach. Intell. 24 (2002): 603-619.
[61] Lin, Chin-Yew.“ROUGE: A Package for Automatic Evaluation of Summaries.”ACL 2004 (2004).
[62] Papineni, Kishore, Salim Roukos, Todd Ward and Wei-Jing Zhu.“Bleu: a Method for Automatic Evaluation of Machine Translation.”ACL (2002).
[63] Ishikawa, Kai, Shinichi Ando and Akitoshi Okumura.“Hybrid Text Summarization Method based on the TF Method and the Lead Method.”NTCIR (2001).
[64] Feng, Xiachong, Xiaocheng Feng and Bing Qin.“A Survey on Dialogue Summarization: Recent Advances and New Frontiers.”ArXiv abs/2107.03175 (2021): n. pag.
[65] El-Kassas, Wafaa S., Cherif R. Salama, Ahmed A. Rafea and Hoda Korashy Mohamed.“Automatic text summarization: A comprehensive survey.”Expert Syst. Appl. 165 (2021): 113679.
[66] Nallapati, Ramesh, Bowen Zhou, Cícero Nogueira dos Santos, Çaglar Gülçehre and Bing Xiang.“Abstractive Text Summarization using Sequence-to-sequence RNNs and Beyond.”CoNLL (2016).
[67] Shi, Tian, Yaser Keneshloo, Naren Ramakrishnan and Chandan K. Reddy.“Neural Abstractive Text Summarization with Sequence-to-Sequence Models.”ACM Transactions on Data Science 2 (2021): 1 – 37.
[68] Fabbri, Alexander R., Irene Li, Tianwei She, Suyi Li and Dragomir R. Radev.“Multi-News: A Large-Scale Multi-Document Summarization Dataset and Abstractive Hierarchical Model.”ArXiv abs/1906.01749 (2019): n. pag.
[69] Li, Wei and Hai Zhuge.“Abstractive Multi-Document Summarization Based on Semantic Link Network.”IEEE Transactions on Knowledge and Data Engineering 33 (2021): 43-54.
[70] DeYoung, Jay, Iz Beltagy, Madeleine van Zuylen, Bailey Kuehl and Lucy Lu Wang.“MSˆ2: Multi-Document Summarization of Medical Studies.”EMNLP (2021).
[71] Nallapati, Ramesh, Feifei Zhai and Bowen Zhou.“SummaRuNNer: A Recurrent Neural Network Based Sequence Model for Extractive Summarization of Documents.”AAAI (2017).
[72] Narayan, Shashi, Shay B. Cohen and Mirella Lapata.“Ranking Sentences for Extractive Summarization with Reinforcement Learning.”NAACL (2018).
[73] Zhong, Ming, Pengfei Liu, Yiran Chen, Danqing Wang, Xipeng Qiu and Xuanjing Huang.“Extractive Summarization as Text Matching.”ACL (2020).
[74] Zhang, Jingqing, Yao Zhao, Mohammad Saleh and Peter J. Liu.“PEGASUS: Pre-training with Extracted Gap-sentences for Abstractive Summarization.”ArXiv abs/1912.08777 (2020): n. pag.

马兵、刘操、今雄、书杰、见耸、杨帆、广鲁等，均来自美团平台 / 语音交互部。

语音交互部负责美团语音和智能交互技术及产品研发，面向美团业务和生态搭档，提供对语音和书面语数据的大规模解决及智能响应能力。通过多年研发积攒，团队在语音辨认、合成、书面语了解、智能问答和多轮交互等技术上已建成大规模的技术平台服务，并研发包含外呼机器人、智能客服、语音内容分析等解决方案和产品，在公司丰盛的业务场景中宽泛落地；同时咱们也非常重视与行业的严密单干，通过美团语音利用平台已与第三方手机语音助手、智能音箱、智能车机等诸多合作伙伴发展对接，将语音生存服务利用提供给更多用户。

语音交互部长期招聘自然语言解决算法工程师、算法专家，感兴趣的同学能够将简历发送至 chenjiansong@meituan.com。

浏览美团技术团队更多技术文章合集

前端 | 算法 | 后端 | 数据 | 平安 | 运维 | iOS | Android | 测试

| 在公众号菜单栏对话框回复【2021 年货】、【2020 年货】、【2019 年货】、【2018 年货】、【2017 年货】等关键词，可查看美团技术团队历年技术文章合集。

| 本文系美团技术团队出品，著作权归属美团。欢送出于分享和交换等非商业目标转载或应用本文内容，敬请注明“内容转载自美团技术团队”。本文未经许可，不得进行商业性转载或者应用。任何商用行为，请发送邮件至 tech@meituan.com 申请受权。

关于人工智能:对话摘要技术在美团的探索SIGIR

1. 对话摘要技术背景

2. 文本摘要与对话摘要经典模型介绍

2.1 抽取式摘要模型

传统抽取式摘要办法

基于神经网络的抽取式摘要办法

序列标注形式

句子排序形式

2.2 生成式摘要模型

Pointer-Generator 模型

Leader-Writer 模型

2.3 对话摘要模型

Scaffold Pointer Network (SPNet)

TDS-SATM

3. 基于浏览了解的 Span-level 抽取式摘要计划 DSMRC-S（发表于 SIGIR 2021）

3.1 背景介绍

3.2 办法介绍

对话摘要转换成浏览了解工作

无需额定标注的浏览了解计划

3.3 试验

数据集

试验细节

评估指标

比拟办法

试验后果

4. 总结与瞻望

5. 参考文献

6. 本文作者

7. 招聘信息

Just My Socks（注册教程内含优惠码）

关于人工智能:对话摘要技术在美团的探索SIGIR

1. 对话摘要技术背景

2. 文本摘要与对话摘要经典模型介绍

2.1 抽取式摘要模型

传统抽取式摘要办法

基于神经网络的抽取式摘要办法

序列标注形式

句子排序形式

2.2 生成式摘要模型

Pointer-Generator 模型

Leader-Writer 模型

2.3 对话摘要模型

Scaffold Pointer Network (SPNet)

TDS-SATM

3. 基于浏览了解的 Span-level 抽取式摘要计划 DSMRC-S（发表于 SIGIR 2021）

3.1 背景介绍

3.2 办法介绍

对话摘要转换成浏览了解工作

无需额定标注的浏览了解计划

3.3 试验

数据集

试验细节

评估指标

比拟办法

试验后果

4. 总结与瞻望

5. 参考文献

6. 本文作者

7. 招聘信息

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）