是时候给你的产品配一个AI问答助手了!

43次阅读

共计 10665 个字符,预计需要花费 27 分钟才能阅读完成。

本文由云 + 社区发表
| 导语 问答系统是信息检索的一种高级形式,能够更加准确地理解用户用自然语言提出的问题,并通过检索语料库、知识图谱或问答知识库返回简洁、准确的匹配答案。相较于搜索引擎,问答系统能更好地理解用户提问的真实意图, 进一步能更有效地满足用户的信息需求。问答系统是目前人工智能和自然语言处理领域中一个倍受关注并具有广泛发展前景的研究方向。
一、引言
​ 问答系统处理的对象主要包括用户的问题以及答案。根据问题所属的知识领域,问答系统可分为面向限定域的问答系统、面向开放域的问答系统、以及面向常用问题集(Frequently Asked Questions, FAQ)的问答系统。依据答案来源,问答系统可分为基于结构化数据的问答系统如 KBQA、基于文本的问答系统如机器阅读理解、以及基于问答对的问答系统如 FAQ 问答。此外,按照答案的反馈机制划分,问答系统还可以分为基于检索式的问答系统和基于生成式的问答系统。
​ 本文主要阐述 FAQBot 检索型问答系统的相关研究和处理框架,以及深度学习在其中的应用。FAQ 检索型问答是根据用户的新 Query 去 FAQ 知识库找到最合适的答案并反馈给用户。如图所示:

其中,Qi 是知识库里的标准问,Ai 是标准问对应的答案。
具体处理流程为:

候选集离线建好索引。采用 Lucene 引擎,为数万个相似问集合建立字级别倒排索引。Lucene 引擎的性能能够将召回时间控制在毫秒级别,大大减轻后续模块的计算压力;
线上收到用户 query 后,初步召回一批候选集作为粗排结果传入下一模块进行进一步精确排序;
利用 matching 模型计算用户 query 和 FAQ 知识库中问题或答案的匹配程度;
利用 ranking 模型对候选集做 rerank 并返回 topk 个候选答案。

​ 可以看出,FAQ 问答系统的核心任务可以抽象为文本匹配任务。传统文本匹配方法如信息检索中的 BM25,向量空间模型 VSM 等方法,主要解决字面相似度问题。然而由于中文含义的丰富性,通常很难直接根据关键字匹配或者基于机器学习的浅层模型来确定两个句子之间的语义相似度。近几年,利用神经网络,尤其是深度学习模型学习文本中深层的语义特征,对文本做语义表示后进行语义匹配的方法开始被提出并应用于检索式问答系统。基于深度学习的模型一方面能够节省人工提取特征的大量人力物力。此外,相比于传统方法,深度文本匹配模型能够从大量的样本中自动提取出词语之间的关系,并能结合短语匹配中的结构信息和文本匹配的层次化特性,发掘传统模型很难发掘的隐含在大量数据中含义不明显的特征,更精细地描述文本匹配问题。
二、深度学习文本匹配
​ FAQ 问答系统一般有两种解决思路,一种是相似问题匹配,即对比用户问题与现有 FAQ 知识库中问题的相似度,返回用户问题对应的最准确的答案,这种思路类似于 text paraphrase;另一种是问题答案对匹配,即对比用户问题与 FAQ 知识库中答案的匹配度,返回用户问题对应的最准确的答案,这种思路为答案选择,即 QA 匹配。这两个类型相通的地方在于都可以看作文本语义匹配,很多模型能同时在两个任务上都得到很好的效果,区别在于 QA 匹配存在问题与答案不同质的问题。
​ 下面总结一些基于深度学习的文本匹配工作,希望能够抛砖引玉,如有遗漏或错误,欢迎补充或指出。
2.1 模型框架
​ 概括来讲,深度语义匹配模型可以分为两大类,分别是 representation-based method 和 interaction-based method。
1) Represention-based Method
框架图如下:

这类算法首先将待匹配的两个对象通过深度学习模型进行表示,之后计算这两个表示之间的相似度便可输出两个对象的匹配度。这种方式下,更加侧重对表示层的构建,使其尽可能充分地将待匹配的两个对象都转换成等长的语义表示向量。然后在两个对象对应的两个语义表示向量基础上,进行匹配度的计算。针对匹配度函数 f(x,y) 的计算,通常有两种方法,如下图所示:一种是通过相似度度量函数进行计算,实际使用过程中最常用的就是 cosine 函数,这种方式简单高效,并且得分区间可控意义明确;另一种方法是将两个向量再接一个多层感知器网络(MLP),通过数据去训练拟合出一个匹配度得分,更加灵活拟合能力更强,但对训练的要求也更高。

Represention-based Extended
上述的 representation-based method 存在的问题是直接基于句子的表示太粗糙,无法准确进行文本匹配任务。受信息检索领域的启发,结合主题级别和单词级别的匹配信息通常可以获得更好的表现。于是进一步对句子表示进行扩展,加入细粒度匹配信息。框架图如下:

2) Interaction-based Method
框架图如下:

基于交互的方法是通过 Interaction 来对文本相似性建模。该方式更强调待匹配的两个句子得到更充分的交互,以及交互后的匹配。在表示层不会将句子转换成一个整体表示向量,一般情况下会保留和词位置相对应的一组表示向量。首先基于表示层采用 DNN 或直接由 word embedding 得到的句子表示,和词位置对应的每个向量体现了以本词语为核心的一定的全局信息;然后对两个句子按词对应交互,由此构建两段文本之间的 matching pattern,这里面包括了更细致更局部的文本交互信息;基于该匹配矩阵,可以进一步使用 DNN 等来提取更高层次的匹配特征,最后计算得到最终匹配得分。Interaction-based 方法匹配建模更加细致、充分,一般来说效果更好,但计算成本增加,更加适合一些效果精度要求高但对计算性能要求不高的场景。
​ 下面总结了不同类型的深度学习文本匹配模型。可以看出,深度文本匹配现有工作很多,本文将对近几年的部分工作进行详细介绍,其他可参考对应文献进行深入阅读。

representation-based:DSSM[1]; CDSSM[2]; ARC I[3]; CNTN[4]; LSTM-RNN[5]
representation-based extension:MultiGranCNN[6]; MV-LSTM[7]
interaction-based:ARC II[8]; MatchPyramid[9]; Match-SRNN[10]; DeepMatch[11]; ABCNN[12]; QA-LSTM/CNN-attention[13,14]; AP[15]; AICNN[16]; MVFNN[17]; BiMPM[18]; DQI[22]; DIIN[23]

2.2 模型介绍
2.2.1 ABCNN[12]
首先介绍 BCNN,它是 ABCNN 模型的基础,即未添加 Attention 的模型。模型结构如图所示:

输入层:将输入句子进行 padding 后转化成词向量即可;卷积层:对句子表示进行卷积,使用 wide conv 的方式;pooling 层:论文中使用了两种 pooling 方式,一种是最后一个 pooling 层为 all-ap,还有一种是中间 pooling 层为 w -ap。区别就是池化时的窗口大小不同;输出层:接 logistic 回归层做 2 分类。
ABCNN 是在 BCNN 的基础上加了两种 attention 机制。模型结果如下图:

(1) 在输入层加入 attention
其原理为将输入拓展成双通道。新添加的通道是 attention feature map,即上图中的蓝色部分。首先计算 attention matrix A,其每个元素 Aij 代表句子 1 中第 i 个单词对句子二中第 j 个单词的 match_score,这里使用了 Euclidean 距离计算。然后再分别计算两个句子的 attention feature map。使用两个矩阵 W0,W1 分别和 A 还有 A 的转置相乘,得到与原本 feature 尺寸相同的 feature map。W0 和 W1 都是模型参数,可以使用相同的 W,即共享两个矩阵。这样我们就将原始的输入拓展成了两个通道。
(2) 在 pooling 层加入 attention
Attention matrix A 的计算方法与上述相同,得到 A 后需要为两个句子分别计算 attention 权重向量,如上图中的两个虚线部分 col-wise sum 和 row-wise sum。这两个向量中的每个元素分别代表了相应单词在做 Average Pooling 时的权重。相当于 pooling 不再是简单的 Average Pooling,而是根据计算出的 Attention 权重向量得到的 pooling。
2.2.2LSTM/CNN,attention[13,14]

给定一个 (q,a)pair,q 是问题,a 是候选答案。首先得到它们的词向量,再使用 biLSTM 进行 encoder,生成问题和答案的分布式表示,然后利用余弦相似度来衡量它们的距离。训练目标是 hinge loss。

在 biLSTM 表示输出的基础上进一步使用 CNN,CNN 可以获取 biLSTM 输出的向量之间的局部信息。从而给出问题和答案的更多复合表示。

当 biLSTM 模型在问题和答案上长距离传播依赖关系时,隐藏向量的固定宽度成为瓶颈。通过动态调整问题答案的更多信息部分,可以使用注意力机制来缓解这种弱点。在 max/mean pooling 前,每个 biLSTM 输出向量将乘以 softmax 权重,该权重由 biLSTM 的问题嵌入得到。
2.2.3 Attentive Pooling Networks[15]
​ QA_LSTM with attention 中 attention 的设计是通过问题对答案的影响进行特征加权,但是它忽略了答案对问题的影响。Attentive pooling networks 同时将 attention 应用到问题和答案,提高算法的准确率。通过同时学习两种输入的表示以及它们之间的相似性测量,其创新点在于将 Q 和 A 这两个输入通过参数矩阵 U 投射到一个共同的表示空间,用 Q 和 A 的 representation 构造了一个矩阵 G,分别对 G 的 row 和 column 做 max pooling, 这样就能分别能得到 Q 和 A 的 attention vector。AP_BILSTM 模型框架图如下:

AP_BILSTM 模型的设计首先将问题和答案经过 BILSTM 抽取特征,然后通过两者的特征计算 soft alignment,得到的 G 矩阵表示了问题和答案相互作用的结果。对该矩阵的列取最大,即为答案对问题的重要性得分,同理对该矩阵行取最大即为问题对答案的重要性得分。这两个向量再作为 attention 向量分别和问题和答案表示相乘后得到问题和答案新的表示,最后再做匹配。
2.2.4 AICNN[16]
之前关于答案选择的研究通常忽略了数据中普遍存在的冗余和噪声问题。在本文中,设计一种新颖的注意力交互式神经网络(AI-NN),以专注于那些有助于回答选择的文本片段。问题答案的表示首先通过卷积神经网络(CNN)或其他神经网络架构来学习。然后 AI-NN 学习两个文本的每个配对片段的相互作用。之后使用逐行和逐列池化来收集交互信息。之后采用注意机制来衡量每个细分的重要性,并结合相互作用来获得问答的固定长度表示。模型框架图如下:

2.2.5 MVFNN[17]
​ 上述基于神经网络的方法通过计算注意力来考虑信息的几个不同方面。这些不同类型的注意力总是简单地总结并且可以被视为“单一视图”,不能从多个方面来审视问题和候选答案,导致严重的信息丢失。要克服这个问题,此模型提出了一种多视图融合神经网络,其中每个关注组件生成 QA 对的不同“视图”,并且融合 QA 本身的特征表示以形成更整体的表示。模型框架图如下:

对于一个问题,可能会有一堆视图来模拟其相应的答案。在此模型中,根据直觉构建了四个视图。这四个视图被命名为查询类型视图,查询主动词视图,查询语义视图和 co-attention 视图。最后使用 fusion RNN 模型来对这些视图进行融合。通过不同视图的融合,能对两个对象进行更准确的建模。
2.2.6 BiMPM[18]
针对基于交互这一类方法,一般是先对两个句子的单元相互匹配,之后再聚集为一个向量后做匹配。这种方式可以捕捉到两个句子之间的交互特征,但是之前的方式只是基于词级别的匹配但是忽略了其他层级的信息。此外,匹配只是基于一个方向忽略了相反的方向。一种双向的多角度匹配模型 bilateral multi-perspective matching(BiMPM) 解决了这方面的不足。模型框架如下图:

模型自下而上一共包含五层,分别为单词表示层、上下文表示层、匹配层、聚合层和预测层,其中匹配层为模型的核心,共提出了四种匹配策略,这里的匹配可以看成是 attention 机制。
单词表示层:使用 GloVe 模型训练向量,对字符 embedding 进行随机初始化,单词中的字符组成单词的向量表示作为 LSTM 网络的输入。
上下文表示层:使用 BiLSTM 对 p 和 q 进行表示。
匹配层:模型的核心层,包含四种匹配策略,分别是:Full-Matching、Maxpooling-Matching、Attentive-Matching 和 Max-Attentive-Matching。四种匹配策略如下图:

聚合层:利用 BiLSTM 对匹配层的输出向量进行处理,取得 p、q 前向和后向最后一个 time step 的输出进行连接后输入到预测层。
预测层:softmax 层,softmax 函数分类。
​ 上述是对近几年部分深度文本匹配模型的总结,接下来则介绍基于深度模型的 FAQBot。
三、基于深度学习的 FAQBot 实现
3.1 模型化流程

3.2 数据获取及构造
3.2.1 数据获取
​ 对于有大量问答记录的场景例如智能客服,这些记录里面有很多高频的知识点 (知识点包括问题和答案)。这些高频的知识点对应的问法通常并不唯一。即知识库的结构为一个问题集合对应同一个答案。针对 FAQ 数据有以下三种数据类型:

标准问 q:FAQ 中问题的标准用户 query
答案 A:FAQ 中标准问对应的的标准回答
相似问 q1,q2…:跟标准问语义相似可用同一答案回答的 query

其中,标准问 q、对应答案 A 以及该标准问 q 对应的所有相似问 q1,q2,…,一起组成一个知识点。一个知识点的样例见下图:
3.2.2 数据构造
数据构造包含了两个方面:
(1)训练集测试集构造
测试集:将相似问中的第一条相似问 q1 作为 query,从 FAQ 知识库的所有知识点中通过 Lucene 召回 30 个知识点作为候选集
训练集:包含两部分,一部分是正例的构造,另一部分是负例的构造,这两部分数据的构造方式将直接影响到最终的效果。在正例的构造中,因为每个知识点的第一个相似问是作为测试集中出现的,所以在构造训练集的时候排除掉所有知识点中的第一条相似问 q1。这样的话,有多于 2 个相似问的知识点还有多于的其他相似问可以用来构造训练集。将这些识点中的标准问和从相似问的第二条开始(即 [q2,q3,…,qn])可以按照不同方式构造出正例和负例。
训练集正例的构造:去除所有知识点中的第一条相似问 q1,其他相似问及标准问两两组合成正例 pair 对;对于相似问多的知识点进行剪切。
训练集负例的构造的方式包括:

按 Jaccard 距离召回;
按 Lucene 召回;
从其他知识点中随机选择;
按照正例中各问题出现的比例从其他知识点中采样选择;
每个句子和句子中的名词 / 动词构成 pair 对;
针对知识点分布不均衡的问题,对相似问很多的知识点进行相似问剪切。

(2)数据增强策略
由于深度学习需要较多的数据,为了增强数据,我们采用了以下策略:

交换两个句子之间的顺序;
对句子进行分词,重新组合生成新的句子;
打乱句子的顺序,随机抽取句子。

3.3 模型建立
3.3.1 模型框架
​ 基本框架一般都是将待匹配的两个句子分别使用两个 encoder 来获取对应 context 信息,然后将二者的 context 信息进行匹配,得到匹配后的特征信息。也可以在匹配之后的特征后面加上一些其他的传统文本特征,将所有这些特征进行 concat。最后接上 softmax 层,做最终的分类。模型的框架如下图所示:

3.3.2 模型建立及迭代优化
Embedding 层:使用 word2vec 和 fasttext 训练词向量和字符向量。
Encoder 层:卷积具有局部特征提取的功能, 所以可用 CNN 来提取句子中类似 n-gram 的关键信息,考虑文本的上下文信息。于是我们采用 textCNN[19] 来对句子进行编码表示,encoder 过程见下图:

Matching 层:在得到两个句子的表示后,要针对两个句子的表示进行 matching 操作。可以根据需要构造出很多种类型的 matching 方式如下图 [20],我们采用相对比较简单的 element-wise 相加和相乘的方式来进行 matching。
join 层:在 matching 层之后得到的两个句子的共同表示之后,进一步引入额外的传统特征进行 join 操作,类似于下图 [21]。

引入 interaction:上述步骤对两个句子 encoder 时没有考虑两个句子之间的关联。于是进一步引入更细致更局部的句子交互信息,从而能捕捉到两个句子之间的交互特征,根据交互得到的矩阵获取两个句子新的表示。如图:

引入 attention 机制:采用注意机制使用权重向量来衡量句子不同部分重要性的不同。attention 的计算主要思想沿用了 AICNN 和 ABCNN 中的几种 attention,分别是 feature 的 attention,interaction 后新的表示和句子原表示之间的 attention。
四、总结与展望
4.1 数据层面

建立更加合理的知识库:每个知识点只包含一个意图,且知识点之间没有交叉,歧义,冗余等容易造成混淆的因素
标注:为每个 FAQ 积累一定数量的有代表性的相似问
后期的持续维护:包括新 FAQ 发现,原 FAQ 的合并、拆分、纠正等

4.2 模型层面

进一步捕捉 syntactic level 和 semantic level 的知识如语义角色标注(SRL, semantic role labelling)和词性标注(POS, part of speech tagging)等,引入到文本的表示之中,提高文本语义匹配的效果
目前大部分检索行问答的工作做的是问题和问题匹配,或是问题和答案匹配。后续可以同时引入问题和答案的信息进行建模,如图:

参考文献
[1] Huang P S, He X, Gao J, et al. Learning deep structured semantic models for web search using clickthrough data[C]// ACM International Conference on Conference on Information & Knowledge Management. ACM, 2013:2333-2338.
[2] Shen Y, He X, Gao J, et al. A Latent Semantic Model with Convolutional-Pooling Structure for Information Retrieval[C]// Acm International Conference on Conference on Information & Knowledge Management. ACM, 2014:101-110.
[3] Hu B, Lu Z, Li H, et al. Convolutional Neural Network Architectures for Matching Natural Language Sentences[J]. Advances in Neural Information Processing Systems, 2015, 3:2042-2050.
[4] Qiu X, Huang X. Convolutional neural tensor network architecture for community-based question answering[C]// International Conference on Artificial Intelligence. AAAI Press, 2015:1305-1311.
[5] Palangi H, Deng L, Shen Y, et al. Deep Sentence Embedding Using Long Short-Term Memory Networks: Analysis and Application to Information Retrieval[J]. IEEE/ACM Transactions on Audio Speech & Language Processing, 2016, 24(4):694-707.
[6] Yin W, Schütze H. MultiGranCNN: An Architecture for General Matching of Text Chunks on Multiple Levels of Granularity[C]// Meeting of the Association for Computational Linguistics and the, International Joint Conference on Natural Language Processing. 2015:63-73.
[7] Wan S, Lan Y, Guo J, et al. A Deep Architecture for Semantic Matching with Multiple Positional Sentence Representations[J]. 2015:2835-2841.
[8] Hu B, Lu Z, Li H, et al. Convolutional Neural Network Architectures for Matching Natural Language Sentences[J]. Advances in Neural Information Processing Systems, 2015, 3:2042-2050.
[9] Pang L, Lan Y, Guo J, et al. Text Matching as Image Recognition[J]. 2016.
[10] Wan S, Lan Y, Xu J, et al. Match-SRNN: Modeling the Recursive Matching Structure with Spatial RNN[J]. Computers & Graphics, 2016, 28(5):731-745.
[11] Lu Z, Li H. A deep architecture for matching short texts[C]// International Conference on Neural Information Processing Systems. Curran Associates Inc. 2013:1367-1375.
[12] Yin W, Schütze H, Xiang B, et al. ABCNN: Attention-Based Convolutional Neural Network for Modeling Sentence Pairs[J]. Computer Science, 2015.
[13] Tan M, Santos C D, Xiang B, et al. LSTM-based Deep Learning Models for Non-factoid Answer Selection[J]. Computer Science, 2015.
[14] Tan M, Santos C D, Xiang B, et al. Improved Representation Learning for Question Answer Matching[C]// Meeting of the Association for Computational Linguistics. 2016:464-473.
[15] Santos C D, Tan M, Xiang B, et al. Attentive Pooling Networks[J]. 2016.
[16] X Zhang,S Li,L Sha,H Wang. Attentive Interactive Neural Networks for Answer Selection in Community Question Answering[C]// International Conference on Artificial Intelligence.
[17] L Sha,X Zhang,F Qian,B Chang,Z Sui. A Multi-View Fusion Neural Network for Answer Selection[C]// International Conference on Artificial Intelligence.
[18] Wang Z, Hamza W, Florian R. Bilateral Multi-Perspective Matching for Natural Language Sentences[C]// Twenty-Sixth International Joint Conference on Artificial Intelligence. 2017:4144-4150.
[19] Kim Y. Convolutional Neural Networks for Sentence Classification[J]. Eprint Arxiv, 2014.
[20] Wang S, Jiang J. A Compare-Aggregate Model for Matching Text Sequences[J]. 2016.
[21] Severyn A, Moschitti A. Learning to Rank Short Text Pairs with Convolutional Deep Neural Networks[C]// The International ACM SIGIR Conference. ACM, 2015:373-382.
[22] Xiaodong Zhang, Xu Sun, Houfeng Wang. Duplicate Question Identification by Integrating FrameNet with Neural Networks[C]//In the Thirty-Second AAAI Conference on Artificial Intelligence (AAAI-18)
[23] Gong Y, Luo H, Zhang J. Natural Language Inference over Interaction Space[J]. 2018.
此文已由作者授权腾讯云 + 社区在各渠道发布
获取更多新鲜技术干货,可以关注我们腾讯云技术社区 - 云加社区官方号及知乎机构号

正文完
 0