关于华为云:挑战多跳知识推理华为云登顶HotpotQA

2次阅读

共计 1269 个字符,预计需要花费 4 分钟才能阅读完成。

摘要:华为云语音语义翻新 Lab 联结华为诺亚方舟实验室在国内权威的 HotpotQA 评测 Fullwiki Setting 赛道荣登榜首,在答案含糊准确率和联结含糊准确率(Joint F1)等指标上均达到第一。

日前,华为云在常识计算畛域的多跳常识推理问答获得重大进展。基于自然语言解决畛域的当先技术积攒,华为云语音语义翻新 Lab 联结华为诺亚方舟实验室在国内权威的 HotpotQA 评测 Fullwiki Setting 赛道荣登榜首,在答案含糊准确率和联结含糊准确率(Joint F1)等指标上均达到第一。

HotpotQA__评测(Fullwiki Setting 赛道)最新榜单(截至 2021 年 1 月 20 日)

作为企业重要的信息载体,数字化文档记录了大量企业常识,如何疾速帮忙企业员工从数字化文档中取得答案,是企业文档保护人员的痛点。为解决此问题,一方面须要较强的浏览了解技术,另一方面还须要构建一套简单的凋谢域问答流程。

HotpotQA 评测数据是斯坦福、CMU 和蒙特利尔大学联合推出的新型问答数据集,由斯坦福的 Manning 传授和深度学习三巨头之一的 Bengio 牵头构建,该数据集由多跳简单问题以及对应的答案组成,同时蕴含佐证证据用来解释答案的起源。在斯坦福此前颁布的 SQUAD 评测工作中,机器曾经屡次超过人类,该评测仅须要从单个篇章中找到与问题无关的答案即可,故绝对简略。然而,HotpotQA 评测须要从整个 wikipedia 或者多篇文章中找出问题相干的答案,同时要求返回问题到答案的推理链,难度大大增加更具备挑战性。该评测也吸引了来自谷歌、微软、Facebook 等出名钻研机构以及 CMU、Stanford、华盛顿大学、清华大学、北京大学等出名高校。

挑战多跳常识推理技术高点

HotpotQA 评测的难点在于机器要联合多篇文章进行多跳推理能力得出答案,并返回佐证证据。该评测分为 Distractor Setting 和 Fullwiki Setting 两个赛道。Fullwiki Setting 相较于 Distractor Setting 更为简单也更靠近实用价值,须要从整个维基百科文档中抽取文档,而后再从文档中提取段落,最初从段落中抽取答案,而 Distractor Setting 赛道会提供 10 篇备选的篇章。如何从大量文档段落中去多跳搜寻候选,而后了解候选段落的内容提取佐证证据成为较量的要害。

华为云联结华为诺亚方舟实验室,提出了新的检索指标 hop,用于收集维基百科中暗藏的推理证据,解决简单多跳问题,同时联合 beam search 对答案进行排序和交融。

从维基百科文本图谱中检索跳转 (Hops)

现在,企业面临着数字化、知识化转型,知识化转型重要的关键技术就是常识的了解和推理,该技术对企业常识转型具备重大的意义和推动作用。2020 年华为云推出常识计算解决方案,企业能够基于华为云常识计算解决方案打造本人的常识计算平台,用于研发、生产、经营、销售、售后服务等企业外围流程。目前,该计划已在石油、汽车、医疗、化纤、煤焦化、钢铁、交通等行业率先实际。

点击关注,第一工夫理解华为云陈腐技术~

正文完
 0