摘要: 表格问答是一种针对自然语言问题,依据表格内容给出答案的工作。
一、什么是表格问答
表 1 是一张综艺节目收视率报表,如果你须要理解市场份额在 3% 以上的综艺节目,你会抉择采纳什么样的办法?
首先,用肉眼去筛选满足条件的数据,是最不便直观的办法,但显然也是效率最低的一种形式。咱们能够采纳一些工具,如 Excel 等,或者你能够抉择将表格导入数据库,而后应用数据库语言来进行高效的检索。然而,并不是所有人都懂 SQL 语法,甚至很多用户都没有接触过 Excel。
这些业余工具的应用难度限度了非技术用户,给数据分析和应用带来了较高的门槛,所以咱们心愿设计一种通过自然语言来对表格数据进行检索、计算等操作的零碎,于是就有了表格问答。
表 1:综艺节目收视率报表
表格问答是一种针对自然语言问题,依据表格内容给出答案的工作,它的工作能够形容为:输出一个表格汇合 T(蕴含一个或多个表格)和一个自然语言模式的问题 Q,输入正确的答案 A。
有了表格问答,用户在查问这些表格的内容时,能够间接通过自然语言与表格进行交互,如打字或者语音输入,并且能够失去间接后果,甚至是报表,大大降低数据分析门槛,为普通用户带来高效又天然的数据查问、剖析和计算体验。
二、表格问答倒退历史
表格问答次要经验了三个阶段:数据库自然语言接口、NL2SQL 以及简单表格问答零碎。
1. 数据库自然语言接口
表格问答的钻研最早能够追溯到数据库自然语言接口 NLIDB(Natural Language Interfaces to Databases)。
NLIDB 是一种容许用户通过输出某种自然语言示意的申请来拜访存储在数据库中的信息的零碎。国外 NLIDB 的钻研起始于 20 世纪 60 年代,80 年代最为沉闷,受制于无限的自然语言理解能力,90 年代热度开始衰减。
这段时间内呈现了很多 NLIDB 零碎:如微软的 English Query,IBM 的 Language Access,以及 BIM 的 LOQUI 等等。中文 NLIDB 的钻研始于 20 世纪 70 年代末期,后续也呈现了一些中文试验模型与零碎如 NChiql,NLCQI,RChiQL,以及 WTCDIS 等等。这些零碎次要是基于规定的办法,关键步骤次要是词法剖析、语法分析、语义剖析和生成 SQL 语句。
NLIDB 是 TableQA 的前身,但它不是真正意义上的 QA,而是一种把自然语言翻译成数据库语言的接口。它们齐全依赖于规定与模板,对自然语言的束缚较多,语言理解能力差,不具备较强的泛化能力。
2. NL2SQL
表格问答的支流技术之一就是让自然语言更加精确地转换成 SQL 语言,这种办法被称为(Natural Language to SQL)NL2SQL。NL2SQL 的次要工作就是将用户的自然语言语句转化为计算机能够了解并执行的标准语义示意,与 KBQA 相似只不过 KBQA 的指标逻辑模式是 SPARQL。NL2SQL 有许多开源数据集,如表 2 所示,其中最为宽泛应用的数据集,有 WikiSQL、Spider 等。
表 2:NL2SQL 数据集汇总
WikiSQL 是最罕用的公开评测数据集之一,它所蕴含的 NL2SQL 工作比较简单,次要是单表单列查问,能够进行最大、最小、计数、求和以及均匀聚合操作,反对大于、小于和等于的条件比拟,仅反对“AND”的条件链接形式。
Spider 数据集是目前畛域内最艰难的数据集之一,训练集有 7000 条数据,对应 140 个数据库,验证集有 1034 条数据,对应 20 个数据库,数据库名不重合。它反对多表多列查问,蕴含简单的子查问,以及更多的聚合操作、条件操作和排序操作等。
近年来,NL2SQL 在中文畛域也呈现了一些优质的数据集,例如 TableQA、DuSQL 等。
3. 简单表格问答零碎
随着对话畛域的不断完善和倒退,一些表格问答零碎逐步具备了上下文理解能力,表格问答与个别对话机器人的交融不断深入,造成了较为简单的表格问答零碎。这些零碎不仅可能简略的单轮问询,还能实现多轮对话,返回后果也从简略的后果汇合变成了丰盛的自然语言模式答复。
图 1:简单表格问答零碎
三、表格问答的利用场景
据 Google2015 年对互联网数据的统计,仅英文网页中蕴含的表格数目就有数百亿,阐明表格的数据量非常微小。不仅如此,表格数据高度结构化,不同表格之间不用遵循对立的本体构造和命名标准,表格的编辑和批改能够高效进行,具备较强的可编辑性和时效性。这些特点使得表格问答可能在诸多利用场景施展重要的作用。
表格问答具备两个重要的钻研方向:联合智能交互,反对对结构化数据查问与问答;优化搜索引擎,智能并高效地检索结构化文本。联合这两个钻研方向,在以下利用场景中可能施展重要作用:保费查问、客户信息查问等外部业务数据查问;笼罩行情信息、行业研报报表、财务报表等结构化数据;反对酒店信息、火车票与飞机票查问等出行场景问答;商品销量、商品详情、商品筛选与举荐等电商场景;产品信息、流动细则等新批发场景问答;话费查问、缴费查问、业务查问等日常生活问答。
四、表格问答的工程挑战
表格问答具备宽泛的利用场景,然而在工程实现上也存在很多问题:
表格的辨认及规范化示意 :表格默认以第一行为表头,但在理论开掘表格中,有三种状况:以第一行为表头,以第一列为表头,或者第一行和第一列独特示意表格;开掘的表格存在信息缺失问题,如表名缺失、表格值不全等;同时,面对多个表格时缺失表间链接关系。
外界常识的利用 :有一些常识信息不蕴含在表格中,如排序操作的方向判断(列为“出生日期”,问题为“年龄最大的员工”)、表格值进制转换(列为“人口 (亿)”,问题为“人口超 5 千万的城市”)等,这些信息须要引入外界常识来帮助 SQL 生成。
融进渐进式对话 :对于用户的歧义表白和含糊表白,须要有“发问 - 反馈 - 再发问”的过程,这类问题往往须要通过多轮对话解决,而用户的问题通常是上下文相干的,因而须要模型具备基于上下文的了解和剖析能力。
表格问答具备很高的钻研价值和商业价值,很多友商和钻研机构都正在致力于表格问答的商业化和钻研。与此同时,表格问答也存在很多技术难题和工程难题,在表格问答的钻研路线上还有很长的路要走。
点击关注,第一工夫理解华为云陈腐技术~