自然语言生成是人工智能的重要前沿技术,该技术在落地时会面临一个难题:如何保障模型生成的文本与输出具备事实层面的一致性,即防止生成谬误、臆想的信息?为推动相干钻研,中国中文信息学会自然语言生成专委会与千言开源数据集我的项目 (www.luge.ai) 联结举办“面向事实一致性的生成评测较量”。较量于 8 月 3 日开启报名,并将在 11 月 7 日首届中国自然语言生成大会(CCNLG-2021)召开评测研讨会并举办颁奖仪式。
本届较量以事实一致性为外围,将提供三个对事实一致性有较高要求的典型生成工作:文案生成 [1]、摘要生成[2] 和问题生成 [3],联合文本流畅性和事实一致性两项指标,综合评估参赛零碎的成果。
除了有挑战性的赛题,百度将资助赛事为获奖团队提供丰富的奖金:第一名 20000 人民币、第二名 10000 人民币、第三名 5000 人民币。
报名及比赛详情链接:
https://aistudio.baidu.com/ai…
1、赛题背景及事实一致性简介
随着深度神经网络文本生成模型、预训练语言模型的迅速倒退,自然语言生成的可读性和流畅性一直晋升。然而,主动生成的文本中经常出现不合乎输出的谬误事实。这个问题被称为“自然语言生成的事实一致性问题”,以主动摘要工作为例,以下形容一个具体的样例:
输出:钻研机构此前曾公布报告称 2013 年长期黄金牛市或将终结,下调黄金 3 个月、6 个月和 12 个月价格预估别离至 1825 美元、1805 美元、1800 美元。近日,大宗商品分析师 Damien Courvalin 的钻研报告进一步预期国内金价到 2018 年或跌至 1200 美元 / 盎。理由是除了理论利率之外, 黄金与各货币之间的联动同样影响着黄金价格,不过,三个月黄金价格预估依然看涨。
参考摘要:近涨远跌,金价 2018 年或跌至 1200 美元 / 盎
这是取自 LCSTS 数据集 [2] 的一个样例,对输出的文本,算法须要得出精简的摘要后果。
接下来,咱们看两个由自然语言生成算法失去的后果:
后果 A(事实统一):钻研机构预计国内金价近涨远跌
后果 B(事实不统一):分析师:金价 2018 年或跌至 1800 美元
能够看到,后果 A 正确,后果 B 粗看仿佛也比拟晦涩,但事实和原文表白的内容存在事实偏差(“1800 美元”vs“1200 美元”)。
目前罕用于评估自然语言生成成果的 BLEU 或 ROUGE 等指标,其思路均为计算生成文本与参考答案的字面匹配度。然而对后果 A 和后果 B 计算与参考摘要的字面匹配度,反而谬误的后果 B 能够取得更高的分数,针对这个问题,咱们设计和发动了本较量。
2、赛程安顿
为确保较量公平性,正式赛将分为 3 个阶段发展:
阶段 1:凋谢测试集 1,参赛队伍可在测试集 1 上优化模型成果,提交后果到千言平台后,会在线给出后果并更新实时榜单 1;
阶段 2 - 最终测试提交:凋谢测试集 2,参赛队伍计算测试集 2 上的后果并提交到千言平台;
阶段 3 - 人工评估:以阶段 2 的主动评测后果为准,排名前 10 的队伍进入人工评估阶段,为防止主动评估指标自身的评估偏差,将以人工评估为根据确认和颁布最终排名。
3、参赛处分
千言 - 面向事实一致性的生成评测较量的最终获奖团队将取得:
(1)丰富奖金:第一名 20000 人民币、第二名 10000 人民币、第三名 5000 人民币。
(2)荣誉证书:获奖团队将由赛事主办方颁发权威获奖证书。
同时,参赛者也将取得以下福利:
(1)学习交换机会:在赛事群中与参赛者、组织者深刻交换;
(2)前沿学习材料:获取自然语言生成事实准确性晋升办法和评估指标的前沿停顿学习材料。
(3)精美礼品 & 参赛证实:正式报名参赛并提交最终后果的队伍每位成员将取得千言数据集精美的定制周边一份,并发放参赛证实。
4、较量组织
领导单位:中国中文信息学会
主办单位:中国中文信息学会自然语言生成专委会(筹)
承办单位:清华大学、哈尔滨工业大学 (深圳)、百度
评测委员会:黄民烈(清华大学), 户保田(哈尔滨工业大学(深圳))、肖欣延(百度)
点击链接,即可理解比赛详情并报名!
https://aistudio.baidu.com/ai…
参考文献
[1] Zhihong Shao, Minlie Huang, Jiangtao Wen, Wenfei Xu, Xiaoyan Zhu. 2019. Long and Diverse Text Generation with Planning-based Hierarchical Variational Model. In Proceedings of EMNLP 2019.
[2] Baotian Hu, Qingcai Chen, Fangze Zhu. 2015. LCSTS: A Large Scale Chinese Short Text Summarization Dataset. In Proceedings of EMNLP 2015.
[3] Wei He, Kai Liu, Jing Liu, Yajuan Lyu, Shiqi Zhao, Xinyan Xiao, Yuan Liu, Yizhong Wang, Hua Wu, Qiaoqiao She, Xuan Liu, Tian Wu, Haifeng Wang. 2019. DuReader: a Chinese Machine Reading Comprehension Dataset from Real-world Applications. In Proceedings of ACL 2018 MRQA Workshop.