关于人工智能:聚焦NLG前沿技术难题千言生成一致性评测竞赛正式启动

自然语言生成是人工智能的重要前沿技术，该技术在落地时会面临一个难题：如何保障模型生成的文本与输出具备事实层面的一致性，即防止生成谬误、臆想的信息？为推动相干钻研，中国中文信息学会自然语言生成专委会与千言开源数据集我的项目(www.luge.ai)联结举办“面向事实一致性的生成评测较量”。较量于8月3日开启报名，并将在11月7日首届中国自然语言生成大会（CCNLG-2021）召开评测研讨会并举办颁奖仪式。

本届较量以事实一致性为外围，将提供三个对事实一致性有较高要求的典型生成工作：文案生成[1]、摘要生成[2]和问题生成[3]，联合文本流畅性和事实一致性两项指标，综合评估参赛零碎的成果。
除了有挑战性的赛题，百度将资助赛事为获奖团队提供丰富的奖金：第一名20000人民币、第二名10000人民币、第三名5000人民币。

报名及比赛详情链接：
https://aistudio.baidu.com/ai…

1、赛题背景及事实一致性简介

随着深度神经网络文本生成模型、预训练语言模型的迅速倒退，自然语言生成的可读性和流畅性一直晋升。然而，主动生成的文本中经常出现不合乎输出的谬误事实。这个问题被称为“自然语言生成的事实一致性问题”，以主动摘要工作为例，以下形容一个具体的样例：

输出：钻研机构此前曾公布报告称2013年长期黄金牛市或将终结，下调黄金3个月、6个月和12个月价格预估别离至1825美元、1805美元、1800美元。近日，大宗商品分析师Damien Courvalin的钻研报告进一步预期国内金价到2018年或跌至1200美元/盎。理由是除了理论利率之外,黄金与各货币之间的联动同样影响着黄金价格，不过，三个月黄金价格预估依然看涨。

参考摘要：近涨远跌，金价2018年或跌至1200美元/盎

这是取自LCSTS数据集[2]的一个样例，对输出的文本，算法须要得出精简的摘要后果。
接下来，咱们看两个由自然语言生成算法失去的后果：

后果A（事实统一）：钻研机构预计国内金价近涨远跌
后果B（事实不统一）：分析师：金价2018年或跌至1800美元

能够看到，后果A正确，后果B粗看仿佛也比拟晦涩，但事实和原文表白的内容存在事实偏差（“1800美元”vs“1200美元”）。

目前罕用于评估自然语言生成成果的BLEU或ROUGE等指标，其思路均为计算生成文本与参考答案的字面匹配度。然而对后果A和后果B计算与参考摘要的字面匹配度，反而谬误的后果B能够取得更高的分数，针对这个问题，咱们设计和发动了本较量。

2、赛程安顿

为确保较量公平性，正式赛将分为3个阶段发展：

 阶段1：凋谢测试集1，参赛队伍可在测试集1上优化模型成果，提交后果到千言平台后，会在线给出后果并更新实时榜单1；
 阶段2-最终测试提交：凋谢测试集2，参赛队伍计算测试集2上的后果并提交到千言平台；
 阶段3-人工评估：以阶段2的主动评测后果为准，排名前10的队伍进入人工评估阶段，为防止主动评估指标自身的评估偏差，将以人工评估为根据确认和颁布最终排名。

3、参赛处分

千言-面向事实一致性的生成评测较量的最终获奖团队将取得：
（1）丰富奖金：第一名20000人民币、第二名10000人民币、第三名5000人民币。
（2）荣誉证书：获奖团队将由赛事主办方颁发权威获奖证书。

同时，参赛者也将取得以下福利：
（1）学习交换机会：在赛事群中与参赛者、组织者深刻交换；
（2）前沿学习材料：获取自然语言生成事实准确性晋升办法和评估指标的前沿停顿学习材料。
（3）精美礼品&参赛证实：正式报名参赛并提交最终后果的队伍每位成员将取得千言数据集精美的定制周边一份，并发放参赛证实。

4、较量组织

领导单位：中国中文信息学会
主办单位：中国中文信息学会自然语言生成专委会（筹）
承办单位：清华大学、哈尔滨工业大学(深圳)、百度
评测委员会：黄民烈(清华大学), 户保田(哈尔滨工业大学(深圳))、肖欣延(百度)

点击链接，即可理解比赛详情并报名！
https://aistudio.baidu.com/ai…

参考文献

[1] Zhihong Shao, Minlie Huang, Jiangtao Wen, Wenfei Xu, Xiaoyan Zhu. 2019. Long and Diverse Text Generation with Planning-based Hierarchical Variational Model. In Proceedings of EMNLP 2019.
[2] Baotian Hu, Qingcai Chen, Fangze Zhu. 2015. LCSTS: A Large Scale Chinese Short Text Summarization Dataset. In Proceedings of EMNLP 2015.
[3] Wei He, Kai Liu, Jing Liu, Yajuan Lyu, Shiqi Zhao, Xinyan Xiao, Yuan Liu, Yizhong Wang, Hua Wu, Qiaoqiao She, Xuan Liu, Tian Wu, Haifeng Wang. 2019. DuReader: a Chinese Machine Reading Comprehension Dataset from Real-world Applications. In Proceedings of ACL 2018 MRQA Workshop.

关于人工智能:聚焦NLG前沿技术难题千言生成一致性评测竞赛正式启动

1、赛题背景及事实一致性简介

2、赛程安顿

3、参赛处分

4、较量组织

参考文献

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于人工智能:聚焦NLG前沿技术难题千言生成一致性评测竞赛正式启动

1、赛题背景及事实一致性简介

2、赛程安顿

3、参赛处分

4、 较量组织

参考文献

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

4、较量组织

发表回复取消回复