关于自然语言处理:NLPer的福利CCKS数据集大放送

5次阅读

共计 2303 个字符,预计需要花费 6 分钟才能阅读完成。

对于 CCKS

CCKS(China Conference on Knowledge Graph and Semantic Computing,全国常识图谱与语义计算大会)是国内常识图谱、语义技术、链接数据等畛域的外围学术会议,汇集了常识示意、自然语言了解、常识获取、智能问答、链接数据、图数据库、图计算、主动推理等相干技术畛域的专家、实践者和钻研人员。

CCKS 每年举办的评测比赛都会吸引大量的钻研人员加入,2021 的 CCKS 共公布了 14 个评测工作,为历年之最,更是创纪录地吸引了上万人报名参赛,堪称是盛况空前,让咱们一起来康康天池数据集凋谢的 CCKS 数据集吧~

萌喵依照应用领域为大家整顿如下行业数据集,心愿对大家有用。

地址畛域

通讯地址宽泛存在于物流、政府注销、金融、交通等畛域。对通讯地址的剖析、聚合服务曾经是一项互联网重要根底服务,撑持着诸多利用场景,比方地图搜索、物流剖析等。

阿里达摩院机器智能技术团队在 CCKS2021 大会公布的地址评测共包含两个数据集工作,别离是:“中文地址因素解析工作”和“地址文本相关性匹配工作”。本次凋谢的大规模标注语料是国内首个地址交通畛域的规范数据集。数据集的推出一方面解决了中文地址畛域不足规范评测数据集的现状,另一方面也心愿推动地址剖析技术的提高。

注:本次凋谢的标注数据集语料均源于公开的地址信息(如黄页网站等)

1. 中文地址因素解析数据集

钻研方向:命名实体辨认(NER)、信息抽取

地址因素解析是将地址文本拆分成独立语义的因素,并对这些因素进行类型辨认的过程。中文地址因素解析工作的指标行将一条地址合成为几个局部的具体标签,举个栗子:

数据集更多详情 / 下载数据集请戳:
https://tianchi.aliyun.com/dataset/dataDetail?dataId=109339

2. 中文地址相关性数据集

钻研方向:语义类似度、地址相关性

地址文本相关性次要是掂量地址间的类似水平,在事实世界中存在着宽泛的利用场景,如:基于地理信息搜寻的地理位置服务、对于突发事件地位信息的疾速搜寻定位、不同地址信息系统的对齐等等,具备很大的社会价值和商业价值。示例如下:

数据集更多详情 / 下载数据集请戳:
https://tianchi.aliyun.com/da…

金融畛域

事件(event)是常识图谱的重要组成部分,事件抽取是进行图谱推理、事件剖析的必要过程。

蚂蚁团体和中科院自动化所在 CCKS2021 大会公布的金融事件抽取评测工作蕴含 2 个数据集工作:“篇章级事件元素抽取工作”和“篇章级事件因果关系抽取工作”。

注:数据集的文本语料来自于互联网上的公开新闻、报告。

1. 金融畛域事件因果关系抽取数据集

钻研方向:事件因果关系抽取

该数据集工作旨在从文本中抽取具备因果关系的两个事件:起因事件和后果事件,并通过事件的四因素(事件类型、影响地区、行业、产品)来示意起因事件和后果事件。举例如下:

数据集更多详情 / 下载数据集请戳:
https://tianchi.aliyun.com/dataset/dataDetail?dataId=110901

2. 金融畛域篇章级事件元素抽取数据集

钻研方向:事件元素抽取

事件通常用“事件类型”和“事件因素”来示意,该数据集工作旨在从给定的长文本中抽取出事件的 13 个因素(因素的定义详见数据集链接)。示例如下:

数据集更多详情 / 下载数据集请戳:
https://tianchi.aliyun.com/dataset/dataDetail?dataId=110904

保险畛域

保险畛域低资源文档信息抽取数据集

钻研方向:结构化信息抽取

应用信息抽取技术从文档中开掘大规模图谱常识曾经成为了一个钻研热点,然而以后信息抽取工作多关注于从无结构化文本中抽取常识,疏忽了文档中丰盛的格局信息。同时,在实在的业务场景下,文档级信息抽取标注数据的获取老本非常昂扬,现有信息抽取办法在大量标注样本下的体现性能不佳,曾经成为行业常识图谱规模化利用的次要瓶颈之一。

阿里巴巴小蜜团队和中国人寿在 CCKS2021 上组织的面向保险畛域低资源文档信息抽取数据集就是在这样背景下产生的,心愿助力中文文档信息抽取技术的倒退。该数据集面向实在业务场景下的商业文档了解需要,提供保险畛域的大量标注数据和大量无标注数据,示例如下:

数据集更多详情 / 下载数据集请戳:
https://tianchi.aliyun.com/dataset/dataDetail?dataId=110099

电信畛域

运营商常识图谱推理问答数据集

钻研方向:KBQA

以后常识图谱问答零碎在简单句(单实体单属性)上曾经获得比拟好的成果,而在束缚句:条件束缚句、工夫束缚句,以及推理型问句:比拟句、最值句、是否型问句以及问句中带有交加、并集和取反的问句等,其逻辑推理能力还有待晋升。阿里巴巴小蜜团队与中移在线服务有限公司在 CCKS2021 上组织的运营商常识图谱推理问答数据集就是在这样背景下产生的,指标是促成简单束缚下 KBQA 技术的钻研。

以电信运营商场景为例,比方:“不含彩铃的套餐有哪些?”、“反对短途漫游,价格低于 100 元的套餐有哪些?”、“神州行 B 套餐是 5G 套餐吗”等,这类须要推理的查问目前的问答零碎难以答复。

输出样例:
q1: 流量日包的开明形式?
q2: 不含彩铃的套餐有哪些?

输入样例:
a1:“KTLLRB”
a2:“流量月包 | 流量年包”

数据集更多详情 / 下载数据集请戳:
https://tianchi.aliyun.com/dataset/dataDetail?dataId=109340

看完这些数据集,大家是否有播种呢?大家能够来到天池官网查看更多数据集。

正文完
 0