关于人工智能:收藏丨20个中文语料数据集含数学考试公务员考题医患对话等

要想训练出具备中文语境特色的大语言模型，中文语料数据必不可少，明天给大家分享 20 个中文语料数据集，欢送转发、分享，催更下一期

● 公布方：腾讯人工智能实验室

● 公布工夫：2017

● 简介：
Math23K 是为解决数学单词问题而创立的数据集，蕴含从互联网上爬取的 23,162 个中文问题。

● 下载地址：
https://opendatalab.org.cn/Math23K

● 论文地址：
https://aclanthology.org/D17-1088.pdf

● 公布方：猿辅导 AI Lab，西北大学

● 公布工夫：2020

● 简介：
Ape210K 是一个新的大规模和模板丰盛的数学单词问题数据集，蕴含 210K 个中国小学程度的数学问题，是最大的公共数据集 Math23K 的 9 倍（Wang et al., 2017）。每个问题都蕴含黄金答案和得出答案所需的方程式。Ape210K 也具备更大的多样性，有 56K 个模板，是 Math23K 的 25 倍。咱们的分析表明，解决 Ape210K 不仅须要自然语言了解，还须要常识常识。

● 下载地址：
https://github.com/Chenny0808/ape210k

● 论文地址：
https://arxiv.org/pdf/2009.11506v1.pdf

● 公布方：台达钻研核心, 台达电子

● 公布工夫：2018

● 简介 ：
一个数据集，其中蕴含 2,221 个来自不同学科（历史、生物学、天文和哲学）的十二年级入学考试的问题，以及来自历史在线测验的 412 个附加问题。

● 下载地址：
https://opendatalab.org.cn/DRCD

● 论文地址：
https://arxiv.org/ftp/arxiv/papers/1806/1806.00920.pdf

● 公布方：浙江大学, 华为

● 公布工夫：2022

● 简介：
FCGEC 是一个带有多个参考文献的人类正文语料库，由次要从公立学校语文考试的多选题中收集的 41,340 句子组成。

● 下载地址：
https://opendatalab.org.cn/FCGEC

● 论文地址：
https://arxiv.org//pdf/2210.12364.pdf

● 公布方：复旦大学, 字节跳动人工智能实验室,Brain Technologies, Inc.

● 公布工夫：2022

● 简介 ：
辨认类比的能力是人类认知的根底。测试单词类比的现有基准并未揭示神经模型类比推理的底层过程。咱们深信可能推理的模型应该是正确的，因而咱们提出了独创的可解释常识密集型类比推理基准 (E-KAR)。咱们的基准测试包含来自公务员考试的 1,655 个（中文）和 1,251 个（英文）问题，这些问题须要深刻的背景常识能力解决。更重要的是，咱们设计了一个自在文本解释计划来解释是否应该进行类比，并为每个问题和候选答案手动正文它们。

● 下载地址：
https://opendatalab.org.cn/E-KAR

● 论文地址：
https://arxiv.org/pdf/2203.08480v1.pdf

● 公布方：北京航空航天大学, 南开大学, 微软研究院

● 公布工夫：2017

● 简介 ：
咱们公布豆瓣会话语料库，包含一个训练数据集、一个开发集和一个基于检索的聊天机器人的测试集。测试数据蕴含 1000 个对话上下文，对于每个上下文，咱们创立 10 个响应作为候选。咱们招募了三名标注员来判断候选人是否对会议做出了适当的回应。正确的响应意味着响应能够天然地回复给定上下文的音讯。每对收到三个标签，大部分标签被视为最终决定。据咱们所知，这是第一个用于基于检索的聊天机器人的人工标记测试集。

● 下载地址：
https://opendatalab.org.cn/Douban_Conversation_Corpus

● 论文地址：
https://arxiv.org/pdf/1612.01627v2.pdf

● 公布方：台湾大学

● 公布工夫：2018

● 简介：
ODSQA 数据集是用于中文问答的书面语数据集。它蕴含来自 20 位不同演讲者的三千多个问题。

● 下载地址：
https://opendatalab.org.cn/ODSQA

● 论文地址：
https://arxiv.org/pdf/1808.02280v1.pdf

● 公布方：清华大学, 百度, 北京通用人工智能研究院

● 公布工夫：2020

● 简介 ：
残缺的食谱语料库蕴含 1,520,327 种中国食谱。其中，1,242,206 食谱属于 30,060 菜肴。一道菜均匀有 41.3 个食谱。食谱的均匀长度是 224 个字符。最大长度为 62,722 个字符，最小长度为 10 个字符。食谱由 415,272 位作者奉献。其中，最有生产力的作者上传 5,394 食谱。咱们提供脱敏的作者信息。

● 下载地址：
https://opendatalab.org.cn/XiaChuFang_Recipe_Corpus

● 论文地址：
https://arxiv.org//pdf/2210.11431.pdf

● 公布方：北京信息科学与技术国家钻研核心, 清华大学

● 公布工夫：2020

● 简介：
CrossWOZ 是第一个面向工作的大型中文跨域 Wizard-of-Oz 向导数据集。它蕴含 5 个畛域的 6K 对话会话和 102K 话语，包含酒店、餐厅、景点、地铁和出租车。此外，语料库蕴含丰盛的对话状态正文和用户和零碎单方的对话行为。

● 下载地址：
https://opendatalab.org.cn/CrossWOZ

● 论文地址：
https://arxiv.org/pdf/2002.11893v2.pdf

● 公布方：武汉大学 · 密歇根大学

● 公布工夫：2020

● 简介：
Maternal and Infant (MATINF) Dataset 是一个联结标注的大规模数据集，用于中文母婴护理畛域的分类、问答和总结。数据集中的一个条目包含四个字段：问题（Q）、形容（D）、类别（C）和答案（A）。从中国大型母婴护理 QA 网站收集了近 200 万对问答对，其中蕴含细粒度的人工标记类。作者进行主动和手动数据荡涤并删除：（1）样本有余的类；(2) 形容字段长度小于问题字段长度的条目；(3) 任何字段长度超过 256 个字符的数据；(4) 人为发现的格局谬误的数据。数据荡涤后，用残余的 107 万个条目构建 MATINF。

● 下载地址：
https://opendatalab.org.cn/MATINF

● 论文地址：
https://arxiv.org/pdf/2004.12302v2.pdf

● 公布方：加州大学圣地亚哥分校

● 公布工夫：2020

● 简介：
MedDialog 数据集（中文）蕴含医生和患者之间的对话（中文）。它有 110 万条对话和 400 万条话语。数据一直增长，将增加更多对话。原始对话来自 haodf.com。数据的所有版权归 haodf.com 所有。

● 下载地址：
https://opendatalab.org.cn/MedDialog

● 论文地址：
https://arxiv.org/pdf/2004.03329v2.pdf

● 公布方：中山大学,Mila – Quebec Artifcial Intelligence Institute, 清华大学深圳国内研究生院, 腾讯天衍实验室

● 公布工夫：2022

● 简介 ：
咱们介绍了 MCSCSet，这是一个大型的专家正文数据集，专门用于医学畛域的中文拼写校对 (MCSC)。与现有的凋谢域 CSC 数据集相比，MCSCSet 波及: i) 从腾讯一点收集的大量实在医学查问，ii) 由医学专家手动正文的相应拼写错误的句子。咱们的资源进一步提供了医学畛域的混同集，其中包含医学中常见的易出错字符及其相应的拼写错误。

● 下载地址：
https://opendatalab.org.cn/MCSCSet

● 论文地址：
https://arxiv.org//pdf/2210.11720.pdf

● 公布方：清华大学

● 公布工夫：2020

● 简介：
KdConv 是一个中文多畛域常识驱动的对话数据集，将多轮对话中的主题建设在常识图谱上。KdConv 蕴含来自三个畛域（电影、音乐和旅行）的 4.5K 对话，以及均匀转数为 19.0 的 86K 话语。这些对话蕴含对相干话题的深刻探讨和多个话题之间的天然过渡，而语料库也能够用于摸索迁徙学习和畛域适应。

● 下载地址：
https://opendatalab.org.cn/KdConv

● 论文地址：
https://arxiv.org/pdf/2004.04100v1.pdf

● 公布方：康奈尔大学, 腾讯人工智能实验室

● 公布工夫：2020

● 简介：
DialogRE 是第一个基于人工正文的基于对话的关系提取数据集，蕴含来自美国驰名电视情景喜剧《老友记》的残缺抄本的 1,788 条对话。这些是对话中参数对之间存在的所有呈现的 36 种可能关系类型的正文。DialogRE 提供英文和中文版本。

● 下载地址：
https://opendatalab.org.cn/DialogRE

● 论文地址：
https://arxiv.org/pdf/2004.08056v1.pdf

● 公布方：奈良先端科学技术大学院大学

● 公布工夫：2020

● 简介：
NAIST COVID 是新型冠状病毒肺炎相干的社交媒体帖子的多语言数据集，由 Twitter 的英语和日语微博以及微博的中文微博组成。该数据涵盖了从 2020 年 1 月 20 日到 2020 年 3 月 24 日的微博。

● 下载地址：
https://opendatalab.org.cn/NAIST_COVID

● 论文地址：
https://arxiv.org/pdf/2004.08145v1.pdf

● 公布方：清华大学 · 三星中国研究院

● 公布工夫：2020

● 简介 ：
咱们提出了一个大型清洁汉语会话语料库（LCCC），其中蕴含：LCCC-base 和 LCCC-large。为了保障语料库的品质，设计了严格的数据荡涤流水线。该管道波及一组规定和几个基于分类器的过滤器。诸如攻击性或敏感词、特殊符号、表情符号、语法错误的句子和不连贯的对话等乐音都会被过滤掉。

● 下载地址：
https://opendatalab.org.cn/LCCC

● 论文地址：
https://arxiv.org/pdf/2008.03946v2.pdf

● 公布方：加州大学, 北京航空航天大学, 微软亚洲研究院

● 公布工夫：2021

● 简介 ：
隐语（也称为双语、密文、暗语、反话或密语）对于了解广告、悲剧和狗哨政治很重要。DogWhistle 是一个宏大而多样的中文数据集，用于从计算语言学的角度创立和了解隐语。

● 下载地址：
https://opendatalab.org.cn/DogWhistle

● 论文地址：
https://arxiv.org/pdf/2104.02704v2.pdf

● 公布方：锡拉丘兹大学

● 公布工夫：2021

● 简介 ：
开发了第一个对于新型冠状病毒肺炎错误信息的中文数据集。CHECKED 提供了从 2019 年 12 月到 2020 年 8 月的总共 2,104 个与新型冠状病毒肺炎相干的已验证微博，这些微博通过应用特定的关键字列表进行辨认。相应地，CHECKED 包含 1,868,175 转发、1,185,702 评论和 56,852,736 点赞，这些评论揭示了这些通过验证的微博是如何在微博上流传和反馈的。该数据集蕴含每个微博的丰盛多媒体信息集，包含高空假相标签，文本，视觉，工夫和网络信息。在应用 CHECKED 预测假新闻时，曾经进行了宽泛的试验来剖析已查看的数据并为欠缺的办法提供基准后果。

● 下载地址：
https://opendatalab.org.cn/CHECKED

● 论文地址：
https://arxiv.org/pdf/2010.09029v2.pdf

● 公布方：北京大学

● 公布工夫：2021

● 简介：
Lyra 是一个用于代码生成的数据集，由带有嵌入式 SQL 的 Python 代码组成。该数据集蕴含来自理论应用我的项目的 2,000 个通过认真正文的数据库操作程序。每个程序都配有中文评论和英文评论。。

● 下载地址：
https://opendatalab.org.cn/Lyra

● 论文地址：
https://arxiv.org/pdf/2108.12144v1.pdf

● 公布方：北京大学

● 公布工夫：2022

● 简介 ：
咱们在当先的食品服务电子商务平台中，基于用户评论，文本对话和电话对话，提出了一个新的大型中文事件检测数据集。

● 下载地址：
https://opendatalab.org.cn/MUSIED

● 论文地址：
https://arxiv.org/pdf/2211.13896.pdf

以上就是本次分享，因为篇幅无限，更多数据集，请拜访 OpenDataLab 官网：https:/opendatalab.org.cn

关于人工智能:收藏丨20个中文语料数据集含数学考试公务员考题医患对话等

No.1 Math23K (Math23K for Math Word Problem Solving)

No.2 Ape210K

No.3 DRCD (Delta Reading Comprehension Dataset)

No.4 FCGEC

No.5 E-KAR (Benchmark for Explainable Knowledge-intensive Analogical Reasoning)

No.6 Douban Conversation Corpus

No.7 ODSQA (Open-Domain Spoken Question Answering)

No.8 XiaChuFang Recipe Corpus

No.9 CrossWOZ

No.10 MATINF (Maternal and Infant Dataset)

No.11 MedDialog

No.12 MCSCSet

No.13 KdConv (Knowledge-driven Conversation)

No.14 DialogRE

No.15 NAIST COVID

No.16 LCCC (Large-scale Cleaned Chinese Conversation corpus)

No.17 DogWhistle

No.18 CHECKED

No.19 Lyra

No.20 MUSIED