关于人工智能:收藏丨30个大语言模型训练相关的数据集分享

3次阅读

共计 7427 个字符,预计需要花费 19 分钟才能阅读完成。

上一期咱们分享了《ChatGPT 数据集之谜》一文,从模型角度切入,按六大分类(维基百科、书籍、期刊、Reddit 链接、Common Crawl、其余),剖析梳理了 2018 年到 2022 年初从 GPT- 1 到 Gopher 的古代大语言模型相干的所有训练数据集域、token 数量等详情。

明天咱们持续以这 6 大分类为脉络,从公开数据集角度切入,整顿了 OpenDataLab 已上架的、不同分类对应的的可用于大语言模型的预训练、指令微调等数据资源,心愿能为大家节俭局部数据筹备工夫,和带来启发。

大语言模型数据集分类:

分类参考:《ChatGPT 数据集之谜》和网络整顿

一、维基百科类

No.1

Identifying Machine-Paraphrased Plagiarism

● 公布方:德国伍珀塔尔大学 · 布尔诺孟德尔大学

● 公布工夫:2021

● 简介:该数据集用于训练和评估用于检测机器释义文本的模型。训练集蕴含从 8,024 篇维基百科(英文)文章(4,012 篇原文,4,012 篇应用 SpinBot API 释义)中提取的 200,767 段(98,282 篇原文,102,485 篇释义)。测试集分为 3 个子集:一个来自 arXiv 钻研论文的预印本,一个来自毕业论文,另一个来自 Wikipedia 文章。此外,还应用了不同的 Marchine-paraphrasing 办法。

● 下载地址:https://opendatalab.org.cn/Identifying_Machine-Paraphrased_etc

No.2

Benchmark for Neural Paraphrase Detection

● 公布方:德国伍珀塔尔大学

● 公布工夫:2021

● 简介:这是神经释义检测的基准,用于辨别原始内容和机器生成的内容。训练:从 4,012 篇(英文)维基百科文章中提取 1,474,230 个对齐的段落(98,282 个原始段落,1,375,948 个用 3 个模型和 5 个超参数配置进行释义的段落,每个 98,282 个)。

● 下载地址:https://opendatalab.org.cn/Benchmark_for_Neural_Paraphrase_etc

No.3

NatCat

● 公布工夫:2021

● 简介:来自三个在线资源的通用文本分类数据集 (NatCat):Wikipedia、Reddit 和 Stack Exchange。这些数据集由源自社区天然产生的手动治理的文档 - 类别对组成。

● 下载地址:https://opendatalab.org.cn/NatCat

No.4

Quoref

● 公布方:艾伦人工智能研究所 · 华盛顿大学

● 公布工夫:2019

● 简介:Quoref 是一个 QA 数据集,用于测试浏览了解零碎的共指推理能力。在这个跨度抉择基准蕴含来自维基百科的 4.7K 段落中的 24K 问题,零碎必须先解决硬共指,而后能力在段落中抉择适当的跨度来答复问题。

● 下载地址:https://opendatalab.com/Quoref

No.5

QuAC (Question Answering in Context)

● 公布方:艾伦人工智能研究所 · 华盛顿大学 · 斯坦福大学 · 马萨诸塞大学阿默斯特分校

● 公布工夫:2018

● 简介:上下文问答是一个大规模的数据集,由大概 14K 众包问答对话和总共 98K 问答对组成。数据实例包含两个大众工作者之间的交互式对话:(1)提出一系列自在模式问题以尽可能多地理解暗藏的维基百科文本的学生,以及(2)通过提供简短摘录来答复问题的老师(逾越)来自文本。

● 下载地址:https://opendatalab.org.cn/QuAC

No.6

TriviaQA

● 公布方:华盛顿大学 · 艾伦人工智能研究所

● 公布工夫:2017

● 简介:TriviaQA 是一个事实的基于文本的问答数据集,其中包含来自维基百科和网络的 662K 文档中的 950K 问答对。该数据集比斯坦福问答数据集(SQuAD)等规范 QA 基准数据集更具挑战性,因为问题的答案可能无奈通过跨度预测间接取得,而且上下文很长。TriviaQA 数据集由人工验证和机器生成的 QA 子集组成。

● 下载地址:https://opendatalab.org.cn/TriviaQA

No.7

WikiQA (Wikipedia open-domain Question Answering)

● 公布方:微软研究院

● 公布工夫:2015

● 简介:WikiQA 语料库是一组公开可用的问题和句子对,收集和正文用于钻研凋谢域问答。为了反映个别用户的实在信息需要,应用必应查问日志作为问题起源。每个问题都链接到一个可能有答案的维基百科页面。因为 Wikipedia 页面的摘要局部提供了无关该主题的根本且通常最重要的信息,因而本局部中的句子被用作候选答案。该语料库包含 3,047 个问题和 29,258 个句子,其中 1,473 个句子被标记为相应问题的答案句。

● 下载地址:https://opendatalab.org.cn/WikiQA

二、书籍类

No.8

The Pile

● 公布方:EleutherAI

● 公布工夫:2020

● 简介:The Pile 是一个 825 GiB 多样化的开源语言建模数据集,由 22 个较小的高质量数据集组合在一起组成。

● 下载地址:https://opendatalab.org.cn/The_Pile

No.9

BookCorpus

● 公布方:多伦多大学 · 麻省理工学院

● 公布工夫:2015

● 简介:BookCorpus 是由未出版的作者撰写的大量免费小说书籍,其中蕴含 16 种不同子流派 (例如,浪漫,历史,冒险等) 的 11,038 本书 (约 74m 句子和 1g 单词)。

● 下载地址:https://opendatalab.org.cn/BookCorpus

No.10

EXEQ-300k

● 公布方:北京大学 · 宾夕法尼亚州立大学 · 中山大学

● 公布工夫:2020

● 简介:EXEQ-300k 数据集蕴含 290,479 个具体问题以及来自数学堆栈替换的相应数学题目。该数据集可用于从具体的数学问题中生成简洁的数学题目。

● 下载地址:https://opendatalab.org.cn/EXEQ-300k

三、期刊类

No.11

Pubmed

● 公布方:马里兰大学

● 公布工夫:2008

● 简介:Pubmed 数据集蕴含来自 PubMed 数据库的 19717 篇与糖尿病相干的迷信出版物,分为三类之一。引文网络由 44338 个链接组成。数据集中的每个出版物都由字典中的 TF/IDF 加权词向量形容,该字典由 500 个惟一词组成。

● 下载地址:https://opendatalab.org.cn/Pubmed

No.12

PubMed Paper Reading Dataset

● 公布方:伊利诺伊大学厄巴纳香槟分校 · 滴滴实验室 · 伦斯勒理工学院 · 北卡罗来纳大学教堂山分校 · 华盛顿大学

● 公布工夫:2019

● 简介:该数据集从 PubMed 收集了 14,857 个实体、133 个关系以及对应于标记化文本的实体。它蕴含 875,698 个训练对、109,462 个开发对和 109,462 个测试对。

● 下载地址:https://opendatalab.org.cn/PubMed_Paper_Reading_Dataset

No.13

PubMed RCT (PubMed 200k RCT)

● 公布方:Adobe Research · 麻省理工学院

● 公布工夫:2017

● 简介:PubMed 200k RCT 是基于 PubMed 的用于程序句子分类的新数据集。该数据集由大概 200,000 个随机对照试验摘要组成,总计 230 万个句子。每个摘要的每个句子都应用以下类别之一标记其在摘要中的角色:背景、指标、办法、后果或论断。公布此数据集的目标是双重的。首先,用于程序短文本分类(即对呈现在序列中的短文本进行分类)的大多数数据集都很小:作者心愿公布一个新的大型数据集将有助于为这项工作开发更精确的算法。其次,从利用的角度来看,钻研人员须要更好的工具来无效地浏览文献。主动对摘要中的每个句子进行分类将有助于钻研人员更无效地浏览摘要,尤其是在摘要可能很长的畛域,例如医学畛域。

● 下载地址:https://opendatalab.org.cn/PubMed_RCT

No.14

MedHop

● 公布方:伦敦大学学院 · Bloomsbury AI

● 公布工夫:2018

● 简介:与 WikiHop 格局雷同,MedHop 数据集基于 PubMed 的钻研论文摘要,查问是对于药物对之间的相互作用。必须通过联合来自药物和蛋白质的一系列反馈的信息来推断出正确的答案。

● 下载地址:https://opendatalab.org.cn/MedHop

No.15

ArxivPapers

● 公布方:Facebook · 伦敦大学学院 · DeepMind

● 公布工夫:2020

● 简介:ArxivPapers 数据集是 2007 年至 2020 年间在 arXiv.org 上发表的超过 104K 篇与机器学习相干的未标记论文汇合。该数据集包含大概 94K 篇论文(能够应用 LaTeX 源代码),这些论文采纳结构化模式,其中论文分为题目、摘要、局部、段落和参考文献。此外,该数据集蕴含从 LaTeX 论文中提取的超过 277K 表。因为论文许可,数据集作为元数据和开源管道公布,可用于获取和转换论文。

● 下载地址:https://opendatalab.org.cn/ArxivPapers

No.16

unarXive

● 公布方:Karlsruhe Institute of Technology

● 公布工夫:2020

● 简介:蕴含出版物全文、带正文的文本援用和元数据链接的学术数据集。unarXive 数据集蕴含 100 万篇纯文本论文 6300 万引文上下文 3900 万参考字符串 1600 万个连贯的引文网络 数据来自 1991 年至 2020/07 年期间 arXiv 上的所有 LaTeX 源,因而品质高于生成的数据从 PDF 文件。此外,因为所有施引论文均以全文模式提供,因而能够提取任意大小的引文上下文。数据集的典型用处是引文举荐中的办法 引文上下文剖析 参考字符串解析 生成数据集的代码是公开的。

● 下载地址:https://opendatalab.org.cn/unarXive

No.17

arXiv Summarization Dataset

● 公布方:Georgetown University · Adobe Research

● 公布工夫:2018

● 简介:这是一个用于评估钻研论文摘要办法的数据集。

● 下载地址:https://opendatalab.org.cn/arXiv_Summarization_Dataset

No.18

SCICAP

● 公布方:宾夕法尼亚州立大学

● 公布工夫:2021

● 简介:SciCap 一种基于计算机科学 arXiv 论文的大型图形字幕数据集,2010 年发表,2020 年。SCICAP 蕴含超过 416k 个图形,这些图形集中在从 290,000 多篇论文中提取的一个显性图形类型 - 图形图。

● 下载地址:https://opendatalab.org.cn/SCICAP

No.19

MathMLben (Formula semantics benchmark)

● 公布方:康斯坦茨大学 · 美国国家标准技术研究所

● 公布工夫:2017

● 简介:MathMLben 是用于数学格局转换(LaTeX ↔ MathML ↔ CAS)的评估工具的基准。它蕴含从 NTCIR 11/12 arXiv 和 Wikipedia 工作 / 数据集、NIST 数学函数数字图书馆 (DLMF) 和应用 AnnoMathTeX 公式和标识符名称举荐零碎 (https://annomathtex.wmflabs. 组织)。

● 下载地址:https://opendatalab.org.cn/MathMLben

四、Reddit 内容聚合社区类

No.20

OpenWebText

● 公布方:华盛顿大学 · Facebook AI Research

● 公布工夫:2019

● 简介:OpenWebText 是 WebText 语料库的开源再造。该文本是从 Reddit 上共享的 URL 中提取的 Web 内容,至多取得了 3 次赞成(38GB)。

● 下载地址:https://opendatalab.org.cn/OpenWebText

五、Common Crawl 网络爬虫凋谢数据库

No.21

C4 (Colossal Clean Crawled Corpus)

● 公布方:Google Research

● 公布工夫:2020

● 简介:C4 是 Common Crawl 的网络爬虫语料库的一个微小的、洁净的版本。它基于 Common Crawl 数据集:https://commoncrawl.org。它用于训练 T5 文本到文本的 Transformer 模型。能够从 allennlp 以预处理的模式下载数据集。

● 下载地址:https://opendatalab.org.cn/C4

No.22

Common Crawl

● 公布方:法国国家信息与自动化研究所 · 索邦大学

● 公布工夫:2019

● 简介:Common Crawl 语料库蕴含在 12 年的网络爬取过程中收集的 PB 级数据。语料库蕴含原始网页数据、元数据提取和文本提取。Common Crawl 数据存储在 Amazon Web Services 的公共数据集和寰球多个学术云平台上。

● 下载地址:https://opendatalab.org.cn/Common_Crawl

六、其余类

代码数据集

No.23

CodeSearchNet

● 公布方:微软研究院 · GitHub

● 公布工夫:2020

● 简介:CodeSearchNet 语料库是一个大型函数数据集,其中蕴含来自 GitHub 上的开源我的项目的用 Go、Java、JavaScript、PHP、Python 和 Ruby 编写的相干文档。CodeSearchNet 语料库包含: 总共 600 万个办法 其中 200 万个办法具备相干文档(文档字符串、JavaDoc 等)* 批示找到数据的原始地位(例如存储库或行号)的元数据。

● 下载地址:https://opendatalab.org.cn/CodeSearchNet

No.24

StaQC

● 公布方:俄亥俄州立大学 · 华盛顿大学 · 富士通研究所

● 公布工夫:2018

● 简介:StaQC(Stack Overflow 问题代码对)是迄今为止最大的数据集,大概有 148K Python 和 120K SQL 域问题代码对,它们是应用 Bi-View Hierarchical Neural Network 从 Stack Overflow 中主动开掘进去的。

● 下载地址:https://opendatalab.org.cn/StaQC

No.25

CodeExp

● 公布方:北京航空航天大学 · 微软研究院 · 多伦多大学

● 公布工夫:2022

● 简介:咱们提供了一个 python 代码 -docstring 语料库 CodeExp,其中蕴含 (1) 2.3 的大分区 百万原始代码 -docstring 对,(2) 一个介质 158,000 对的分区从 应用学习的过滤器的原始语料库,以及 (3) 具备严格的人类 13,000 对的分区 正文。咱们的数据收集过程利用了从人类那里学到的正文模型 主动过滤高质量的正文 来自原始 GitHub 数据集的代码 -docstring 对。

● 下载地址:https://opendatalab.org.cn/CodeExp

No.26

ETH Py150 Open

● 公布方:印度迷信理工学院 · Google AI Research

● 公布工夫:2020

● 简介:来自 GitHub 的 740 万个 Python 文件的大规模去重语料库。

● 下载地址:https://opendatalab.org.cn/ETH_Py150_Open

论坛数据集

No.27

Federated Stack Overflow

● 公布方:Google Research

● 公布工夫:2022

● 简介:数据由所有问题和答案的注释组成。Body 被解析成句子,任何少于 100 个句子的用户都会从数据中删除。起码的预处理如下进行:小写文本,对 HTML 符号进行本义,删除非 ASCII 符号,独自的标点符号作为独自的标记(撇号和连字符除外),去除多余的空白,用非凡标记替换 URLS。此外,还提供以下元数据:创立日期 问题题目 问题标签 问题分数 类型(“问题”或“答案”)。

● 下载地址:https://opendatalab.org.cn/Federated_Stack_Overflow

No.28

QUASAR (QUestion Answering by Search And Reading)

● 公布方:卡内基梅隆大学

● 公布工夫:2017

● 简介:搜寻和浏览问答(QUASAR)是一个由 QUASAR- S 和 QUASAR- T 组成的大规模数据集。这些数据集中的每一个都旨在专一于评估旨在了解自然语言查问、大量文本语料库并从语料库中提取问题答案的零碎。具体来说,QUASAR-S 蕴含 37,012 个填空题,这些问题是应用实体标签从风行的网站 Stack Overflow 收集的。QUASAR-T 数据集蕴含从各种互联网资源收集的 43,012 个凋谢域问题。该数据集中每个问题的候选文档是从基于 Apache Lucene 的搜索引擎中检索的,该搜索引擎构建在 ClueWeb09 数据集之上。

● 下载地址:https://opendatalab.org.cn/QUASAR

No.29

GIF Reply Dataset

● 公布方:卡内基梅隆大学

● 公布工夫:2017

● 简介:公布的 GIF 回复数据集蕴含 1,562,701 次 Twitter 上的实在文本 – GIF 对话。在这些对话中,应用了 115,586 个独特的 GIF。元数据,包含 OCR 提取的文本、带正文的标签和对象名称,也可用于该数据集中的一些 GIF。

● 下载地址:https://opendatalab.org.cn/GIF_Reply_Dataset

视频字幕数据集

No.30

TVC (TV show Captions)

● 公布方:北卡罗来纳大学教堂山分校

● 公布工夫:2020

● 简介:电视节目 Caption 是一个大规模的多模态字幕数据集,蕴含 261,490 个字幕形容和 108,965 个短视频片段。TVC 是举世无双的,因为它的字幕也能够形容对话 / 字幕,而其余数据集中的字幕仅形容视觉内容。

● 下载地址:https://opendatalab.org.cn/TVC

以上就是本次分享,因为篇幅无限,更多数据集,请拜访 OpenDataLab 官网:https://opendatalab.org.cn/

正文完
 0