关于nlp:BookCorpus196640本纯文本书籍的数据集可用于训练GPT等大型语言模型

假如咱们想训练一个世界通用的 GPT 模型，就像 OpenAI 一样。因为没有数据，所以通常很难办到。

当初有数据集了——————BookCorpus 的 ”books3″，也叫做 ”all of bibliotik in plain .txt form” 数据集。
间接下载链接：
https://the-eye.eu/public/AI/…

数据集的品质十分高，作者为了构建数据集，花了一周工夫修理了 epub2txt 脚本，在 https://github.com/shawwn/scrap 中能够查看这个名为“epub2txt-all”的工具。

正确保留构造，与目录十分匹配;
正确出现数据表（默认状况下 html2txt 次要为表生成垃圾查找后果），
正确保留代码构造，使源代码和相似内容在视觉上保持一致，
将编号列表从 ”1\” 转换为 ”1″。
通过 ”ftfy.fix_text（）使用在全文上（这是 OpenAI 对 GPT 的用处）运行全文，将 Unicode 的撇号替换为 ascii 编码的撇号;
将 Unicode 椭圆扩大到 ”…”（三个独自的 ascii 字符）。

以下是对于 BookCorpus 的介绍，您能够通过本我的项目源码用其余的书目链接自制数据集，也能够在其中下载其余优良的数据集。

https://github.com/soskek/boo…

BookCorpus 是一个风行的大型文本语料库，特地适宜在无人监督下学习句子的编码 / 解码器。然而，BookCorpus 目前不再散发 …

此存储库的数据起源包含 smashwords.com 的数据，是 BookCorpus 的原始起源。收集的句子可能有局部不同，但数量会更大或简直雷同。如果您在工作中应用这个新语料库，请指定它是个正本。

筹备可用的书籍的 URL。在此存储库曾经有一个列表，因为该列表是在 2019 年 1 月 19 日至 20 日收集的快照 I（@soskek）。你能够依据须要决定是否应用url_list.jsonl

python -u download_list.py > url_list.jsonl &

下载文件。如果不是 txt 文件，则会从 epub 提取文本信息。
txt`epub--trash-bad-countepub`

python download_files.py --list url_list.jsonl --out out_txts --trash-bad-count

后果将保留到--out`out_txts`

应用每行句子格局制作串联文本。

python make_sentlines.py out_txts > all.txt

如果要将它们标记成微软的布林火分段词请运行以下。您能够抉择其余选项。

python make_sentlines.py out_txts | python tokenize_sentlines.py > all.tokenized.txt

pip install -r requirements.txt

在下载 37GB 的压缩包之前，请先看阐明链接。

https://github.com/soskek/boo…

Shawn Presser 在他的 Tweet 公布了这个数据集。

在 GitHub 的帖子和 Tweet 上有更多信息。

Book3 数据集