关于nlp:BookCorpus196640本纯文本书籍的数据集可用于训练GPT等大型语言模型

64次阅读

共计 1457 个字符,预计需要花费 4 分钟才能阅读完成。

假如咱们想训练一个世界通用的 GPT 模型,就像 OpenAI 一样。因为没有数据,所以通常很难办到。

当初有数据集了——————BookCorpus 的 ”books3″,也叫做 ”all of bibliotik in plain .txt form” 数据集。
间接下载链接:
https://the-eye.eu/public/AI/…

Book3 数据集

数据集的品质十分高,作者为了构建数据集,花了一周工夫修理了 epub2txt 脚本,在 https://github.com/shawwn/scrap 中能够查看这个名为“epub2txt-all”的工具。

新脚本的特点:

  1. 正确保留构造,与目录十分匹配;
  2. 正确出现数据表(默认状况下 html2txt 次要为表生成垃圾查找后果),
  3. 正确保留代码构造,使源代码和相似内容在视觉上保持一致,
  4. 将编号列表从 ”1\” 转换为 ”1″。
  5. 通过 ”ftfy.fix_text()使用在全文上(这是 OpenAI 对 GPT 的用处)运行全文,将 Unicode 的撇号替换为 ascii 编码的撇号;
  6. 将 Unicode 椭圆扩大到 ”…”(三个独自的 ascii 字符)。

本数据集特点:

  • 蕴含 196,640 本书籍
  • 全副 txt 格局
  • 链接更牢靠,可间接下载。链接:books3 tar.gz 文件,37Gb

以下是对于 BookCorpus 的介绍,您能够通过本我的项目源码用其余的书目链接自制数据集,也能够在其中下载其余优良的数据集。

BookCorpus

https://github.com/soskek/boo…


BookCorpus 是一个风行的大型文本语料库,特地适宜在无人监督下学习句子的编码 / 解码器。然而,BookCorpus 目前不再散发 …

此存储库的数据起源包含 smashwords.com 的数据,是 BookCorpus 的原始起源。收集的句子可能有 局部 不同,但数量会更大或简直雷同。如果您在工作中应用这个新语料库,请指定它是个正本。

如何应用

筹备可用的书籍的 URL。在此存储库曾经有一个列表,因为该列表是在 2019 年 1 月 19 日至 20 日收集的快照 I(@soskek)。你能够依据须要决定是否应用url_list.jsonl

python -u download_list.py > url_list.jsonl & 

下载文件。如果不是 txt 文件,则会从 epub 提取文本信息。
txt`epub--trash-bad-countepub`

python download_files.py --list url_list.jsonl --out out_txts --trash-bad-count 

后果将保留到--out`out_txts`

后处理

应用每行句子格局制作串联文本。

python make_sentlines.py out_txts > all.txt 

如果要将它们标记成微软的布林火分段词请运行以下。您能够抉择其余选项。

python make_sentlines.py out_txts | python tokenize_sentlines.py > all.tokenized.txt 

环境

  • python3 is recommended
  • beautifulsoup4
  • progressbar2
  • blingfire
  • html2text
  • lxml
pip install -r requirements.txt

后记

在下载 37GB 的压缩包之前,请先看阐明链接。

https://github.com/soskek/boo…

Shawn Presser 在他的 Tweet 公布了这个数据集。

在 GitHub 的帖子和 Tweet 上有更多信息。

正文完
 0