共计 1457 个字符,预计需要花费 4 分钟才能阅读完成。
假如咱们想训练一个世界通用的 GPT 模型,就像 OpenAI 一样。因为没有数据,所以通常很难办到。
当初有数据集了——————BookCorpus 的 ”books3″,也叫做 ”all of bibliotik in plain .txt form” 数据集。
间接下载链接:
https://the-eye.eu/public/AI/…
Book3 数据集
数据集的品质十分高,作者为了构建数据集,花了一周工夫修理了 epub2txt 脚本,在 https://github.com/shawwn/scrap 中能够查看这个名为“epub2txt-all”的工具。
新脚本的特点:
- 正确保留构造,与目录十分匹配;
- 正确出现数据表(默认状况下 html2txt 次要为表生成垃圾查找后果),
- 正确保留代码构造,使源代码和相似内容在视觉上保持一致,
- 将编号列表从 ”1\” 转换为 ”1″。
- 通过 ”ftfy.fix_text()使用在全文上(这是 OpenAI 对 GPT 的用处)运行全文,将 Unicode 的撇号替换为 ascii 编码的撇号;
- 将 Unicode 椭圆扩大到 ”…”(三个独自的 ascii 字符)。
本数据集特点:
- 蕴含 196,640 本书籍
- 全副 txt 格局
- 链接更牢靠,可间接下载。链接:books3 tar.gz 文件,37Gb
以下是对于 BookCorpus 的介绍,您能够通过本我的项目源码用其余的书目链接自制数据集,也能够在其中下载其余优良的数据集。
BookCorpus
https://github.com/soskek/boo…
BookCorpus 是一个风行的大型文本语料库,特地适宜在无人监督下学习句子的编码 / 解码器。然而,BookCorpus 目前不再散发 …
此存储库的数据起源包含 smashwords.com 的数据,是 BookCorpus 的原始起源。收集的句子可能有 局部 不同,但数量会更大或简直雷同。如果您在工作中应用这个新语料库,请指定它是个正本。
如何应用
筹备可用的书籍的 URL。在此存储库曾经有一个列表,因为该列表是在 2019 年 1 月 19 日至 20 日收集的快照 I(@soskek)。你能够依据须要决定是否应用url_list.jsonl
python -u download_list.py > url_list.jsonl &
下载文件。如果不是 txt 文件,则会从 epub 提取文本信息。txt
`epub--trash-bad-count
epub`
python download_files.py --list url_list.jsonl --out out_txts --trash-bad-count
后果将保留到--out
`out_txts`
后处理
应用每行句子格局制作串联文本。
python make_sentlines.py out_txts > all.txt
如果要将它们标记成微软的布林火分段词请运行以下。您能够抉择其余选项。
python make_sentlines.py out_txts | python tokenize_sentlines.py > all.tokenized.txt
环境
- python3 is recommended
- beautifulsoup4
- progressbar2
- blingfire
- html2text
- lxml
pip install -r requirements.txt
后记
在下载 37GB 的压缩包之前,请先看阐明链接。
https://github.com/soskek/boo…
Shawn Presser 在他的 Tweet 公布了这个数据集。
在 GitHub 的帖子和 Tweet 上有更多信息。