关于自然语言处理:5分钟NLPHuggingFace-内置数据集的使用教程

32次阅读

共计 1253 个字符，预计需要花费 4 分钟才能阅读完成。

对于 NLP 爱好者来说 HuggingFace 必定不会生疏，因为当初简直一提到 NLP 就会有 HuggingFace 的名字呈现，HuggingFace 为 NLP 工作提供了保护了一系列开源库的利用和实现，尽管效率不是最高的，然而它为咱们入门和学习提供了十分好的帮忙，明天咱们来看一下用于 NLP 工作的数据集总结。

这一步非常简单，咱们将应用两个开源库。

pip install transformers datasets

通过文档咱们看到了一些次要办法。第一个是数据集的列表，能够看到 HuggingFace 提供了 3500 个可用数据集

from datasets import list_datasets, load_dataset, list_metrics, load_metric

# Print all the available datasets
print(list_datasets())

要理论应用数据集时能够应用 load_dataset 办法进行加载

dataset = load_dataset('acronym_identification')

加载数据集后会返回一个数据集对象。

这里的数据集并不是应用传统的 csv 或 excel 格局，而是应用对象模式，该对象以某种构造存储数据集的元数据。当打印数据集时，能够看到：

内置的数据集曾经被拆分好了相应的数据阶段。在 features 和 num_rows 键中阐明了列及样本数量。

数据集对象的查问的在语法上与应用 Pandas DataFrame 的操作十分类似。以下是一些可用于获取无关对象的更多信息的办法。

dataset['train'][0]

dataset['train'].features

如果须要无关数据集起源或创立形式的更多信息，还能够取得背景信息和引文等等。

dataset['train'].description

dataset['train'].citation

咱们在最终应用的时候必定会用到本人的数据，这时依然能够将本地 CSV 文件和其余文件类型加载到 Dataset 对象中。例如，假如有一个 CSV 文件，能够简略地将其传递给 load_dataset 办法。

dataset = load_dataset('csv', data_files='train.csv')

也能够解决多个 CSV 文件

dataset = load_dataset('csv', data_files=['train.csv', 'test.csv'])

当应用 HuggingFace 提供的预训练模型对本人的数据集进行微调时，应用自定义数据集会十分不便。

Hugging Face 为咱们提供了提供的大量资源，使端到端解决大型 NLP 和 ML 工作负载变得容易。尽管在灵活性等某些方面还是有余，然而 Hugging Face 是每个 NLP 爱好者都应该关注的库。

https://www.overfit.cn/post/aac850c9aefd4b7e9543356b383fdb5f

作者：Ram Vegiraju

正文完

自然语言处理

发表至：自然语言处理

2022-03-19

0

关于自然语言处理:搜索运营有哪些玩法你知道吗

关于自然语言处理:斯坦福NLP课程-第5讲-句法分析与依存解析

关于自然语言处理:阿里集团业务驱动的升级Dubbo-30-的演进思路

关于自然语言处理:深度学习进阶篇8对抗神经网络GAN基本概念简介纳什均衡生成器判别器解码编码器详解以及GAN应用场景

关于机器学习:百度希壤元宇宙平台上线首个汽车数字展厅领克探索汽车营销新方式

关于自然语言处理:5分钟NLPHuggingFace-内置数据集的使用教程

装置

数据集提供的办法

应用数据集对象

特征提取

数据集形容

自定义数据集加载

总结

Just My Socks（注册教程内含优惠码）

关于自然语言处理:5分钟NLPHuggingFace-内置数据集的使用教程

装置

数据集提供的办法

应用数据集对象

特征提取

数据集形容

自定义数据集加载

总结

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）