关于算法:3基于Label-studio的训练数据标注指南文本分类任务

文本分类工作Label Studio使用指南

1.基于Label studio的训练数据标注指南：信息抽取（实体关系抽取）、文本分类等
2.基于Label studio的训练数据标注指南：（智能文档）文档抽取工作、PDF、表格、图片抽取标注等
3.基于Label studio的训练数据标注指南：文本分类工作
4.基于Label studio的训练数据标注指南：情感剖析工作观点词抽取、属性抽取

1. 装置
2. 文本分类工作标注
- 2.1 我的项目创立
- 2.2 数据上传
- 2.3 标签构建
- 2.4 工作标注
- 2.5 数据导出
- 2.6 数据转换
- 2.7 更多配置

1. 装置

以下标注示例用到的环境配置：

Python 3.8+
label-studio == 1.7.1

在终端(terminal)应用pip装置label-studio：

pip install label-studio==1.7.1

装置实现后，运行以下命令行：

label-studio start

在浏览器关上http://localhost:8080/，输出用户名和明码登录，开始应用label-studio进行标注。

文本分类工作标注

2.1 我的项目创立

点击创立（Create）开始创立一个新的我的项目，填写项目名称、形容，而后在Labeling Setup中抉择Text Classification。

填写项目名称、形容

数据上传，从本地上传txt格式文件，抉择List of tasks，而后抉择导入本我的项目

设置工作，增加标签

2.2 数据上传

我的项目创立后，可在Project/文本分类工作中点击Import持续导入数据，同样从本地上传txt格式文件，抉择List of tasks，详见我的项目创立。

2.3 标签构建

我的项目创立后，可在Setting/Labeling Interface中持续配置标签，详见我的项目创立

2.4 工作标注

2.5 数据导出

勾选已标注文本ID，抉择导出的文件类型为JSON，导出数据：

2.6 数据转换

将导出的文件重命名为label_studio.json后，放入./data目录下。通过label_studio.py脚本可转为UTC的数据格式。

在数据转换阶段，还须要提供标签候选信息，放在./data/label.txt文件中，每个标签占一行。例如在医疗用意分类中，标签候选为["病情诊断", "医治计划", "病因剖析", "指标解读", "就医倡议", "疾病表述", "结果表述", "注意事项", "效用作用", "医疗费用", "其余"]，也可通过options参数间接进行配置。

python label_studio.py \
    --label_studio_file ./data/label_studio.json \
    --save_dir ./data \
    --splits 0.8 0.1 0.1 \
    --options ./data/label.txt

2.7 更多配置

label_studio_file: 从label studio导出的数据标注文件。
save_dir: 训练数据的保留目录，默认存储在data目录下。
splits: 划分数据集时训练集、验证集所占的比例。默认为[0.8, 0.1, 0.1]示意依照8:1:1的比例将数据划分为训练集、验证集和测试集。
options: 指定分类工作的类别标签。若输出类型为文件，则文件中每行一个标签。
is_shuffle: 是否对数据集进行随机打散，默认为True。
seed: 随机种子，默认为1000.

备注：

默认状况下 label_studio.py 脚本会依照比例将数据划分为 train/dev/test 数据集
每次执行 label_studio.py 脚本，将会笼罩已有的同名数据文件
对于从label_studio导出的文件，默认文件中的每条数据都是通过人工正确标注的。

References

Label Studio

关于算法:3基于Label-studio的训练数据标注指南文本分类任务

文本分类工作Label Studio使用指南

1. 装置

2.1 我的项目创立

2.2 数据上传

2.3 标签构建

2.4 工作标注

2.5 数据导出

2.6 数据转换

2.7 更多配置

References

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于算法:3基于Label-studio的训练数据标注指南文本分类任务

文本分类工作Label Studio使用指南

1. 装置

2.1 我的项目创立

2.2 数据上传

2.3 标签构建

2.4 工作标注

2.5 数据导出

2.6 数据转换

2.7 更多配置

References

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复