关于人工智能:4基于Label-studio的训练数据标注指南情感分析任务观点词抽取属性抽取

36次阅读

共计 2074 个字符,预计需要花费 6 分钟才能阅读完成。

情感剖析工作 Label Studio 使用指南

1. 基于 Label studio 的训练数据标注指南:信息抽取(实体关系抽取)、文本分类等

2. 基于 Label studio 的训练数据标注指南:(智能文档)文档抽取工作、PDF、表格、图片抽取标注等

3. 基于 Label studio 的训练数据标注指南:文本分类工作

4. 基于 Label studio 的训练数据标注指南:情感剖析工作观点词抽取、属性抽取

目录

  • 1. label-studio 装置
  • 2. label-studio 我的项目创立
  • 3. 情感剖析工作标注

    • 3.1 语句级情感分类工作
    • 3.2 属性级情感剖析工作

      • 3.2.1 属性 - 情感极性 - 观点词抽取
      • 3.2.2 属性 - 情感极性抽取
      • 3.2.3 属性 - 观点词抽取
      • 3.2.4 属性抽取
      • 3.2.5 观点词抽取
  • 4. 导出标注数据
  • 5. References

1. label-studio 装置

本内容在以下环境进行测试装置:

  • python == 3.9.12
  • label-studio == 1.6.0

在终端 (terminal) 应用 pip 装置 label-studio:

pip install label-studio==1.6.0

装置实现后,运行以下命令行:

label-studio start

在浏览器关上 http://localhost:8080/,输出用户名和明码登录,开始应用 label-studio 进行标注。

2. label-studio 我的项目创立

创立我的项目之前,须要先确定标注的工作类型以及须要标注哪些内容,而后点击创立(Create)开始创立一个新的我的项目,填写项目名称、形容。

如果数据曾经筹备好,能够在此进行导入数据。

接下来,依据须要标注的工作类型,抉择适宜的工作。在本我的项目中,默认会蕴含两种类型的工作:语句级情感分类工作和属性级情感剖析工作。因为这两者都属于自然语言解决(NLP)工作,因而能够点击 Natural Language Processing 选项,在该选项上面进行抉择相应的子项工作。

  • 如果标注语句级情感分类工作,请抉择Text Classification
  • 如果标注属性级情感剖析工作,比方属性 - 观点词 - 情感极性三元组的信息抽取,请抉择Relation Extraction

最初点击保留即可。

3. 情感剖析工作标注

3.1 语句级情感分类工作

这里对应的工作类型为 Text Classification,在标注之前,须要设定 正向 负向 的标签,而后保留即可。

设定好标签后,即可开始进行标注,抉择正向或负向,最初点击提交,便标注好一条数据。

3.2 属性级情感剖析工作

在本我的项目中,属性级的情感剖析须要配置的标注工作类型为 Relation Extraction,包含属性抽取、观点抽取、属性 - 观点抽取、属性 - 情感极性抽取、属性 - 情感极性 - 观点词三元组抽取等工作。其中属性 - 情感极 - 观点词(A-S-O) 三元组抽取是最常见的工作之一,上面优先解说该工作的标注规定。

3.2.1 属性 - 情感极性 - 观点词抽取

属性 - 情感极性 - 观点词 (A-S-O) 三元组抽取标注内容波及两类标签:Span 类型标签和 Relation 类型标签。其中 Span 标签用于定位文本批评中属性、观点词和情感极性三类信息,Relation 类型标签用于设置评估维度和观点词、情感偏向之间的关系。

(1)Span 类型标签

这里须要定位属性、情感极性、观点词三类信息,在标注时,须要将属性和情感极性进行组合,造成复合标签。具体来讲,设定 评估维度 ##正向 用于定位情感偏向为正向的属性,评估维度## 负向 用于定位情感偏向为负向的属性。另外,利用标注标签 观点词 定位语句中的观点词。

(2)Relation 类型标签

这里只波及到 1 中 Relation 类型标签,即 评估维度 观点词 的映射关系。这里能够设置一下两者关系的名称,即点击 Code,而后配置关系名称(这里将两者关系设置为 观点词),最初点击保留即可。

在设置好 Span 类型和 Relation 标签之后,便能够开始进行标注数据了。

3.2.2 属性 - 情感极性抽取

如 3.2.1 所述,本我的项目中针对属性 - 情感极性 (A-S) 抽取工作,采纳 Span 的模式进行标注。设定 评估维度 ##正向 用于定位情感偏向为正向的属性,评估维度## 负向 用于定位情感偏向为负向的属性。下图展现了对于属性 - 情感极性抽取工作的标注示例。

3.2.3 属性 - 观点词抽取

针对属性 - 观点词 (A-O) 抽取工作,采纳 Relation 的模式进行标注。这须要将属性对应标注标签设定为 评估维度 ,观点词设定为 观点词。下图展现了对于属性 - 观点词抽取工作的标注示例。

3.2.4 属性抽取

针对属性 (A) 抽取工作,采纳 Span 的模式进行标注。这须要将属性对应的标注标签设定为 评估维度。下图展现了对于属性抽取工作的标注示例。

3.2.4 观点词抽取

针对观点词 (O) 抽取工作,采纳 Span 的模式进行标注。这须要将观点词对应的标注标签设定为 观点词。下图展现了对于观点词抽取工作的标注示例。

4. 导出标注数据

勾选已标注文本 ID,点击 Export 按钮,抉择导出的文件类型为JSON,导出数据:

5. References

  • Label Studio 官网

正文完
 0