关于challenge:零样本文本分类应用基于UTC的医疗意图多分类打通数据标注模型训练模型调优预测部署全流程

本我的项目提供基于通用文本分类 UTC（Universal Text Classification）模型微调的文本分类端到端利用计划，买通 数据标注 - 模型训练 - 模型调优 - 预测部署全流程，可疾速实现文本分类产品落地。

文本分类是一种重要的自然语言解决工作，它能够帮忙咱们将大量的文本数据进行无效的分类和演绎。实际上，在日常生活中，咱们也常常会用到文本分类技术。例如，咱们能够应用文本分类来对新闻报道进行分类，对电子邮件进行分类，对社交媒体上的评论进行情感剖析等等。然而，文本分类也面临着许多挑战。其中最重要的挑战之一是数据稀缺。因为文本数据往往十分宏大，因而获取足够的训练数据可能十分艰难。此外，不同的文本分类工作也可能面临着畛域多变和工作多样等挑战。为了应答这些挑战，PaddleNLP 推出了一项零样本文本分类利用 UTC。该利用通过对立语义匹配形式 USM（Unified Semantic Matching）来将标签和文本的语义匹配能力进行对立建模。这种办法能够帮忙咱们更好地了解文本数据，并从中提取出有用的特色信息。

UTC 具备低资源迁徙能力，能够反对通用分类、评论情感剖析、语义类似度计算、蕴含推理、多项式浏览了解等多种“泛分类”工作。这使得开发者能够更加轻松高效地实现多任务文本分类数据标注、训练、调优和上线，从而升高文本分类技术门槛。

总之，文本分类是一项重要的自然语言解决工作，它能够帮忙咱们更好地了解和演绎文本数据。只管它面临着许多挑战，然而 通过应用 PaddleNLP 的零样本文本分类利用 UTC，开发者们能够简略高效实现多任务文本分类数据标注、训练、调优、上线，升高文本分类落地技术门槛。

分类工作看似简略，然而在产业级文本分类落地实际中，面临着诸多挑战：

工作多样：单标签、多标签、档次标签、大规模标签等不同的文本分类工作，须要开发不同的分类模型，模型架构往往特化于具体任务，难以使用对立模式建模；
数据稀缺：局部畛域数据稀缺，难以获取，且畛域专业性使得数据标注门槛高；
标签迁徙：不同畛域的标签多样，并且迁徙难度大，尤其不同畛域间的标签常识很难迁徙。

在传统技术计划中，针对不同的分类工作须要构建多个分类模型，模型需独自训练且数据和常识不共享。而在 UTC 计划下，单个模型能解决所有分类需要，包含但不限于单标签分类、多标签分类、档次标签分类、大规模事件标签检测、蕴含推理、语义类似度计算等，升高了开发成本和机器老本。

UTC 通过大规模多任务预训练后，能够适配不同的行业畛域，不同的分类标签，仅标注了几条样本，分类成果就获得大幅晋升，大大降低标注门槛和老本。

在医疗、金融、法律等畛域中，无需训练数据的零样本状况下 UTC 成果均匀可达到 70%+（如下表所示），标注少样本也可带来显著的成果晋升：每个标签仅仅标注 1 条样本后，均匀晋升了 10 个点！也就是说，即便在某些场景下体现欠佳，人工标几个样本，丢给模型后就会有大幅的成果晋升。

UTC 基于百度最新提出的对立语义匹配框架 USM（Unified Semantic Matching）[1]，将分类工作对立建模为标签与文本之间的匹配工作，对不同标签的分类工作进行对立建模。具体地说：

为了实现工作架构对立，UTC 设计了标签与文本之间的词对连贯操作（Label–>CLS-Token Linking），这使得模型可能适应不同畛域和工作的标签信息，并按需要进行分类，从而实现了凋谢域场景下的通用文本分类。
例如，对于事件检测工作，可将一系列事件标签拼接为 [L] 上映 [L] 夺冠 [L] 下架，而后与原文本一起作为整体输出到 UTC 中，UTC 将不同标签标识符 [L] 与[CLS]进行匹配，可对不同标签类型的分类工作对立建模，间接上图：

为了实现通用能力共享，让不同畛域间的标签常识跨域迁徙，UTC 构建了对立的异质监督学习办法进行多任务预训练，使不同畛域工作具备良好的零 / 少样本迁徙性能。对立的异质监督学习办法次要包含三种不同的监督信号：
- 间接监督：分类工作间接相干的数据集，如情感分类、新闻分类、用意辨认等。
- 间接监督：分类工作间接相干的数据集，如选项式浏览了解、问题 - 文章匹配等。
- 近程监督：标签知识库或层级题目与文本对齐后弱标注数据。

更多内容参考论文见文末链接 or fork 一下我的项目论文已上传

以下标注示例用到的环境配置：

Python 3.8+
label-studio == 1.7.2

在终端 (terminal) 应用 pip 装置 label-studio：

pip install label-studio==1.7.2

装置实现后，运行以下命令行：

label-studio start

在浏览器关上 http://localhost:8080/，输出用户名和明码登录，开始应用 label-studio 进行标注。

点击创立（Create）开始创立一个新的我的项目，填写项目名称、形容，而后在 Labeling Setup 中抉择Text Classification。

填写项目名称、形容

数据上传，从本地上传 txt 格式文件，抉择List of tasks，而后抉择导入本我的项目

设置工作，增加标签

数据上传

我的项目创立后，可在 Project/ 文本分类工作中点击 Import 持续导入数据，同样从本地上传 txt 格式文件，抉择List of tasks。

我的项目创立后，可在 Setting/Labeling Interface 中持续配置标签，

默认模式为单标签多分类数据标注。对于多标签多分类数据标注，须要将 choice 的值由 single 改为multiple。

勾选已标注文本 ID，抉择导出的文件类型为JSON，导出数据：

参考链接：

Label Studio

将导出的文件重命名为 label_studio.json 后，放入 ./data 目录下。通过 label_studio.py 脚本可转为 UTC 的数据格式。

在数据转换阶段，还须要提供标签候选信息，放在 ./data/label.txt 文件中，每个标签占一行。例如在医疗用意分类中，标签候选为 ["病情诊断", "医治计划", "病因剖析", "指标解读", "就医倡议", "疾病表述", "结果表述", "注意事项", "效用作用", "医疗费用", "其余"]，也可通过options 参数间接进行配置。

这里提供事后标注好的 医疗用意分类数据集 的文件，能够运行上面的命令行下载数据集，咱们将展现如何应用数据转化脚本生成训练 / 验证 / 测试集文件，并应用 UTC 模型进行微调。

# 下载医疗用意分类数据集：!wget https://bj.bcebos.com/paddlenlp/datasets/utc-medical.tar.gz
!tar -xvf utc-medical.tar.gz
!mv utc-medical data
!rm utc-medical.tar.gz

数据集局部展现

[{"id":26092,"annotations":[{"id":59,"completed_by":1,"result":[{"value":{"choices":["注意事项"]},"id":"7iya31L9oc","from_name":"sentiment","to_name":"text","type":"choices","origin":"manual"}],"was_cancelled":false,"ground_truth":false,"created_at":"2023-01-09T07:13:18.982993Z","updated_at":"2023-01-09T07:13:18.983032Z","lead_time":4.022,"prediction":{},"result_count":0,"task":26092,"parent_prediction":null,"parent_annotation":null}],"file_upload":"838fb89a-10-shot.txt","drafts":[],"predictions":[],"data":{"text":"烧氧割要留神那些问题"},"meta":{},"created_at":"2023-01-09T06:48:10.725717Z","updated_at":"2023-01-09T07:13:19.022666Z","inner_id":35,"total_annotations":1,"cancelled_annotations":0,"total_predictions":0,"comment_count":0,"unresolved_comment_count":0,"last_comment_updated_at":null,"project":5,"updated_by":1,"comment_authors":[]},
{"id":26091,"annotations":[{"id":4,"completed_by":1,"result":[{"value":{"choices":["病因剖析"]}]

# 生成训练 / 验证集文件：!python label_studio.py \
    --label_studio_file ./data/utc-medical/label_studio.json \
    --save_dir ./data \
    --splits 0.8 0.1 0.1 \
    --options ./data/utc-medical/label.txt

[32m[2023-04-14 11:28:46,056] [INFO][0m - Save 45 examples to ./data/train.txt.[0m
[32m[2023-04-14 11:28:46,057] [INFO][0m - Save 6 examples to ./data/dev.txt.[0m
[32m[2023-04-14 11:28:46,057] [INFO][0m - Save 6 examples to ./data/test.txt.[0m
[32m[2023-04-14 11:28:46,057] [INFO][0m - Finished! It takes 0.00 seconds[0m
[0m

{"text_a": "老年痴呆的症状有哪些", "text_b": "","question":"", "choices": ["病情诊断", "医治计划", "病因剖析", "指标解读", "就医倡议", "疾病表述", "结果表述", "注意事项", "效用作用", "医疗费用", "其余"], "labels": [5]}

label_studio_file: 从 label studio 导出的数据标注文件。
save_dir: 训练数据的保留目录，默认存储在 data 目录下。
splits: 划分数据集时训练集、验证集所占的比例。默认为 [0.8, 0.1, 0.1] 示意依照 8:1:1 的比例将数据划分为训练集、验证集和测试集。
options: 指定分类工作的类别标签。若输出类型为文件，则文件中每行一个标签。
is_shuffle: 是否对数据集进行随机打散，默认为 True。
seed: 随机种子，默认为 1000.

备注：

默认状况下 label_studio.py 脚本会依照比例将数据划分为 train/dev/test 数据集
每次执行 label_studio.py 脚本，将会笼罩已有的同名数据文件
对于从 label_studio 导出的文件，默认文件中的每条数据都是通过人工正确标注的。

应用 Label Studio 数据标注工具进行标注，如果已有标注好的本地数据集，咱们须要将数据集整顿为文档要求的格局，

多任务训练场景可别离进行数据转换再进行混合：通用分类、评论情感剖析、语义类似度计算、蕴含推理、多项式浏览了解等泛滥“泛分类”工作

## 代码构造
├── deploy/simple_serving/ # 模型部署脚本
├── utils.py               # 数据处理工具
├── run_train.py           # 模型微调脚本
├── run_eval.py            # 模型评估脚本
├── label_studio.py        # 数据格式转换脚本
├── label_studio_text.md   # 数据标注阐明文档
└── README.md

举荐应用 PromptTrainer API 对模型进行微调，该 API 封装了提醒定义性能，且继承自 Trainer API。只需输出模型、数据集等就能够应用 Trainer API 高效疾速地进行预训练、微调等工作，能够一键启动多卡训练、混合精度训练、梯度累积、断点重启、日志显示等性能，Trainer API 还针对训练过程的通用训练配置做了封装，比方：优化器、学习率调度等。

应用上面的命令，应用 utc-base 作为预训练模型进行模型微调，将微调后的模型保留至output_dir：

# 装置最新版本 paddlenlp
!pip install --upgrade paddlenlp

# 单卡启动：!python run_train.py  \
    --device gpu \
    --logging_steps 10 \
    --save_steps 10 \
    --eval_steps 10 \
    --seed 1000 \
    --model_name_or_path utc-base \
    --output_dir ./checkpoint/model_best \
    --dataset_path ./data/ \
    --max_seq_length 512  \
    --per_device_train_batch_size 2 \
    --per_device_eval_batch_size 2 \
    --gradient_accumulation_steps 8 \
    --num_train_epochs 20 \
    --learning_rate 1e-5 \
    --do_train \
    --do_eval \
    --do_export \
    --export_model_dir ./checkpoint/model_best \
    --overwrite_output_dir \
    --disable_tqdm True \
    --metric_for_best_model macro_f1 \
    --load_best_model_at_end  True \
    --save_total_limit 1 \
    --save_plm

eval_loss: 0.3148668706417084, eval_micro_f1: 0.9848484848484849, eval_macro_f1: 0.9504132231404958, eval_runtime: 0.0757, eval_samples_per_second: 79.286, eval_steps_per_second: 39.643, epoch: 19.6957

[2023-04-13 17:02:45,941] [INFO] -   epoch                    =    19.6957
[2023-04-13 17:02:45,941] [INFO] -   train_loss               =     0.9758
[2023-04-13 17:02:45,942] [INFO] -   train_runtime            = 0:00:45.91
[2023-04-13 17:02:45,942] [INFO] -   train_samples_per_second =     19.602
[2023-04-13 17:02:45,942] [INFO] -   train_steps_per_second   =      0.871

二分类时须要留神的问题

ModuleNotFoundError: No module named ‘fast_tokenizer’

装置一下 fast tokenizer
pip install --upgrade fast_tokenizer

开启 single_label 时须要将运行脚本中的 metric_for_best_model 参数改为 accuracy

metric_value = metrics[metric_to_check]
KeyError: 'eval_macro_f1'

如果在 GPU 环境中应用，能够指定 gpus 参数进行多卡训练：

# !python -u -m paddle.distributed.launch --gpus "0,1,2,3" run_train.py \
#     --device gpu \
#     --logging_steps 10 \
#     --save_steps 10 \
#     --eval_steps 10 \
#     --seed 1000 \
#     --model_name_or_path utc-base \
#     --output_dir ./checkpoint/model_best \
#     --dataset_path ./data/ \
#     --max_seq_length 512  \
#     --per_device_train_batch_size 2 \
#     --per_device_eval_batch_size 2 \
#     --gradient_accumulation_steps 8 \
#     --num_train_epochs 20 \
#     --learning_rate 1e-5 \
#     --do_train \
#     --do_eval \
#     --do_export \
#     --export_model_dir ./checkpoint/model_best \
#     --overwrite_output_dir \
#     --disable_tqdm True \
#     --metric_for_best_model macro_f1 \
#     --load_best_model_at_end  True \
#     --save_total_limit 1 \
#     --save_plm

该示例代码中因为设置了参数 --do_eval，因而在训练完会主动进行评估。

可配置参数阐明：

single_label: 每条样本是否只预测一个标签。默认为False，示意多标签分类。
device: 训练设施，可抉择 ‘cpu’、’gpu’ 其中的一种；默认为 GPU 训练。
logging_steps: 训练过程中日志打印的距离 steps 数，默认 10。
save_steps: 训练过程中保留模型 checkpoint 的距离 steps 数，默认 100。
eval_steps: 训练过程中保留模型 checkpoint 的距离 steps 数，默认 100。
seed：全局随机种子，默认为 42。
model_name_or_path：进行 few shot 训练应用的预训练模型。默认为 “utc-base”, 可选 ”utc-xbase”, “utc-base”, “utc-medium”, “utc-mini”, “utc-micro”, “utc-nano”, “utc-pico”。
output_dir：必须，模型训练或压缩后保留的模型目录；默认为 None。
dataset_path：数据集文件所在目录；默认为 ./data/。
train_file：训练集后缀；默认为 train.txt。
dev_file：开发集后缀；默认为 dev.txt。
max_seq_len：文本最大切分长度，包含标签的输出超过最大长度时会对输出文本进行主动切分，标签局部不可切分，默认为 512。
per_device_train_batch_size: 用于训练的每个 GPU 外围 /CPU 的 batch 大小，默认为 8。
per_device_eval_batch_size: 用于评估的每个 GPU 外围 /CPU 的 batch 大小，默认为 8。
num_train_epochs: 训练轮次，应用早停法时能够抉择 100；默认为 10。
learning_rate：训练最大学习率，UTC 举荐设置为 1e-5；默认值为 3e-5。
do_train: 是否进行微调训练，设置该参数示意进行微调训练，默认不设置。
do_eval: 是否进行评估，设置该参数示意进行评估，默认不设置。
do_export: 是否进行导出，设置该参数示意进行动态图导出，默认不设置。
export_model_dir: 动态图导出地址，默认为 None。
overwrite_output_dir：如果 True，笼罩输入目录的内容。如果 output_dir 指向检查点目录，则应用它持续训练。
disable_tqdm：是否应用 tqdm 进度条。
metric_for_best_model：最优模型指标, UTC 举荐设置为 macro_f1，默认为 None。
load_best_model_at_end：训练完结后是否加载最优模型，通常与 metric_for_best_model 配合应用，默认为 False。
save_total_limit：如果设置次参数，将限度 checkpoint 的总数。删除旧的 checkpoints 输入目录，默认为 None。
--save_plm：保留模型进行推理部署

通过运行以下命令进行模型评估预测：

!python run_eval.py \
    --model_path ./checkpoint/model_best \
    --test_path ./data/test.txt \
    --per_device_eval_batch_size 16 \
    --max_seq_len 512 \
    --output_dir ./checkpoint_test

测试后果

[2023-04-13 17:06:59,413] [INFO] -   test_loss               =     1.6392
[2023-04-13 17:06:59,413] [INFO] -   test_macro_f1           =     0.8167
[2023-04-13 17:06:59,413] [INFO] -   test_micro_f1           =     0.9394
[2023-04-13 17:06:59,413] [INFO] -   test_runtime            = 0:00:00.87
[2023-04-13 17:06:59,413] [INFO] -   test_samples_per_second =      6.835
[2023-04-13 17:06:59,413] [INFO] -   test_steps_per_second   =      1.139

可配置参数阐明：

model_path: 进行评估的模型文件夹门路，门路下需蕴含模型权重文件 model_state.pdparams 及配置文件model_config.json。
test_path: 进行评估的测试集文件。
per_device_eval_batch_size: 批处理大小，请联合机器状况进行调整，默认为 16。
max_seq_len: 文本最大切分长度，输出超过最大长度时会对输出文本进行主动切分，默认为 512。
single_label: 每条样本是否只预测一个标签。默认为False，示意多标签分类。

paddlenlp.Taskflow装载定制模型，通过 task_path 指定模型权重文件的门路，门路下须要蕴含训练好的模型权重文件model_state.pdparams。

!pip install onnxruntime-gpu onnx onnxconverter-common
!pip install paddle2onnx
#如果呈现这个报错 local variable 'paddle2onnx' referenced before assignment，请装置上述库 onnx 的包须要装置
#中途呈现一些正告能够漠视

from pprint import pprint
from paddlenlp import Taskflow
schema = ["病情诊断", "医治计划", "病因剖析", "指标解读", "就医倡议", "疾病表述", "结果表述", "注意事项", "效用作用", "医疗费用", "其余"]
# my_cls = Taskflow("zero_shot_text_classification", model="utc-base", schema=schema, task_path='/home/aistudio/checkpoint/model_best/plm', precision="fp16")
my_cls = Taskflow("zero_shot_text_classification", model="utc-base", schema=schema, task_path='/home/aistudio/checkpoint/model_best/plm')
#反对 FP16 半精度推理减速, 须要装置 onnx
pprint(my_cls(["老年斑为什么都长在面部和手背上","老成都市哪家内痔医院比拟好怎么样最好？","中性粒细胞比率偏低"]))

[2023-04-14 11:45:11,057] [INFO] - We are using <class 'paddlenlp.transformers.ernie.tokenizer.ErnieTokenizer'> to load 'utc-base'.
[2023-04-14 11:45:11,059] [INFO] - Already cached /home/aistudio/.paddlenlp/models/utc-base/utc_base_vocab.txt
[2023-04-14 11:45:11,083] [INFO] - tokenizer config file saved in /home/aistudio/.paddlenlp/models/utc-base/tokenizer_config.json
[2023-04-14 11:45:11,085] [INFO] - Special tokens file saved in /home/aistudio/.paddlenlp/models/utc-base/special_tokens_map.json
[2023-04-14 11:45:11,088] [INFO] - Assigning ['[O-MASK]'] to the additional_special_tokens key of the tokenizer


[{'predictions': [{'label': '病因剖析', 'score': 0.7360146263899581}],
  'text_a': '老年斑为什么都长在面部和手背上'},
 {'predictions': [{'label': '就医倡议', 'score': 0.9940570944549809}],
  'text_a': '老成都市哪家内痔医院比拟好怎么样最好？'},
 {'predictions': [{'label': '指标解读', 'score': 0.6683004187689248}],
  'text_a': '中性粒细胞比率偏低'}]

from pprint import pprint
from paddlenlp import Taskflow
schema = ["病情诊断", "医治计划", "病因剖析", "指标解读", "就医倡议", "疾病表述", "结果表述", "注意事项", "效用作用", "医疗费用", "其余"]
my_cls = Taskflow("zero_shot_text_classification", model="utc-base", schema=schema)
pprint(my_cls(["老年斑为什么都长在面部和手背上","老成都市哪家内痔医院比拟好怎么样最好？","中性粒细胞比率偏低"]))

[2023-04-14 11:45:20,869] [INFO] - We are using <class 'paddlenlp.transformers.ernie.tokenizer.ErnieTokenizer'> to load 'utc-base'.
[2023-04-14 11:45:20,872] [INFO] - Already cached /home/aistudio/.paddlenlp/models/utc-base/utc_base_vocab.txt
[2023-04-14 11:45:20,897] [INFO] - tokenizer config file saved in /home/aistudio/.paddlenlp/models/utc-base/tokenizer_config.json
[2023-04-14 11:45:20,900] [INFO] - Special tokens file saved in /home/aistudio/.paddlenlp/models/utc-base/special_tokens_map.json
[2023-04-14 11:45:20,903] [INFO] - Assigning ['[O-MASK]'] to the additional_special_tokens key of the tokenizer


[{'predictions': [], 'text_a': '老年斑为什么都长在面部和手背上'},
 {'predictions': [{'label': '就医倡议', 'score': 0.9283481315032535},
                  {'label': '其余', 'score': 0.5083715719139965}],
  'text_a': '老成都市哪家内痔医院比拟好怎么样最好？'},
 {'predictions': [{'label': '其余', 'score': 0.9437889944553786}],
  'text_a': '中性粒细胞比率偏低'}]

模型	文本	预测后果	评估得分
utc-base	老年斑为什么都长在面部和手背上	空	—
utc-base	老成都市哪家内痔医院比拟好怎么样最好？	就医倡议 / 其余	0.92/0.51
utc-base	中性粒细胞比率偏低	其余	0.94
utc-base+ 微调	老年斑为什么都长在面部和手背上	病因剖析	0.73
utc-base+ 微调	老成都市哪家内痔医院比拟好怎么样最好？	就医倡议	0.99
utc-base+ 微调	中性粒细胞比率偏低	指标解读	0.66

显著能够看到在通过样本训练后，在 test 测试的后果小样本本微调的后果显著晋升

Micro F1 更关注整个数据集的性能，而 Macro F1 更关注每个类别的性能。

医疗用意分类数据集 KUAKE-QIC 验证集 zero-shot 试验指标和小样本下训练比照：

| | Macro F1 | Micro F1 | 微调后 Macro F1 | 微调后 Micro F1 |
| :——–: | :——–: | :——–: | :——–: | :——–: |
| utc-xbase | 66.30 | 89.67 | | |
| utc-base | 64.13 | 89.06 |81.67（+17.54）|93.94（+4.88）|
| utc-medium | 69.62 | 89.15 || |
| utc-micro | 60.31 | 79.14 || |
| utc-mini | 65.82 | 89.82 || |
| utc-nano | 62.03 | 80.92 || |
| utc-pico | 53.63 | 83.57 || |

其余模型就不一一验证了，感兴趣同学自行验证。

目前 UTC 模型提供基于多种部署形式，包含基于 FastDeploy 的本地 Python 部署以及 PaddleNLP SimpleServing 的服务化部署。

以下示例展现如何基于 FastDeploy 库实现 UTC 模型实现通用文本分类工作的 Python 预测部署，可通过命令行参数 --device 以及 --backend 指定运行在不同的硬件以及推理引擎后端，并应用 --model_dir 参数指定运行的模型。模型目录为 application/zero_shot_text_classification/checkpoint/model_best（用户可按理论状况设置）。

在部署前，参考 FastDeploy SDK 装置文档装置 FastDeploy Python SDK。

本目录下提供 infer.py 疾速实现在 CPU/GPU 的通用文本分类工作的 Python 部署示例。

依赖装置

间接执行以下命令装置部署示例的依赖。

# 装置 fast_tokenizer 以及 GPU 版本 fastdeploy
pip install fast-tokenizer-python fastdeploy-gpu-python -f https://www.paddlepaddle.org.cn/whl/fastdeploy.html

以下示例展现如何基于 FastDeploy 库实现 UTC 模型进行文本分类工作的 Python 预测部署，可通过命令行参数 --device 以及 --backend 指定运行在不同的硬件以及推理引擎后端，并应用 --model_dir 参数指定运行的模型，具体参数设置可查看上面 [参数阐明])。示例中的模型是依照 [UTC 训练文档] 导出失去的部署模型，其模型目录为 application/zero_shot_text_classification/checkpoint/model_best（用户可按理论状况设置）。

# CPU 推理
python /home/aistudio/deploy/python/infer.py--model_dir /home/aistudio/checkpoint/model_best --device cpu
# GPU 推理
python /home/aistudio/deploy/python/infer.py --model_dir /home/aistudio/checkpoint/model_best --device gpu

运行实现后返回的后果如下：

参数阐明

参数	参数阐明
–model_dir	指定部署模型的目录，
–batch_size	输出的 batch size，默认为 1
–max_length	最大序列长度，默认为 128
–num_omask_tokens	最大标签数量，默认为 64
–device	运行的设施，可选范畴: [‘cpu’, ‘gpu’]，默认为 ’cpu’
–device_id	运行设施的 id。默认为 0。
–cpu_threads	当应用 cpu 推理时，指定推理的 cpu 线程数，默认为 1。
–backend	反对的推理后端，可选范畴: [‘onnx_runtime’, ‘paddle’, ‘tensorrt’, ‘paddle_tensorrt’]，默认为 ’paddle’
–use_fp16	是否应用 FP16 模式进行推理。应用 tensorrt 和 paddle_tensorrt 后端时可开启，默认为 False

FastDeploy 高阶用法

FastDeploy 在 Python 端上，提供 fastdeploy.RuntimeOption.use_xxx() 以及 fastdeploy.RuntimeOption.use_xxx_backend() 接口反对开发者抉择不同的硬件、不同的推理引擎进行部署。在不同的硬件上部署 UTC 模型，须要抉择硬件所反对的推理引擎进行部署，下表展现如何在不同的硬件上抉择可用的推理引擎部署 UTC 模型。

符号阐明: (1) ✅: 曾经反对; (2) ❔: 正在进行中; (3) N/A: 暂不反对;

硬件	硬件对应的接口	可用的推理引擎	推理引擎对应的接口	是否反对 Paddle 新格局量化模型	是否反对 FP16 模式
CPU	use_cpu()	Paddle Inference	use_paddle_infer_backend()	✅	N/A
CPU	use_cpu()	ONNX Runtime	use_ort_backend()	✅	N/A
GPU	use_gpu()	Paddle Inference	use_paddle_infer_backend()	✅	N/A
		ONNX Runtime	use_ort_backend()	✅	❔
		Paddle TensorRT	use_paddle_infer_backend() + paddle_infer_option.enable_trt = True	✅	✅
		TensorRT	use_trt_backend()	✅	✅
昆仑芯 XPU	use_kunlunxin()	Paddle Lite	use_paddle_lite_backend()	N/A	✅
华为昇腾	use_ascend()	Paddle Lite	use_paddle_lite_backend()	❔	✅
Graphcore IPU	use_ipu()	Paddle Inference	use_paddle_infer_backend()	❔	N/A

# !pip install --user fast-tokenizer-python fastdeploy-gpu-python -f https://www.paddlepaddle.org.cn/whl/fastdeploy.html
#比拟大 1.4G 去终端装置

在 notebook 执行呈现问题，可能须要本地对 fastdeploy 利用调试，或者有小伙伴解决了能够再评论区发表一下，一起解决。

在 studio 目前显示是装置胜利了，然而初始化是失败的

  File "/home/aistudio/.data/webide/pip/lib/python3.7/site-packages/fastdeploy/c_lib_wrap.py", line 166, in <module>
    raise RuntimeError("FastDeploy initalized failed!")
RuntimeError: FastDeploy initalized failed!

在本地测试模型应用了 utc-pico，cpu 状况下调试。

成果如下:

记得批改 infer 文件对应的预测内容

    predictor = Predictor(args, schema=["病情诊断", "医治计划", "病因剖析", "指标解读", "就医倡议", "疾病表述", "结果表述", "注意事项", "效用作用", "医疗费用", "其余"])
    results = predictor.predict(["月经期间刮痧拔罐会引起身材什么","老年斑为什么都长在面部和手背上","成都市哪家内痔医院比拟好怎么样最好？","中性粒细胞比率偏低"])

推理：模型目录须要蕴含：model.pdmodel 等文件

在 UTC 的服务化能力中咱们提供基于 PaddleNLP SimpleServing 来搭建服务化能力，通过几行代码即可搭建服务化部署能力。

环境筹备

应用有 SimpleServing 性能的 PaddleNLP 版本(或者最新的 develop 版本)

pip install paddlenlp >= 2.5.0

Server 服务启动

进入文件以后所在门路

paddlenlp server server:app --workers 1 --host 0.0.0.0 --port 8190

Client 申请启动

python client.py

服务化自定义参数
- Server 自定义参数
- schema 替换

# Default schema
schema = ["病情诊断", "医治计划", "病因剖析", "指标解读", "就医倡议", "疾病表述", "结果表述", "注意事项", "效用作用", "医疗费用", "其余"]

* 设置模型门路

# Default task_path
utc = Taskflow("zero_shot_text_classification", model="utc-base", task_path="../../checkpoint/model_best/plm", schema=schema)

* 多卡服务化预测

PaddleNLP SimpleServing 反对多卡负载平衡预测，次要在服务化注册的时候，注册两个 Taskflow 的 task 即可，上面是示例代码

utc1 = Taskflow("zero_shot_text_classification", model="utc-base", task_path="../../checkpoint/model_best", schema=schema)
utc2 = Taskflow("zero_shot_text_classification", model="utc-base", task_path="../../checkpoint/model_best", schema=schema)
service.register_taskflow("taskflow/utc", [utc1, utc2])

更多配置

from paddlenlp import Taskflow
schema = ["病情诊断", "医治计划", "病因剖析", "指标解读", "就医倡议", "疾病表述", "结果表述", "注意事项", "效用作用", "医疗费用", "其余"]
utc = Taskflow("zero_shot_text_classification",
                   schema=schema,
                   model="utc-base",
                   max_seq_len=512,
                   batch_size=1,
                   pred_threshold=0.5,
                   precision="fp32")

schema：定义工作标签候选汇合。
model：抉择工作应用的模型，默认为utc-base, 可选有utc-xbase, utc-base, utc-medium, utc-micro, utc-mini, utc-nano, utc-pico。
max_seq_len：最长输出长度，包含所有标签的长度，默认为 512。
batch_size：批处理大小，请联合机器状况进行调整，默认为 1。
pred_threshold：模型对标签预测的概率在 0～1 之间，返回后果去掉小于这个阈值的后果，默认为 0.5。
precision：抉择模型精度，默认为 fp32，可选有fp16 和fp32。fp16推理速度更快。如果抉择 fp16，请先确保机器正确装置 NVIDIA 相关驱动和根底软件， 确保 CUDA>=11.2，cuDNN>=8.1.1，首次应用需依照提醒装置相干依赖。其次，须要确保 GPU 设施的 CUDA 计算能力（CUDA Compute Capability）大于 7.0，典型的设施包含 V100、T4、A10、A100、GTX 20 系列和 30 系列显卡等。更多对于 CUDA Compute Capability 和精度反对状况请参考 NVIDIA 文档：GPU 硬件与反对精度对照表。
- Client 自定义参数

# Changed to input texts you wanted
texts = ["中性粒细胞比率偏低"]

%cd /home/aistudio/deploy/simple_serving
!paddlenlp server server:app --workers 1 --host 0.0.0.0 --port 8190
#Error loading ASGI app. Could not import module "server".
#去终端执行即可

/home/aistudio/deploy/simple_serving
[2023-04-13 18:26:51,839] [INFO] - starting to PaddleNLP SimpleServer...
[2023-04-13 18:26:51,840] [INFO] - The PaddleNLP SimpleServer is starting, backend component uvicorn arguments as follows:
[2023-04-13 18:26:51,840] [INFO] -    the starting argument [host]=0.0.0.0
[2023-04-13 18:26:51,840] [INFO] -    the starting argument [port]=8190
[2023-04-13 18:26:51,840] [INFO] -    the starting argument [log_level]=None
[2023-04-13 18:26:51,840] [INFO] -    the starting argument [workers]=1
[2023-04-13 18:26:51,840] [INFO] -    the starting argument [limit_concurrency]=None
[2023-04-13 18:26:51,840] [INFO] -    the starting argument [limit_max_requests]=None
[2023-04-13 18:26:51,840] [INFO] -    the starting argument [timeout_keep_alive]=15
[2023-04-13 18:26:51,840] [INFO] -    the starting argument [app_dir]=/home/aistudio/deploy/simple_serving
[2023-04-13 18:26:51,840] [INFO] -    the starting argument [reload]=False
[2023-04-13 18:26:52,037] [INFO] - We are using <class 'paddlenlp.transformers.ernie.tokenizer.ErnieTokenizer'> to load 'utc-base'.
[2023-04-13 18:26:52,038] [INFO] - Already cached /home/aistudio/.paddlenlp/models/utc-base/utc_base_vocab.txt
[2023-04-13 18:26:52,067] [INFO] - tokenizer config file saved in /home/aistudio/.paddlenlp/models/utc-base/tokenizer_config.json
[2023-04-13 18:26:52,067] [INFO] - Special tokens file saved in /home/aistudio/.paddlenlp/models/utc-base/special_tokens_map.json
[2023-04-13 18:26:52,069] [INFO] - Assigning ['[O-MASK]'] to the additional_special_tokens key of the tokenizer
[2023-04-13 18:26:55,628] [INFO] -    Taskflow  request [path]=/taskflow/utc is genereated.
INFO:     Started server process [1718]
INFO:     Waiting for application startup.
INFO:     Application startup complete.
INFO:     Uvicorn running on http://0.0.0.0:8190 (Press CTRL+C to quit)
^C
INFO:     Shutting down
INFO:     Waiting for application shutdown.
INFO:     Application shutdown complete.
INFO:     Finished server process [1718]

在 notebook 如果不行，能够间接进入终端进行调试，须要留神的是要在同一个门路下不然会报错

# Save at server.py
from paddlenlp import SimpleServer, Taskflow

schema = ["病情诊断", "医治计划", "病因剖析", "指标解读", "就医倡议"]
utc = Taskflow("zero_shot_text_classification",
               model="utc-base",
               schema=schema,
               task_path="/home/aistudio/checkpoint/model_best/plm",
               precision="fp32")
app = SimpleServer()
app.register_taskflow("taskflow/utc", utc)

# %cd /home/aistudio/deploy/simple_serving
!python client.py

https://blog.csdn.net/sinat_39620217/article/details/130237035

原文文末含码源以及地址

Macro F1 和 Micro F1 都是评估分类模型性能的指标，然而它们计算形式不同。

Macro F1 是每个类别的 F1 值的平均值，不思考类别的样本数。它实用于数据集中各个类别的样本数量相近的状况下，能够更好地反映每个类别的性能。
Micro F1 是所有类别的 F1 值的加权均匀，其中权重为每个类别的样本数。它将所有类别的预测后果汇总为一个混同矩阵，并计算出整个数据集的准确率、召回率和 F1 值。Micro F1 实用于多分类问题，尤其是在数据集不均衡的状况下，能够更好地反映整体的性能。

总之，Micro F1 更关注整个数据集的性能，而 Macro F1 更关注每个类别的性能。

医疗用意分类数据集 KUAKE-QIC 验证集 zero-shot 试验指标和小样本下训练比照：

## 6.1 更多任务适配

PaddleNLP 联合文心 ERNIE，基于 UTC 技术开源了首个面向通用文本分类的产业级技术计划。对于简略工作，通过调用 paddlenlp.Taskflow API，仅用三行代码即可实现零样本（Zero-shot）通用文本分类，可反对情感剖析、用意辨认、语义匹配、蕴含推理等各种可转换为分类问题的 NLU 工作。仅应用一个模型即可同时反对多个工作，便捷高效！

from pprint import pprint
from paddlenlp import Taskflow
# 情感剖析
cls = Taskflow("zero_shot_text_classification", schema=["这是一条好评", "这是一条差评"])
cls("房间洁净亮堂，十分不错")
>>>
[{'predictions': [{'label': '这是一条好评', 'score': 0.9695149765679986}], 
'text_a': '房间洁净亮堂，十分不错'}]

# 用意辨认
schema = ["病情诊断", "医治计划", "病因剖析", "指标解读", "就医倡议", "疾病表述", "结果表述", "注意事项", "效用作用", "医疗费用", "其余"]
pprint(cls("先天性厚甲症去哪里治"))
>>>
[{'predictions': [{'label': '就医倡议', 'score': 0.9628814210597645}], 
'text_a': '先天性厚甲症去哪里治'}]

# 语义类似度
cls = Taskflow("zero_shot_text_classification", schema=["不同", "雷同"])
pprint(cls([["怎么查看合同", "从哪里能够看到合同"], ["为什么始终没有电话来确认借款信息", "为何我还款了，明天却接到客服电话告诉"]]))
>>>
[{'predictions': [{'label': '雷同', 'score': 0.9775065319076257}],
'text_a': '怎么查看合同',
'text_b': '从哪里能够看到合同'},
 {'predictions': [{'label': '不同', 'score': 0.9918983379165037}],
'text_a': '为什么始终没有电话来确认借款信息',
'text_b': '为何我还款了，明天却接到客服电话告诉'}]

# 蕴含推理
cls = Taskflow("zero_shot_text_classification", schema=["中立", "蕴含", "矛盾"])
pprint(cls([["一个骑自行车的人正沿着一条城市街道朝一座有时钟的塔走去。", "骑自行车的人正朝钟楼走去。"],
          ["一个留着长发和胡须的怪人，在地铁里衣着一件色彩娇艳的衬衫。", "这件衬衫是新的。"],
          ["一个衣着绿色衬衫的妈妈和一个穿全黑衣服的男人在跳舞。", "两人都衣着红色裤子。"]]))
>>>
[{'predictions': [{'label': '蕴含', 'score': 0.9944843058584897}], 
'text_a': '一个骑自行车的人正沿着一条城市街道朝一座有时钟的塔走去。',
'text_b': '骑自行车的人正朝钟楼走去。'},
 {'predictions': [{'label': '中立', 'score': 0.6659998351201399}], 
'text_a': '一个留着长发和胡须的怪人，在地铁里衣着一件色彩娇艳的衬衫。',
'text_b': '这件衬衫是新的。'},
 {'predictions': [{'label': '矛盾', 'score': 0.9270557883904931}], 
'text_a': '一个衣着绿色衬衫的妈妈和一个穿全黑衣服的男人在跳舞。',
'text_b': '两人都衣着红色裤子。'}]

本文参加了 SegmentFault 思否写作挑战赛，欢送正在浏览的你也退出。

关于challenge:零样本文本分类应用基于UTC的医疗意图多分类打通数据标注模型训练模型调优预测部署全流程

零样本文本分类利用：基于 UTC 的医疗用意多分类，买通数据标注 - 模型训练 - 模型调优 - 预测部署全流程。

1. 通用文本分类技术 UTC 介绍

1.1 分类落地面临难度

1.2 UTC 亮点

1.2.1 多任务对立建模

1.2.2 零样本分类和小样本迁徙能力强

1.3 UTC 技术思路

2. 文本分类工作 Label Studio 教程

2.1 Label Studio 装置

2.2 文本分类工作标注

2.2.1 我的项目创立

2.2.2 标签构建

2.2.3 工作标注

2.2.4 数据导出

3. 数据转换

4. 模型训练预测

4.1 模型微调

4.1.1 单卡训练

4.1.2 多卡训练

4.2 模型评估

4.3 模型预测

4.3.1 预测后果比照

4.3.2 各个模型见比照

5. 模型部署

5.1 FastDeploy UTC 模型 Python 部署示例

5.2 SimpleServing 的服务化部署

6. 总结

原我的项目链接：