最近尝试利用HuggingFace的transformers库在pytorch下进行Bert文本分类的微调,找了很多中文blog,次要是对数据的解决这块没有比拟具体的阐明,不晓得怎么解决dataset的格局,因而在这里做一下记录。
依赖包
pytorch
transformers
scikit-learn
预训练模型加载
预训练模型加载这块HuggingFace在transformers库中封装得十分好,没什么太多要讲的:
args.pretrain 这里填写模型名称或者你本人筹备好的预训练模型,各种预训练模型能够从https://huggingface.co/models查找和下载,须要蕴含三个文件(config.json、vocab.txt、pytorch_model.bin)。此处以Bert为例,筹备bert-base-chinese模型,args.pretrain 为寄存模型三个文件的门路。
因为上游工作是文本分类工作,因而model应用transformer.BertForSequenceClassification,也能够依据须要抉择其余模型。
from from transformers import BertForSequenceClassification, BertTokenizerFasttokenizer = BertTokenizerFast.from_pretrained(args.pretrain)model = BertForSequenceClassification.from_pretrained(args.pretrain, num_labels=2, output_hidden_states=False)
模型微调
模型微调这里应用transformers封装好的Trainer模块,参数含意基本上都比拟高深莫测,这里设置了早停、依据precision加载最佳模型。值得注意的是在模型保留时会保留多个checkpoint,因而evaluation_strategy、save_total_limit要设置一下免得保留过程中爆硬盘,Bert一个checkpoint保留下来差不多要1GB……
from transformers import Trainer, TrainingArguments, EarlyStoppingCallbackfrom sklearn.metrics import classification_report, precision_score, \ recall_score, f1_score, accuracy_score, precision_recall_fscore_supportdef compute_metrics(pred): labels = pred.label_ids preds = pred.predictions.argmax(-1) precision, recall, f1, _ = precision_recall_fscore_support(labels, preds, average='binary') acc = accuracy_score(labels, preds) return { 'accuracy': acc, 'f1': f1, 'precision': precision, 'recall': recall }training_args = TrainingArguments( output_dir=args.save_path, # 存储后果文件的目录 overwrite_output_dir=True, num_train_epochs=args.epoch, per_device_train_batch_size=args.batch_size, per_device_eval_batch_size=args.batch_size, learning_rate=1e-5, eval_steps=500, load_best_model_at_end=True, metric_for_best_model="precision", # 最初载入最优模型的评判规范,这里选用precision最高的那个模型参数 weight_decay=0.01, warmup_steps=500, evaluation_strategy="steps", # 这里设置每100个batch做一次评估,也能够为“epoch”,也就是每个epoch进行一次 logging_strategy="steps", save_strategy='steps', logging_steps=100, save_total_limit=3, seed=2021, logging_dir=args.logging_dir # 存储logs的目录 )trainer = Trainer( model=model, args=training_args, train_dataset=train_set, eval_dataset=valid_set, tokenizer=tokenizer, compute_metrics=compute_metrics, callbacks=[EarlyStoppingCallback(early_stopping_patience=3)], # 早停Callback )
数据预处理
终于要说一下数据预处理阶段了,为什么最先进行的操作要放在最初讲呢?因为读者敌人可能也发现了,transformers封装得十分好,以至于整个pipeline中须要进行自定义的就是数据预处理这块。其实也非常简单,你须要在创立 Trainer
的时候传入train_dataset
和 eval_dataset
,这两个数据集的类型都是torch.utils.data.Dataset
,PyTorch的 Dataset 解决详见另一篇文章。那么这里须要对 __getitem__
办法进行一些批改,使其返回一个dict,外面有蕴含Bert输出所需的元素。
Talk is cheap,this is the code:
from torch.utils.data import Datasetclass MyDataset(Dataset): def __init__(self, file, tokenizer, max_len=512): assert os.path.exists(file) data = open(file, 'r', encoding='utf-8').read().strip().split('\n') texts = [x.split('\t')[0][:max_len-2] for x in data] labels = [int(x.split('\t')[1]) for x in data] self.encodings = tokenizer(texts, padding=True, truncation=True, return_tensors='pt') self.labels = torch.tensor(labels) def __getitem__(self, idx): item = {key: val[idx] for key, val in self.encodings.items()} item['labels'] = self.labels[idx] return item def __len__(self): return len(self.labels)
假如数据格式为“text\tlabel”,即文本和标签两头用制表符\t隔开,每行一条数据,形如:
我的幻想是星辰大海 1
雄心万丈躺在床上 0
在 __init__
初始化办法中读入数据,之后截断至最大设置长度max_len
(因为tokenizer
会主动补上[CLS]
和[SEP]
,因而这里须要对最大长度做-2解决。对字符串宰割出文本与标签后,应用tokenizer(texts, padding=True, truncation=True, return_tensors='pt')
失去Bert所须要的输出encoding(transformers.BatchEncoding
对象,encoding.data
蕴含了'input_ids'
,'token_type_ids'
,'attention_mask'
三个张量对象,通常状况下在微调工作中不须要进行额定解决),之后将标签转为张量对象就根本实现了数据集初始化流程。
比拟要害的是__getitem__
办法的解决,这里须要返回一个dict
对象,外面须要蕴含input_ids, token_tpye_ids, attention_mask, labels
四个key(以Bert为例,其余模型可能会有稍许不同,留神这里尽管是单条数据,然而标签的key称为“labels”),而后返回该dict
对象即可(即代码示例中的item
。
开始训练!
最初一步,开始训练!静静期待模型训练完即可。
trainer.train()
代码示例
还没有push到GitHub下来,后续改。
Reference
Fine-tuning pretrained NLP models with Huggingface’s Trainer