关于人工智能:案例-利用-Hugging-Face-进行复杂文本分类

51次阅读

共计 3038 个字符,预计需要花费 8 分钟才能阅读完成。

Witty 与 Hugging Face 专家减速打算的胜利案例

如果你对如何更快构建 ML 解决方案感兴趣,请拜访 专家减速打算 登陆页面并通过 填写表单 分割咱们!

业务背景

随着 IT 技术一直地在倒退并重塑咱们的世界,在行业内发明一个更加多样化和包容性的环境势在必行。旨在应答这一挑战,Witty Works 于 2018 年成立了。Witty Works 起初是一家为组织提供多元化倡议的征询公司,次要帮忙这些组织应用包容性语言撰写招聘广告。为了进一步拓展这项工作,Witty Works 在 2019 年构建了一个网络应用程序,以帮忙用户用英语、法语和德语编写包容性的招聘广告。其写作助手能够作为浏览器扩大程序应用,从而迅速扩充了应用范畴,人们可不便用它来主动修复和解释电子邮件、Linkedin 帖子、招聘广告等内容中的潜在偏见。该程序为外部和内部沟通提供了一种解决方案,通过一种循序渐进形式,高亮出有偏见的词语和短语并解释其存在的潜在偏见,从而促成文化改革。

首次试验

Witty Works 起初抉择了一种根底的机器学习办法来从头开始构建他们的助手。对预训练的 spaCy 模型进行迁徙学习,通过此办法,助手能够:

  • 剖析文本并将单词转换为词干,
  • 进行语言学剖析,
  • 从文本中提取语言学特色 (复数和复数模式、性别)、词性标签 (代词、动词、名词、形容词等)、词依存标签、命名实体辨认等。
    通过应用语言学特色并用特定知识库来检测和过滤所有单词,助手能够高亮非包容性词汇并实时倡议代替计划。

挑战

Witty Works 建设了一个词汇表,其中德语和英语两种语言各有大概 2300 个非包容性的词汇和短语。上述根底办法对 85% 的词汇无效,但对上下文相干的词汇有效。因而,须要构建一个上下文相干的非包容性词分类器。这样的挑战 (了解上下文而不是仅辨认语言学特色) 使得应用 Hugging Face transformers 变得必要。

上下文相干的非包容性词示例:

  • Fossil fuels are not renewable resources.He is an old fossil. 两句中的 fossil
  • You will have a flexible schedule.You should keep your schedule flexible. 两句中的 flexible

Hugging Face 专家打算 提供的解决方案

获取如何正确抉择 ML 办法的领导

最后抉择的办法是应用根本版 transformers 模型 (用于提取特定非包容性词的嵌入)。Hugging Face 专家建议从上下文相干的词嵌入切换到上下文相干的句子嵌入。在该办法中,句子中每个词的示意取决于其上下文。

Hugging Face 专家建议应用 Sentence Transformers 架构为整个句子生成嵌入。应用该办法,语义类似的句子间的间隔小,而语义差距大的句子间的间隔也大。

在该办法中,Sentence Transformers 应用 Siamese 网络和三元组网络结构来批改预训练的 transformer 模型,以生成“语义上有意义”的句子嵌入。

生成的句子嵌入作为基于 KNN 或逻辑回归的经典分类器的输出,以构建上下文相干的非包容性词分类器。

“咱们依据每个词的句内上下文生成上下文相干的嵌入向量 (BERT 嵌入)。而后,咱们只保留“指标”词元的嵌入,计算最小角度 (余弦类似度)”

—— Witty Works 首席数据科学家 Elena Nazarenko

要微调一个基于根本版 transformers 的分类器 (例如简略的 BERT 模型),Witty Works 须要大量标注数据。每个类别的指标词都须要数百个样本。然而,这样的正文过程既低廉又耗时,Witty Works 无奈接受。

获取如何正确抉择 ML 库的领导

Hugging Face 专家建议应用 Sentence Transformers Fine-tuning 库 (又名 SetFit),这是一个对 Sentence Transformers 模型进行少样本微调的无效框架。联合比照学习和语义句子类似度,SetFit 在标注数据很少的文本分类工作上实现了高精度。

“用于文本分类工作的 SetFit 是一个值得增加到 ML 工具箱中的好工具。”

—— Hugging Face 的首席布道官 Julien Simon

Witty Works 团队发现每个特定词汇只需 15-20 个标注句子,精度就足够了。

“最终,因为不须要创立一个大型标注数据集,咱们节俭了工夫和金钱。”

—— Witty Works 首席数据科学家 Elena Nazarenko

缩小句子数对于确保模型训练疾速和高效至关重要。同时,出于另一个起因,这也是必要的: Witty Works 采纳了一个清晰的、高度受监督的、基于规定的办法来 踊跃治理偏见。缩小句子数对于缩小人工审核训练集中句子的工作量十分重要。

获取如何正确抉择 ML 模型的领导

Witty Works 面临的一个次要挑战是模型部署后须要达到低提早。没有人能容忍期待 3 分钟能力取得改良文本的倡议!Hugging Face 和 Witty Works 单方均试验了多个 sentence transformer 模型,最终抉择了 mpnet-base-v2,将其与逻辑回归和 KNN 联合应用。

在 Google Colab 上进行首次测试后,Hugging Face 专家领导 Witty Works 在 Azure 上部署该模型。因为模型自身曾经足够快,因而无需额定的优化。

“与 Hugging Face 单干为咱们节俭了大量工夫和金钱。

在施行简单的文本分类用例时,人们可能会感到迷茫。

因为它是最受欢迎的工作之一,因而 Hub 上有很多模型。

Hugging Face 专家领导我从大量基于 transformer 的模型中抉择出最合适的模型。

另外,模型部署过程中我也失去了很好的反对。”

—— Witty Works 首席数据科学家 Elena Nazarenko

后果和论断

训练集中句子的数量从每个单词 100-200 个缩小到每个单词 15-20 个。Witty Works 最终取得了 0.92 的准确度,并以起码的 DevOps 工作量胜利地在 Azure 上部署了自定义模型!

“单独从事 IT 我的项目可能具备挑战性,即便是做一个尝鲜版 (Early Access Product, EAP) 对初创企业来说是一项很大的投资,Hugging Face 专家打算是一个便宜且有意义的获取陪练和领导的路径。”

—— Lukas Kahwe Smith 首席技术官兼 Witty Works 联结创始人

在 Hugging Face 专家的领导下,Witty Works 以 Hugging Face 的形式施行了新的 ML 工作流程,节俭了工夫和金钱。

“Hugging Face 式的工作流建设法:

找到开源的预训练模型,

立刻评估它们,

看看哪些无效,哪些有效。

通过迭代,你上手新货色会更快”

—— Hugging Face 的首席布道官 Julien Simon

🤗 如果你或你的团队有趣味通过 Hugging Face 专家打算减速你的 ML 路线图,请拜访 hf.co/support 理解更多信息。


英文原文: https://hf.co/blog/classification-use-cases

原文作者: Julien Simon,Violette Lepercq,Florent Gbelidji,Elena Nazarenko,Lukas Kahwe Smith

译者: Matrix Yao (姚伟峰),英特尔深度学习工程师,工作方向为 transformer-family 模型在各模态数据上的利用及大规模模型的训练推理。

审校 / 排版: zhongdongy (阿东)

正文完
 0