关于算法:SOTA效果一键预测PaddleNLP带你玩转11类NLP任务

2次阅读

共计 1957 个字符,预计需要花费 5 分钟才能阅读完成。

2021 年 10 月,PaddleNLP 聚合泛滥百度自然语言解决畛域自研算法以及社区开源模型,并凭借飞桨外围框架的能力降级凋谢了开箱即用、极致优化的高性能 一键预测性能,备受开发者青睐。开源一年以来,团队精耕细作,一直公布适宜产业界利用的模型、场景、预测减速与部署能力,在 GitHub 和 Papers With Code 等平台上继续失去开发者的关注。

近日,PaddleNLP 中 月均模型下载量 1.9w 一键预测 性能全新降级!带来更丰盛的性能、更强的成果、更便捷的应用形式!咱们一起来看看吧。

更丰盛的性能

  • 全场景反对

笼罩 NLU(Natural Language Understanding,自然语言了解)和 NLG(Natural LanguageGeneration,自然语言生成)畛域十一大经典工作:中文分词、词性标注、命名实体辨认、句法分析、中文常识标注、文本纠错、文本类似度、情感剖析、生成式问答、智能写诗、凋谢域对话。

  • 文档级输出

首个反对文档级输出的开箱即用 NLP 工具,解决预训练模型对输出文本的长度限度问题,大大节俭用户输出长文本时的代码开发量。

  • 定制化训练

除间接预测外,还反对应用本人的数据集,进行定制化训练。传入模型自定义门路后,仍可应用一键预测能力。

产业级成果

PaddleNLP 一方面聚合了百度在语言与常识畛域多年的业务积淀和当先的开源成绩,如词法剖析工具 LAC、句法分析工具 DDParser、情感剖析零碎 Senta、文心 ERNIE 系列家族模型、凋谢域对话预训练模型 PLATO、文本常识关联框架解语等;另一方面也涵盖了开源社区优良的中文预训练模型如 CPM 等。试验证实,PaddleNLP 在成果上全面当先同类开源产品。

  • 分词

集成 jieba、LAC 分词工具,重磅推出基于解语(首个笼罩中文全词类的知识库——百科知识树及常识标注框架)的分词模式:实体粒度分词精度更高,语义片段残缺,在常识图谱构建等利用中劣势显著

以下面这句话为例,PaddleNLP 善于精准切分实体词如“北京冬奥会”、开掘畛域新词如“自由式滑雪”等。在开源数据集上对模型成果进行评测,分词效果显著优于同类工具。

备注:该表格列出的指标是各个工具在不同数据集上进行模型微调训练后得出,这是因为目前分词后果并没有对立的规范,比方 WEIBO 数据集将『总冠军』作为一个残缺的单词,而 MSR 数据集会切分为『总 冠军』,通过微调训练使得各个工具可在同一个分词规范下进行比拟。

  • 命名实体辨认

两种模式:

1️⃣基于百度词法剖析工具 LAC 的疾速模式:训练语料蕴含近 2200 万句子,笼罩多种畛域;

2️⃣基于百度解语的准确模式:具备最全中文实体标签的命名实体辨认工具,不仅实用于通用畛域,也实用于生物医疗、教育等垂类畛域。蕴含 66 种词性及专名类别标签(同类产品的标签数是 15 个左右)。

PaddleNLP 准确模式下的实体标签丰盛,且对局部类目做了更细的划分,有利于进行精准信息抽取、构建常识图谱、撑持企业搜寻等利用。例如上图例子中,『北京冬奥会』被辨认为『文化类_奖项赛事流动』,而非『nz』(其余专名),能够和其余『文化类』实体无效辨别开来;『自由式滑雪』也被残缺辨认为『事件类』实体。

在通用和垂类畛域的开源数据集上比拟 PaddleNLP 与其余工具的专名辨认成果,PaddleNLP 疾速模式和精准模式成果均远超同类工具,如下左图所示:

备注:在垂类畛域,从金融、法律、经济畛域中随机选取 100 条样本,人工评估准确模式成果,如上右图所示,PaddleNLP 的实体抽取效果显著优于同类工具(Good:代表 PaddleNLP 更优)。

  • 依存句法分析

基于已知最大规模中文依存句法树库(蕴含近 100 万句子)研发的依存句法分析工具,蕴含 SBV(主谓关系)、VOB(动宾关系)等 14 种标注关系:

  • 情感剖析

集成百度自研的 情感常识加强预训练模型 SKEP,利用情感常识构建预训练指标, 在海量中文数据上进行预训练,为各类情感剖析工作提供对立且弱小的情感语义示意能力。

  • 文本类似度

收集百度晓得 2200 万对类似句组,基于 SimBERT[1] 训练文本类似度模型,在多个数据集上达到了当先成果。

  • 文本纠错

ERNIE-CSC 在 ERNIE 预训练模型的根底上, 交融了拼音特色的端到端中文拼写纠错模型,在 SIGHAN 数据集上获得了 SOTA 的成果。

  • 首个中文多轮凋谢域对话预测接口;反对生成式问答、写诗等趣味利用。

凋谢域对话应用的 PLATO-MINI 模型在十亿级别的中文对话数据上进行了预训练,闲聊场景对话效果显著。

生成式问答、写诗基于开源社区优良中文预训练模型 CPM [2],参数规模 26 亿,预训练中文数据达 100GB。

简捷易用

通过调用 PaddleNLP 的 Taskflow API,传入工作名称即可主动抉择最优的预置模型,并且以极致优化的形式实现推理。

正文完
 0