关于paddle:通用信息抽取技术UIE产业案例解析Prompt范式落地经验分享

4次阅读

共计 2386 个字符,预计需要花费 6 分钟才能阅读完成。

想理解用户的评估到底是“真心夸赞”还是“阴阳怪气”?
想疾速从多角色多事件的繁冗信息中剥茧抽丝提取核心内容?
想通过聚合类似事件精确地演绎出特色标签?
……
想理解 UIE 技术在产业中的实战落地教训?通用信息抽取技术 UIE 产业案例分享来了!

近期 Prompt 范式备受关注。实际上,Prompt 思维在产业界曾经有了一些胜利的利用案例。由中科院软件所和百度独特提出了大一统诸多工作的通用信息抽取技术 UIE(Universal Information Extraction)。基于 Prompt 思维,将心愿抽取的 Schema 信息转换成“线索词”(Schema-based Prompt)作为模型输出的前缀,使得模型实践上可能适应不同畛域和工作的 Schema 信息,并按需抽取出线索词指向的后果,从而实现凋谢域环境下的通用信息抽取。在实体、关系、事件和情感等 4 个信息抽取工作、13 个数据集的全监督、低资源和少样本设置下,UIE 均获得了 SOTA 性能。

截止目前,UIE 系列模型已公布 UIE、UIE-X、UIE-senta 三大模型,凭借其弱小的 零样本与小样本能力、多任务对立建模能力,成为业界在信息抽取、情感剖析等工作上的首选计划。

  • 2022 年 5 月,飞桨自然语言解决模型库 PaddleNLP 联合文心大模型中的常识加强 NLP 大模型 ERNIE 3.0,施展 UIE 在中文工作上的弱小后劲,推出首个面向通用信息抽取的产业级技术计划。
  • 2022 年 11 月,UIE 新增文档信息抽取能力——UIE-X,OCR、版面剖析、跨模态文档信息抽取能力一应俱全。UIE- X 基于文心 ERNIE-Layout 跨模态布局加强预训练模型,集成了 PaddleOCR 的 PP-OCR、PP-Structure 版面剖析等当先能力。
  • 2022 年 12 月,PaddleNLP 以 UIE 为训练底座,在大量情感剖析数据集上进一步训练,加强了模型对于情感常识的解决能力,推出基于 UIE 的情感剖析计划(下表简写 UIE-senta)[6],笼罩句子级情感极性分类、属性抽取、观点抽取、属性级情感极性分类等多项情感工作,且解决了属性聚合和隐性观点抽取难题,并提供情感剖析后果可视化能力。

图:UIE 系列模型介绍

来自 云南能投财务服务有限公司 黑蚁资本 的两位讲师将带来精彩课程,解析 UIE 技术在多畛域的利用场景,分享落地实战经验。

2 月 28 日、3 月 1 日,飞桨直播间、B 站直播间,两场连播,不见不散!

课程介绍

2 月 28 日

课程名称

【金融】简单单据信息抽取——财务零碎智能化

主讲人

钟榆星 | 云南能投财务服务有限公司

课程内容

财务管理是企业治理的重要组成部分,财务人员经常须要将业务单据表格中的数据通过人工填制到财务零碎里,这往往费时费力,且容易产生谬误。云南能投财务服务有限公司(以下简称云南能投),成立于 2020 年 4 月,是云南省能源投资团体有限公司全资子公司。为无效撑持团体财务管控落地执行,起到反对团体国际化倒退、战略决策的作用,云南能投技术支持部利用 PaddleNLP 提供的文档信息抽取全流程解决方案,开发了 基于 UIE- X 的表格信息抽取计划,实现简单构造表格的关系型抽取,帮忙业务、财务将罕用表格疾速导入业务零碎,取代人工手录,高效推动了财务共享智能提单业务的疾速落地。

图:云南能投基于 UIE- X 开发了表格信息抽取计划

3 月 1 日

课程名称

【批发】客户意见洞察促成生产品牌经营转型

主讲人

Jeru | 黑蚁资本

课程内容

黑蚁资本,是一家深耕生产畛域投资的企业,成立之初就信心让“投后服务”成为机构的外围能力之一,而“数字化”正是黑蚁服务被投企业的重要内容。随着餐饮行业进入线上线下、堂食外卖并重的“双主场”时代,面对铺天盖地的用户评论数据,如何用数字化伎俩优化经营成为餐饮企业降本增效的要害。为了帮忙被投企业晋升评估数据的解决效率,黑蚁投后数字化团队 基于 UIE 开发了用户评论洞察零碎,帮忙品牌高效深刻理解用户反馈,主动抽取出高价值信息,实现量化统计分析,从而升高经营老本,优化产品和服务,晋升市场竞争力。

图:黑蚁资本基于 UIE 开发了用户评论洞察零碎

技术拓展——文心大模型

随着数据井喷、算法提高和算力冲破,成果好、泛化能力强、通用性强的预训练大模型(以下简称“大模型”),成为人工智能倒退的要害方向与人工智能产业利用的根底底座。

文心大模型源于产业、服务于产业,是产业级常识加强大模型,涵盖根底大模型、工作大模型、行业大模型,大模型总量达 36 个,并构建了业界规模最大的产业大模型体系。文心大模型配套了丰盛的工具与平台层,包含大模型开发套件、API 以及内置文心大模型能力的 EasyDL 和 BML 开发平台。 百度通过大模型与国产深度学习框架交融倒退,打造了自主翻新的 AI 底座,大幅升高了 AI 开发和利用的门槛,满足实在场景中的利用需要,真正施展大模型驱动 AI 规模化利用的产业价值。

从技术研发到落地利用,大模型的倒退曾经进入产业落地的关键期,欢送返回文心大模型官网理解详情。

  • 文心大模型官网

https://wenxin.baidu.com/

相干我的项目

  • PaddleNLP GitHub 地址

https://github.com/PaddlePadd…

  • PaddleNLP Gitee 地址

https://gitee.com/paddlepaddl…

参考

[1]Unified Structure Generation for Universal Information Extraction

[2]https://github.com/PaddlePadd…

[3]https://github.com/PaddlePadd…

[4]https://github.com/PaddlePadd…

[5]https://github.com/PaddlePadd…

[6]https://github.com/PaddlePadd…

正文完
 0