关于paddle:数链科技用飞桨和文心大模型打造大宗商品数字供应链系统提升行业透明度及标准化

2次阅读

共计 3897 个字符,预计需要花费 10 分钟才能阅读完成。

大宗商品行业市场规模微小、关系国计民生,它的三个外围类别——能源商品、根底原材料、农副产品均在我国经济倒退过程中起着无足轻重的作用。这其中,大宗商品供应链的顺畅运行和稳固倒退对整个产业链的运作至关重要。

然而传统大宗商品供应链普遍存在 交易环节不通明 业务流程不规范 两大问题:贸易链条中各个节点的信息互不相通,各自造成了信息孤岛;贸易流程中的合同、发票、货物品质、资金流转、税务等环节往往难以严格依照相干规范和规定执行,且广泛依赖人工解决交易信息。这两大问题导致了各环节信息无奈穿插验证、信息流通效率低下,不仅制约了大宗商品供应链降级提效,而且行业造假、欺诈事件频频产生,重大影响行业倒退。

数链科技,一家致力于用人工智能等先进科技伎俩实现大宗商品实时交易数字化的公司,基于飞桨文字辨认开发套件 PaddleOCR、自然语言解决模型库 PaddleNLP,开发了 大宗商品数字供应链智能辨认与管理系统。聚焦线下单据辨认场景难题,基于 PaddleNLP 的通用信息抽取模型 UIE-X(以文档智能大模型文心 ERNIE-Layout 为模型底座,ERNIE-Layout 创新性引入布局常识加强,在多个文档问答榜单登顶,为各类下层利用提供了 SOTA 模型底座),通过实现非标单据的辨认及关键字段提取,破除大宗商品供应链环节信息壁垒,欠缺零碎数据品质的同时显著进步了交易效率。

以非标单据数字化为切入点,破除“不通明、不规范”信息壁垒

基于对大宗商品行业的粗浅认知及对行业供应链的痛点洞察,数链科技团队敏锐地意识到,要让大宗商品交易实现降级提效,首先要让所有交易信息实现高效精准的数字化。

“传统的大宗商品供应链中,比方物流票据、合同之类的交易信息,都以实物模式存在,须要人工拍照、存档,而后人工进行信息录入。一旦呈现问题,也须要人工审查、回溯图片信息。”数链科技总裁助理张越介绍,“而各个企业的单据规范经常不一样,也就是存在大量线下非标单据,这就导致人工录入单据和追溯复查的难度极大。于是咱们心愿可能找到一种形式,先晋升非标单据数字化的效率,而后以此为切入点,推动行业的整体数字化降级。人工智能技术,就是咱们的最优选。”

联合业务流程,数链科技技术团队将实现非标单据数字化的眼光锁定在文字辨认与信息抽取畛域。然而团队调研后发现,尽管市场上曾经存在文字辨认技术供应商,但鲜少有针对于大宗商品供应链开发的解决方案。大宗供应链各环节都须要大量的线下表单来记录商品及其运输、交易信息。然而,企业与企业之间的单据款式存在较大差别,没有行业统一标准,而且往往机打单据与手写单据并存。不仅如此,大宗商品与其余普通商品不同,商品记录中存在大量日常生产生存中不罕用的特殊字符。市场上的计划模型广泛不足针对特殊字符等行业数据的训练,且难以反对多种非标表单的精确辨认和信息抽取归类,导致信息辨认效率低,无奈满足以后业务的需要。

传统非标单据示例:不同企业的汽运磅单另一方面,洽购内部供应商的产品也不足灵活性,系统升级革新须要破费大量工夫与供应商对接调校,遇到供应商人力无奈反对时,更会重大影响投入使用的进度。因而,自研一种高效灵便的产品,成为团队事不宜迟。

飞桨技术 + 生态,助力非标单据辨认效率晋升 20 倍

最终,团队抉择基于飞桨文字辨认开发套件 PaddleOCR 和自然语言解决模型库 PaddleNLP 和通用信息抽取模型 UIE-X 发展自研我的项目。通过 PaddleOCR 提供的丰盛实用的工具库,训练针对大宗供应链非标单据辨认模型,并通过 PaddleNLP 调用 UIE-X 的根底上,应用本人的数据集进行微调,极大升高训练开发成本。整体技术计划能够演绎为如下步骤:

  • 充沛调研业务单据的类型,依据已有的海量的样本,明确须要提取的要害信息,设定提取的关键字规定;
  • 基于 PaddleOCR、PaddleNLP、UIE-X 进行模型剖析,开发相应的关键字抽取规定;
  • 通过数据标注、模型评估进行模型训练,通过业务反馈进行规定优化。

研发流程示意图

在文字辨认过程中,传统的光学字符识别过程为:图像预处理(彩色图像灰度化、二值化解决、图像变动角度检测、改正解决等)、版面划分(直线检测、歪斜检测)、字符定位切分、字符识别、版面复原、后处理、校对等。应用飞桨文字辨认开发套件 PaddleOCR,首先升高了入门门槛,不须要最根底的光学字符识别实践,其次 PaddleOCR 领有丰盛的组件和公开的文字检测、文字辨认等一系列根底预训练模型,大大降低了 AI 入门难度。对于开发者来说,只需具备肯定的 Python 开发能力即可在开源模型根底上进行测试、调优,最终短时间内实现部署上线。

自然语言解决模型库 PaddleNLP 内的跨模态文档通用信息抽取模型 UIE-X,以文心大模型为根底,在没有业余标注团队的状况下,应用小样本训练,进行定制化开发,大量节俭了标注老本。在此基础上,数链只需筹备几十份合同样本,应用飞桨智能标注 PaddleLabel 进行标注、训练,最终要害信息抽取精度达到 87.5%。

在部署过程中,PaddleOCR 反对 HubServing 服务,PaddleNLP 反对 SimpleServing 服务,并且反对半精度推理形式,放慢推理速度,可进行一键部署。还反对 CPU、GPU 多种服务器部署,在测试过程中升高了调试难度。部署过程应用 Docker 一键装置形式,升高了运维部署累赘。
最终,我的项目团队胜利自研出大宗商品数字供应链智能辨认与管理系统,在大宗商品供应链线下单据的辨认场景下,实现了线下非标单据的辨认及关键字段提取,极大进步了人工补录相干单据的效率。本来人工补录线下合同须要 5 分钟,当初只需人工确认后果及局部纠正即可,工夫晋升至 15 秒以内,辨认效率达到原先的 20 倍。

据数链科技介绍,应用该零碎的某企业信息录入人员反馈,每月业务最密集的时候,往往会有集中性的大量非标单据须要录入,通常部门中 3 位共事须要每天全员加班 4 个小时以上。当初通过应用大宗商品数字供应链智能辨认与管理系统,即便是在业务最忙碌的时候,也能够辞别加班,开释出了更多的人力实现更具专业性的经营工作。同时,由原先的人工录入改为机器辨认,也极大减少了数据准确度。原先每季度均匀会遇到 10-15 次信息录入谬误,重大的甚至会造成付款金额谬误,当初则再也没有呈现过。整体晋升了业务水平,让公司倒退更衰弱。

我的项目在大宗供应链典型的表格辨认场景下体现优良。团队从新训练标注表格辨认模型,将单行数据提取以单元格为维度进行改正输入,最终使表格辨认精度从 87% 回升到 98%,大大晋升合同中表格辨认的准确率,对大宗商品业务场景中大量的表格局单据(如财报、铁路大票、发票、磅单、化验凭证等)的信息提取有重大意义。

张越示意,飞桨生态社区的存在也是团队当初抉择飞桨进行开发的一个重要起因:“飞桨社区提供了比拟多的产业范例,例如在图片反欺诈、签名比对等场景带给咱们很多灵感和技术领导,同时还能帮忙咱们及时获取技术在产业利用的最新动静。不仅如此,咱们在研发过程中遇到技术上的问题,也总能及时失去飞桨业余的研发团队和经营团队的相应反对。”
目前,数链科技大宗商品数字供应链智能辨认与管理系统,曾经实现线下合同、铁路大票、汽运磅单等非标单据的自动识别与信息提取,为 1000 余家煤炭、食粮等大宗商品畛域不同规模的供应链企业提供商业化服务。

继续晋升改良,赋能更多中小企业

谈到倒退打算,张越示意,数链科技大宗商品数字供应链智能辨认与管理系统将继续在两个次要方面进行降级拓展。

一是一直晋升 零碎自身的产品力和技术力。一方面继续优化用户应用体验,让零碎不仅“有用”而且“好用”,让更多客户违心应用,独特推动行业数字化转型。另一方面扩大零碎边界,尽可能多地笼罩不同类目大宗商品、不同场景业务需要,提供通用化服务。

二是结合物联网、区块链等技术,构建智慧仓储物联网平台,为大宗产品贸易中多方参加的交易流程提供防篡改、可溯源、具备公信力的 存证记录。从而将供应链数据与金融服务买通,为宽泛的中小型大宗商品供应链企业取得银行贷款等金融服务提供必要帮忙,解决其“融资难、融资贵”的痛点。

“数链科技由具备资深大宗商品行业背景、金融背景、科技背景的高级管理人员发动成立。咱们通过科技利用赋能大宗商品供应链,让大宗商品交易更通明,让中小企业融资更高效、老本更低。”张越介绍,“将来咱们也心愿可能和百度飞桨、文心大模型产生更多的单干,进一步晋升大宗物流供应链流程自动化和智能监控的程度,并通过 AI 技术构建数据挖掘和危险评估模型,帮忙更多中小企业取得金融反对机会。”

引入先进 AI 技术,为行业带来数字智能化转型,破除大宗商品行业“不通明、不规范”的壁垒已成为行业趋势。飞桨和文心大模型也将携手更多供应链服务企业继续助力行业转型降级,摸索人工智能在大宗商品行业的落地门路,发明经济与社会价值。

文章参考

  • PaddleNLP UIE-X

https://github.com/PaddlePaddle/PaddleNLP/tree/develop/applications/information_extraction/document

  • PaddleOCR

https://github.com/PaddlePaddle/Paddleocr

相干浏览

宝武中南钢铁借助飞桨让钢筋超限监控有了“火眼金睛”

长三角生物医药产业减速跑,飞桨螺旋桨为翻新药企、医药技术搭档装上 AI 大模型引擎

利用飞桨技术引领废钢判级行业新格局

银行智能案防:以“AI 技防”堵住违规破绽

实时性升至秒级!飞桨 PaddleSpeech 赋能金融双录业务走向智能化

正文完
 0