共计 1998 个字符,预计需要花费 5 分钟才能阅读完成。
面对日益严格的监管,证券公司本身须要进步融资融券业务的危险管控能力,从而扩充业务规模、升高危险。因而,证券公司须要理解可能影响证券价格较大变动的重要事件,从而进行治理和危险管制等工作。依据监管要求,企业定期或不定期地发布公告信息。作为公司信息披露的次要载体,布告信息可能蕴含事件形容、深度剖析、信息传递等各种价值信息和重要危险信息。
目前该业务是由专人人工解读上市公司公告,撰写每日危险总结报告,然而这项工作 不仅工作量沉重,且准确率与覆盖率有余,难以满足日益增长的数据量以及快节奏的需要变动:
- 材料版面布局多样
布告文本的版面格局涵盖了段落、目录树、表格、图像等多种款式。
- 布告内容差别大
不同品种布告内容差别大,不同行业披露信息差别大,不同公司撰文格调差别大。
- 标注样本稀少
因标注规范简单、专业性强导致的标注老本高,不同类别布告数量差别大,因监管和公司经营状况调整导致的标注时效性难以保障。
金仕达软件科技有限公司利用自然语言解决技术中的信息抽取技术 ERNIE-UIE,打造了上市公司公告信息抽取零碎 ,从上市公司常见的布告文本数据中,提取引起证券价格较大变动的重要事件及要害信息,实现主动提取影响证券价格较大变动的重要事件,为金融业务的发展提供危险管控的根据,并将此过程中积攒的技术与教训推广到证券交易业务、风险管理业务以及客户服务等利用场景。在 PaddleOCR 和 PaddleNLP 的前沿模型的加持下,金融文件文字提取和信息抽取的效果显著: 文档页面导航准确率 100%,信息抽取准确率达到 95%,单篇抽取可在 1 秒内实现。上市公司公告信息抽取零碎节约了 80% 的人工解读工夫,极大晋升了融资融券、反洗钱、操作风险管理业务的效率。
3 月 23 日晚 7:00,金仕达 AI 实验室负责人、高级研究员孙科老师 将做客飞桨直播间,分享 上市公司公告信息抽取 产业落地教训, 更有孙科老师多年 金融 AI 从业教训分享!
01 解决思路
本我的项目中应用了提醒学习来解决小样本问题,在我的项目中引入 PaddleNLP 中的 ERNIE-UIE,通过大规模多任务预训练学习的通用抽取能力,配合基于 Prompt 的信息抽取多任务对立建模形式,能够实现标注大量数据进行微调,即可实现在布告文本信息抽取工作中的工作适配,大大降低标注门槛和老本。 PaddleNLP 中的 ERNIE-UIE 是一个大一统诸多工作的凋谢域信息抽取技术计划:通过构建结构化模式提醒器(SSI,Structural Schema Instructor),ERNIE-UIE 可能对不同的信息抽取指标进行对立编码,从而实现多任务的对立建模。ERNIE-UIE 创始了基于 Prompt 的信息抽取多任务对立建模形式,通过大规模多任务预训练学习的通用抽取能力,能够实现不限定行业畛域和抽取指标,零样本疾速冷启动。简略场景,无需训练数据,即可全副抽取正确。针对简单抽取需要,标注大量数据微调即实现工作适配,大大降低标注门槛和老本。除实体抽取工作外,在金融、医疗、互联网三大自建测试集的关系、事件抽取工作上进行试验,标注少样本也可带来显著的成果晋升,即便模型在某些场景下体现欠佳,人工标几个样本,交给模型后就会有大幅的成果晋升。
上市公司公告信息抽取零碎架构图 ERNIE-UIE 对于数据量更大的类别有更好的预测后果,即便对于少样本,诸如 APER、EPER 和 TPER 等类别,模型仍具备肯定水平的预测能力,体现了 ERNIE-UIE 在小样本学习上的劣势。
ERNIE-UIE 进行实体抽取的成果模型训练实现后,转为推理模型,之后,利用飞桨服务化部署框架 Paddle Serving 不便集成的个性,将布告信息抽取服务疾速部署为线上服务。用户通过 WEB 端拜访业务框架后盾时,即可间接调用智能文档解析服务展现后果。
相干我的项目
- PaddleNLP GitHub 地址
https://github.com/PaddlePaddle/PaddleNLP
- PaddleNLP Gitee 地址
https://gitee.com/paddlepaddle/PaddleNLP
02 技术拓展——文心大模型
随着数据井喷、算法提高和算力冲破,成果好、泛化能力强、通用性强的预训练大模型(以下简称“大模型”),成为人工智能倒退的要害方向与人工智能产业利用的根底底座。
文心大模型源于产业、服务于产业,是产业级常识加强大模型,涵盖根底大模型、工作大模型、行业大模型,大模型总量达 36 个,并构建了业界规模最大的产业大模型体系。文心大模型配套了丰盛的工具与平台层,包含大模型开发套件、API 以及内置文心大模型能力的 EasyDL 和 BML 开发平台。 百度通过大模型与国产深度学习框架交融倒退,打造了自主翻新的 AI 底座,大幅升高了 AI 开发和利用的门槛,满足实在场景中的利用需要,真正施展大模型驱动 AI 规模化利用的产业价值。
从技术研发到落地利用,大模型的倒退曾经进入产业落地的关键期。