关于知识图谱:知识中台驱动产业智能化升级

6次阅读

共计 6691 个字符,预计需要花费 17 分钟才能阅读完成。

随着人工智能技术的提高,智能化成为产业转型降级的要害抓手,但企业在晋升数字化和智能化程度的实际过程中,面临多种挑战,如:挪动利用的遍及,带来异构数据呈几何级数增长,企业须要深度开掘数据价值以赋能业务,以及传统 IT 零碎不足智能化的技术手段,难以无效撑持企业开掘、组织、治理和使用常识的须要等。

企业急需建设全新的信息和常识解决平台,以智能化的伎俩推动数据转换为常识,撑持企业翻新业务的疾速落地和迭代。

2021 年 12 月,在以“常识中台驱动产业智能化降级”为主题的 2021 云智技术论坛 - 常识智能化专场上,多位百度专家独特探讨企业该如何通过构建全新的常识智能化体系,打造以常识为外围的竞争劣势,来重塑将来倒退格局。

01 百度智能云常识中台,助力企业减速智能化降级

百度技术委员会主席吴华示意,“智能化是产业转型降级的重要抓手,现在人工智能、大数据、5G 等技术在产业智能化降级中扮演着越来越重要的角色。企业要实现智能化降级,不仅须要数据,更须要数据中蕴含的信息和常识,因而企业常识智能化解决方案变得尤为重要。”

产业智能化是数字经济倒退的新阶段,深刻开掘产业数据价值,从海量数据中提取常识,实现智能化的利用,是产业智能化的必由之路。在这个过程中,面临以下四大挑战:

1、数据海量

企业在数字化的过程中,产生体量微小的数据,且数据规模一直极速增长,传统 IT 架构已无奈应答。

2、数据状态简单

企业存在大量的隐性常识,其专业性强、结构化水平低,行业数据出现复杂化、多模化发展,这将给数据处理和常识开掘带来微小挑战。

3、数据利用率低

企业外部数据分布在不同的业务零碎中,出现碎片化、孤岛化的特点,存在大量冗余和乐音。传统的数据处理技术难以对这些数据和信息进行语义化的了解,导致数据的利用率低下。

4、利用多态

企业外部利用和业务零碎纷繁复杂,传统的常识治理面临老本高、效率低、体验差等问题,常识利用不足系统化的能力。

为应答上述挑战,帮忙企业实现智能化降级,百度智能云公布常识中台解决方案。该计划基于百度常识图谱、自然语言解决、跨模态内容了解等核心技术,提供面向企业常识利用全生命周期的一站式解决方案,笼罩企业的常识生产、常识组织、常识利用的全流程外围能力。百度智能云常识中台可通过利用组件、标准化产品、定制化服务、集成化计划等多种灵便的形式对外输入,助力企业高效生产常识,灵便组织常识,智能利用常识,全面晋升企业运行效率和决策的智能化程度。

02 百度智能云常识中台背地的技术撑持
百度智能云常识中台助力企业智能化降级的背地,离不开百度弱小的 AI 技术支持,如常识图谱、自然语言解决、常识加强的跨模态内容了解、面向多模态的简单常识开掘,以及常识加强的场景子图推理等。

1、常识图谱

百度常识图谱通过近 10 年的倒退,打造从通用到行业的常识图谱残缺技术体系,构建了业界规模最大的多源异构常识图谱,目前领有 5500 亿常识的多源异构超大规模常识图谱,除了根底的由实体、属性、关系形成的通用常识图谱,还针对不同利用场景和常识状态,构建了事件图谱、多模态图谱、行业常识图谱等多种图谱。通过继续获取和积攒常识,认知能力和智能化程度一直降级,从而能够更好地撑持不同的利用场景。

为了解决行业利用中最初一公里的问题,百度智能云从架构机制、策略算法到平台流程进行全面的降级和优化,构建高效可迁徙的行业常识图谱平台。该平台劣势有:一是专业性强,面向业余简单常识,实现基于超图的常识表白;二是效率高,反对低资源的学习机制,通过人机协同的形式,绝对传统人工构建形式,效率晋升百倍以上;三是可迁移性,实现从通用到行业,跨行业的多层次迁徙学习,目前已笼罩一百多个行业场景。

2、自然语言解决

百度研发了世界一流的语义了解、语言生成、智能问答、智能对话、机器翻译等自然语言解决技术。2021 年百度智能云公布“常识加强大模型”文心 ERNIE 3.0,该模型基于深度学习平台飞桨的分布式训练技术,首次在百亿级参数预训练模型中引入大规模常识图谱,一举刷新 54 个中文 NLP 工作基准,并在寰球权威榜单“SuperGLUE”上排名第一。

3、常识加强的跨模态内容了解

百度自研常识加强的跨模态深度语义了解技术,通过常识关联跨模态信息,解决不同模态语义空间交融示意的难题,冲破了跨模态语义了解的瓶颈,让机器像人类一样,通过语言、听觉和视觉等取得对真实世界的对立认知,实现对简单场景的了解。

4、面向多模态的简单常识开掘

在常识开掘层,针对行业多态输出数据,百度智能云常识中台基于 Prompt Learning 技术,对实体关系和事件等信息抽取进行对立建模和多任务训练,利用畛域语言模型中蕴含的大量常识,使得模型具备良好的零样本迁徙和小样本学习的能力,除了传统的本体以及简略的 SPO 三元组外,还可开掘时序类、因果类、流程类等简单常识。并针对从常识体系的设计到零碎落地部署的全副流程,常识中台提供全链条按需定制工具,高效反对跨行业、跨场景的常识开掘需要。

5、常识加强的场景子图推理

在常识中台的利用中存在大量的推理场景,因而除了推理的后果准确性要求外,后果的可解释性尤为要害。另外,行业场景须要随着情境的变动做间断推理,这对推理过程的逻辑性、一致性带来微小的挑战。针对这些难题,百度智能云常识中台将数据与常识驱动相结合,独创常识加强的场景子图推理,使用子图来刻画情境,使后果更可解释、逻辑性和间断一致性。

基于以上弱小 AI 技术加持,百度智能云常识中台帮忙企业便捷地从数据提炼常识,通过搜寻、问答、推理、可视化等形式高效地将常识利用,将扩散在企业各处的常识进行集约化治理,起到凝练常识、赋能业务、助力企业晋升智能化程度的作用。

03 揭秘百度智能云常识中台的机制
百度智能云 AI 产品业务部解决方案总监楚畅示意,企业数据知识化转型建设过程需经验数据治理、常识生产、常识组织、常识利用、常识经营环节。从整体来看,还可分成常识的生产、使用和经营等三大阶段。

作为企业常识智能化中枢,百度智能云常识中台解决方案打造了数据接入、常识生产、常识组织、智能利用、经营治理模块。

第一个环节是数据接入,百度智能云常识中台反对通过 API 形式或直连形式对接企业现有的数据平台、数据库、文档零碎等数据源,来获取包含结构化、半结构化和非结构化等多源异构数据信息。应用灵便可配置的调度工具,反对一次性全量数据导入、分批分时配置导入数据、实时在线逐条读取数据。数据接入后,零碎会对数据进行适配、加工、转换和散发等操作,造成常识体系。百度智能云常识中台反对单日十亿级数据吞吐量,可同时对接百万级数据源,做到数据分钟级的更新。

接入数据后,在常识生产环节中将接入数据加工成为各种各样的常识体系。百度智能云常识中台提供七大常识生产方式:常识图谱、问答常识、全文常识、标签常识、事件常识、多模态常识、因果常识生产等形式。

1、常识图谱生产

传统常识图谱生产由业务专家采纳自上而下的形式对某业务畛域的实体、属性、关系进行抽取和建模,造成 Schema 体系。百度智能云的智能常识图谱的生产,通过人机联合和算法驱动的形式,用 AI 算法模型来驱动和训练,可从企业积淀的数据或文档里抽取生成初步的 Schema 体系,再联合业务专家进行大量的人工审阅、调整,可大幅晋升图谱构建的效率。

百度智能云的常识图谱生产,一方面可大幅晋升常识图谱的构建效率,另一方面是有时候业务专家没有思考到的属性和实体,能够通过零碎主动获取,无效实现细节补充,确保整个图谱构建后果更加欠缺和迷信。比方在传统本体构建环节,靠传统形式由专家梳理整个常识体系与本体体系,周期需几周甚至大几周;而采纳人机联合与算法驱动的形式,只需几天就能构建实现整个常识与本体体系。

2、问答常识生产

问答常识生产是通过零碎主动到数据源中产生一系列的问答对,即问题和答案。将这种问答对作为常识的一种状态,存储在利用平台中,用于后续问答场景。

问答常识生产可细分为三种形式,一是将企业事后筹备好的问答对保留在文档里,再导入到平台中;二是企业提供原始文档资料,零碎主动用人工智能模型从资料里挖掘出可能的问答对,再联合人工查看来生成问答常识。三是浏览了解式问答,这是百度的在线实时浏览了解式问答生成技术,区别于前两种问答常识生产方式,做到在用户真正具体提出问题、搜寻答案时,通过语义剖析来了解问题,在线输入匹配答案。

3、全文常识生产

全文常识生产次要用于全文检索类场景。区别于传统全文检索形式,全文常识生产在数据导入阶段,除了能够生成传统的倒排索引外,还能够基于行业业余词汇训练行业相干 AI 模型,用模型从导入的数据源中提取信息,生成语义索引。在具体检索环节,传统全文检索形式是通过匹配文本关键字,去检索相干信息。而智能化全文常识生产,联合语义索引、文本相关性、倒排索引等,生成根底排序,再综合根底排序和文档的时间性、品质剖析等指标,以及百度智能云在行业畛域长期积攒的词库,产生准确排序后果,即“精排后果”,从而得出最终搜寻后果。全文常识生产方式使得基于文本匹配的传统搜寻形式,进化为基于语义搜寻的智能化形式。

4、标签常识生产

标签常识生产的第一个阶段是标签提取和优化,通过训练人工智能模型对样本数据标注,训练出相干人工智能的语义模型,后续 AI 模型从数据源里主动地抽取出标签,欠缺标签体系。第二阶段是基于标签体系做场景化利用。除了独自利用标签常识做分类外,还可联合上述常识图谱等的生产方式,更深度做个性化举荐操作。

5、事件常识生产

事件常识生产一般来说是从网页爬虫抓取事件新闻,再由训练好的 AI 模型和剖析技术,从获取的事件内容里做语义剖析,提取出与事件相干的实体信息、论元角色,从而构建出事件的关系脉络体系,后续从该脉络体系进行事件脉络的搜寻、情报分析、智能写作等利用。

6、多模常识生产

多模常识生产是综合使用视频了解、图像分类、指标检测、语音辨认、OCR 辨认等多种人工智能技术,从视频中进行图像、声音、字幕等常识剖析,进行常识了解、情景了解,构建出常识子图、结构化语义信息,用于后续场景化利用。

7、因果常识生产

因果常识生产是基于因果法则剖析的智能辅助预测形式,通过“导致”“因为”“因而”等因果关系的词汇来开掘上下文内容,再进行语义剖析了解,造成多层次的因果传导关系,便于后续做辅助预测。基于该体系,进行某些场景化利用如剖析股价上涨因果传导过程、电网断电后续影响等。

通过上述的七大常识生产方式,生产出不同品种的常识后,通过图谱链接,造成对立组织状态的有序组织体系,服务于企业搜寻、智能知识库、智能举荐、智能客服、智能文档剖析以及如流等通用型利用,全方位满足企业对常识利用的需要。

此外,在常识经营环节里,楚畅倡议应做好以下工作:一是内容经营,引入更多生态内容来补充整个常识体系;二是用户经营,通过话题探讨、推广流动来激励和沉闷用户让被动参加到这个常识体系里。三是功能完善,咱们在后续应用过程中一直迭代演进平台,建设 AI 模型训练、优化成果、进行策略迭代演进等。

04 百度智能云常识中台,助力行业智能化利用实际
目前,百度智能云常识中台在能源、医疗、金融、电信、媒体、政务等行业领有丰盛实际和落地利用,助力企业提质增效。

在能源行业,基于我国双碳指标下,为推动企业生产过程智能化,培养新型生产方式,全面晋升企业生产、治理和服务的智能化程度,百度智能云与国能(绥中)发电有限责任公司独特提出,用常识图谱对企业赋能,提供针对性解决方案。最终在常识图谱的技术加持下,买通了资金流、物料流、事件流等流程之间的阻碍壁垒,建设不同零碎之间的数据关联,全方面、全过程、全场景的对生产经营业务进行刻画剖析,为作业成本法等财务比对剖析提供帮忙。其次,开掘沉没的历史信息,欠缺岗位责任及与之对应的相干常识,建设合乎特定单位治理需要的岗位常识管理体系,辅助实现上岗培训等人力资源管理业务。并建设智能办公网络系统,实现了常识智能举荐、数据即搜即得,进步企业办公效率。

在金融畛域,百度智能云常识中台帮忙某大型商业银行优化手机银行搜寻,基于精排搜寻和常识图谱,丰盛手机银行的搜寻场景,晋升手机银行的搜寻准确度,优化用户体验。帮助用户通过搜寻实现常识获取、精准交易辅助等性能,检测问题账户准确度达 97% 以上,满足多业务场景的需要。另外,基于百度当先的图计算和图数据库技术,帮忙银行企业构建图推理引擎的金融风控系统。

在法律畛域,百度智能云常识中台为上海某法院搭建智能庭审零碎,无效提取争议因素,演绎诉求关键点,推演案件要害情景,精确 95%+。基于案情语义的类案举荐,涵盖 2800 万判决书,案情类似度 97%+。庭审资料结构化出现,可解释推理量刑,庭审效率晋升 3~10 倍。

在医疗畛域,百度智能云常识中台通过辅助诊断等常识使用形式来服务于智慧医疗,实现数据与常识双擎驱动,提供智慧医疗解决方案。我的项目服务数超万名医生,触达 27 个省市、300 多家医院和 1500+ 家基层医疗机构,惠及患者数超过千万,累计服务人次 2500 万 +。

05 AI+ 常识治理,开启智能工作新时代
后疫情时代,宏观经济模式巨变,企业适应变动须要变得更麻利、可继续,企业须要更智能的新工作模式。因而百度提出了以“AI+ 常识治理”驱动工作形式智能化改革的新理念,激发企业创新能力,晋升企业外围竞争力。

基于“AI+ 常识治理”理念,百度研发了新一代智能工作平台——如流。据百度智能办公平台部主任架构师和为示意,如流在百度智能云、百度 AI 中台和常识中台的撑持下,通过弱小的 AI 和常识治理技术,深度赋能企业工作的各个环节。其外围是通信流、工作流和常识流三大板块。通信流聚焦人与人之间触手可得的连贯,外围产品是即时通信和智能会议;工作流主打高效协同,外围产品是千人千面的智能工作台、工作卡和企业一站式利用核心;常识流的外围产品是智能知识库、对立搜寻和智能举荐等。

在如流的帮忙下,企业的常识通过常识发明、常识积淀、常识流动和常识利用的环节,造成闭环,让企业的常识高效流转。以常识发明为例,如流通过一系列 AI 技术重塑了会议的全流程。在散会前,AI 助手主动协调参会人的工夫,节约沟通老本;在会议中,通过实时语音辨认技术将会议语音转化成文字,AI 技术自动识别出哪些是要害信息并标记;在会后,主动提取会议纪要,帮忙人们总结会议待办工作,并智能分发给相干的人。岂但会议全流程变得更高效,更重要的是,整个会议过程变得可积淀、可回溯,会议成为常识发明的典型场景。

在常识积淀方面,如流的智能知识库,领有多人实时协同编辑的在线文档和企业网盘等根底能力。同时,部门知识库产品,反对以组织为根本单元实现常识的有序积淀。此外,通过对知识库文档的深度语义了解,如流能够主动地把企业的员工、我的项目、会议、OKR 等各种实体有序关联起来,造成宏大的企业常识图谱。基于图谱能够推导实体间的关联关系,计算语义间隔。

在常识流动方面,如流的常识星链产品,能够在会话沟通、文档合作中疾速散发常识卡片,使企业常识在工作场景中高效流转,随时随地连贯员工与常识。

以智能工作平台如流为根底,可帮忙企业实现工作模式的智能化降级。在 AI 技术的赋能下,通信信息、工作和常识高效流动,无缝交融,员工能效迅速晋升。同时,企业常识有序积淀、疾速流转,赋能并放慢业务翻新速度。

06 百度医疗常识中台,推动医疗行业智能化降级
在本次大会上,百度携手毕马威等合作伙伴重磅公布《医疗常识中台白皮书》,并邀请中华医学会杂志社领导缺席公布典礼。医疗常识中台,可能帮忙医疗机构、医疗从业人员、医疗衰弱产业机构等获取权威业余的医疗常识,满足疾速搭建场景化利用的须要,帮忙医疗行业智能化降级。

百度医疗常识中台是遵循医疗逻辑的智能化开放平台,具备凋谢智能的医疗常识加工能力和开箱即用的医疗常识服务能力。同时专一于医学知识的生产、组织建设,通过根底工具抽取经典权威的医学教科书、专家共识、临床指南、门路规定规范等医学知识,通过加工后造成机器可辨认的标准化医学知识,对外提供智能化医疗常识服务。百度医疗常识中台可作为医疗行业智能化降级的要害抓手,助力医疗行业倒退。


医疗常识中台白皮书下载入口

作为企业将数据知识化、实现智能利用的中枢,百度智能云常识中台以科技翻新促成产业翻新,一直赋能金融、能源、医疗、媒体、政务等各行各业。期待在不久的未来,百度智能云可能携手更多合作伙伴,用常识中台助力更多行业实现智能化降级。

还想理解更多百度智能云常识中台前沿资讯?拜访链接,观看精彩回顾:
https://cloud.baidu.com/techd…

正文完
 0