关于知识图谱:Paper-Digest-在图上思考基于知识图谱的深度且负责的大语言模型推理

<article class=“article fmt article-content”><p></p><blockquote>笔记整顿:孙硕硕,东南大学硕士,钻研方向为自然语言解决 <br/>链接:https://arxiv.org/abs/2307.07697</blockquote><h2><strong>Part.1 动机</strong></h2><p>本文的动机是大型语言模型在各种工作中获得了较大的提高,但它们往往难以完成简单的推理,并且在常识可追溯性、及时性和准确性等至关重要的状况下体现出较差的性能。</p><p>为了解决这些限度,作者提出了 Think-on-Graph (ToG),这是一个新鲜的框架,它利用常识图谱来加强 LLM 的深度和负责任的推理能力。通过应用 ToG,能够辨认与给定问题相干的实体,并进行摸索和推理以从内部常识数据库中检索相干三元组。</p><p>这个迭代过程生成多个推理门路,由程序连贯的三元组组成,直到收集到足够的信息以答复问题或达到最大深度。通过对简单的多跳推理问答工作的试验,作者证实了 ToG 优于现有办法,无效地解决了 LLM 的上述限度,而不会带来额定的训练老本。</p><h2><strong>Part.2 奉献</strong></h2><p>本文的次要奉献包含: </p><p>1)提出了一种新的框架 ToG,该框架集成了思维推理和常识图谱链来答复常识密集型问题。</p><p>2)ToG框架从类人迭代信息检索中吸取灵感,生成多个高概率推理门路。</p><p>3) 试验结果表明,ToG在不减少训练老本的状况下显著加强了现有的提醒办法,缓解了LLM中的幻觉问题,展现了将LLM与常识图谱集成用于推理工作的后劲。</p><h2><strong>Part.3 办法</strong></h2><p>本文引入了 ToG,这是一种用于图搜寻的新范式,它提醒 LLM 依据给定的查问中的实体摸索多种可能的推理门路。ToG 一直保护问题 x 的 topN 推理门路 p,每条门路由几个三元组 Ti 组成。<strong>ToG 搜寻的整个过程能够分为以下三个步骤:实体获取、摸索和推理。</strong>依据两头步骤的组合,本文提出了两种办法:基于实体的 ToG 和基于关系的 ToG。</p><h3>基于实体的 ToG</h3><p>ToG 首先提醒 LLM 提取问题中的实体并取得每个实体对问题的奉献分数。这与之前将问题合成为子问题的办法不同,ToG 更强调实体。在 ToG 框架中,摸索阶段至关重要,因为它旨在辨认最相干的 top-N 三元组作为给定问题的推理门路中的两头步骤,基于广度优先搜寻。<strong>这一阶段包含两个不同的阶段:关系摸索和实体摸索。</strong>作者采纳两个步骤来生成以后搜寻迭代、搜寻和修剪的关系候选集,LLM主动实现这个过程。关系摸索阶段首先搜寻与以后实体集中每个实体相关联的所有关系。搜寻过程能够通过执行两个简略的预约义模式查问轻松实现,这使得 ToG 在没有任何训练老本的状况下很好地适应不同的 KB。一旦取得了候选集和关系搜寻,就会对查问奉献较低的边进行剪枝,只保留前 N 个边作为以后摸索迭代的终止。能够利用LLM依据给定的问题基于以后实体剪枝,失去与以后关系集,即最相干的top-N关系及其对应的分数。与关系摸索相似,实体摸索依然应用 LLM 主动执行的两个步骤,即搜寻和修剪。在执行上述两种摸索后,能够构建一个综合推理门路,其中每个两头步骤对应于一个程序相干的三元组。在通过摸索过程取得以后推理门路 P 后,提醒 LLM 评估以后推理门路是否足以推断答案。如果评估产生踊跃的后果,对得分进行归一化并提醒 LLM 应用以问题为输出的推理门路生成答案。相同,如果评估产生负面后果,反复摸索和推理步骤,直到评估为正或达到最大搜寻深度。</p><h3>基于关系的 ToG</h3><p>以往的知识库问答办法,特地是那些利用语义解析的办法,次要依赖于基于关系的信息来生成正式查问。实体的文字信息并不总是残缺的,尤其是在对短少实体“名称”一部分的不残缺常识图谱执行查问时,这可能会误导推理。因而,本文提出了基于关系的 ToG,它打消了摸索过程中搜寻两头实体的须要。它利用 LLM 的推理能力为推理过程中的每个链应用不同的候选集来生成答案。这种办法提供了两个要害益处:1)它打消了对摸索实体耗时的过程的需要,从而升高了整体办法老本并显著进步了推理速度。2) 特地是在不残缺的 KB 数据集下,这种办法次要关注关系的语义信息,导致更高的准确性。值得注意的是,这两种办法都遵循相似的管道,但在两头步骤中扩大推理链方面有所不同。与基于实体的 ToG 相比,基于关系的 ToG 只波及关系的摸索和推理,其中推理阶段放弃不变。两种办法之间最显著的区别是以下两种办法:实体汇合中采样的样本是独立同散布的,通过计算几个样本的平均值,能够推导出实体集内关系的平均值。因为两头步骤不波及任何实体,须要依据关系、历史门路和实体汇合取得候选集,其中实体集是固定的。因而,候选实体集作为推理门路中的终端节点。具体算法步骤如表1所示。</p><p></p><p></p><p></p><h2><strong>Part.4 试验</strong></h2><p>本文在常识密集型工作上评估提出的办法,问题须要特定的常识来答复,LLM 在这种工作上常常会遇到幻觉问题。Complex Web Questions (CWQ)是一个用于答复须要对多个三元组进行推理的简单问题的数据集,它蕴含大量自然语言中的简单问题。本文前人工作雷同,应用齐全匹配精度作为评估指标。对于 CWQ 数据集,作者随机抉择 1,000 个样本作为测试集。而后排除了无奈胜利执行 SPARQL 查问和链接到不足“名称”关系答案的实体的样本。最终试验保留了 995 个样本。次要知识库起源是 Freebase。本文将摸索、推理和答案生成的温度设置为 0,以实现可重复性,并将生成的最大token长度设置为 256。本文应用了 ChatGPT API 执行上述过程。对于基线模型,作者应用规范提醒 (IO 提醒) 和思维链提醒 (CoT),其中蕴含 6 个上下文示例和“逐渐”推理链。ToG 在 CWQ 数据集上的性能如表 2 所示。很显著,在仅保留三个推理门路的试验条件下,每条门路的最大长度为 3,ToG(E) 在 CWQ 上的体现优于 CoT 14.86%,ToG(R) 为 17.47%。</p><p></p><h2><strong>Part.5 总结</strong></h2><p>在这项工作中,作者提出了一种新的框架 ToG,该框架集成了思维推理和常识图谱链来答复常识密集型问题。ToG框架从类人迭代信息检索中吸取灵感,生成多个高概率推理门路。试验结果表明,ToG在不减少训练老本的状况下显著加强了现有的提醒办法,缓解了LLM中的幻觉问题,展现了将LLM与常识图谱集成用于推理工作的后劲。</p><p><strong>继续分享 SPG 及 SPG + LLM 双驱架构相干干货及停顿</strong></p><p><strong>官网:</strong>https://spg.openkg.cn/</p><p><strong>Github:</strong>https://github.com/OpenSPG/openspg</p></article> ...

February 29, 2024 · 1 min · jiezi

关于知识图谱:基于-LLM-的知识图谱另类实践

本文整顿自社区用户陈卓见在「夜谈 LLM」主题分享上的演讲,次要包含以下内容: 利用大模型构建常识图谱利用大模型操作结构化数据利用大模型应用工具利用大模型构建常识图谱 上图是之前,我基于大语言模型构建常识图谱的成品图,次要是将金融相干的股票、人物、涨跌幅之类的基金信息抽取进去。之前,咱们要实现这种信息抽取的话,个别是用 Bert + NER 来实现,要用到几千个样本,能力开发出一个成果绝对不错的模型。而到了大语言模型时代,咱们有了 few-shot 和 zero-shot 的能力。 这里交叉下 few-shot 和 zero-shot 的简略介绍,前者是小样本学习,后者是零样本学习,模型借助推理能力,能对未见过的类别进行分类。 因为大语言模型的这种个性,即使你不给模型输出任何样本,它都能将 n+ 做好,出现一个不错的成果。如果你再给模型肯定的例子,进行学习: is_example = { '基金':[ { 'content': '4月21日,易方达基金公司明星基金经理张坤在管的4只基金产品悉数公布了2023年年报' 'answers':{ '基金名称':['易方达优质企业','易方达蓝筹精选'], '基金经理':['张坤'], '基金公司':['易方达基金公司'], '基金规模':['889.42亿元'], '重仓股':['五粮液','茅台'] } } ], '股票':[ { 'content': '国联证券04月23日公布研报称,给予西方财产(300059.SZ,最新价:17.03元)买入评级...' 'answers':{ '股票名称':['西方财产'], '董事长':['其实'], '涨跌幅':['原文中未提及'] } } ]}就能达到上述的成果。有了大语言模型之后,用户对数据的需要会缩小很多,对大多数人而言,你不须要那么多估算去搞数据了,大语言模型就能实现数据的简略抽取,满足你的业务根本需要,再辅助一些规定,就能够。 而这些大语言模型的能力,次要是大模型的 ICL(In-Context Learning)能力以及 prompt 构建能力。ICL 就是给定肯定样本,输出的样本越多,输入的成果越好,然而这个能力受限于模型的最大 token 长度,像是 ChatGLM-2,第一版本只有 2k 的输出长度,像是下面的这个示例,如果你的输出特地多的话,可能很快就达到了这个模型可输出的 token 下限。当然,当初有不少办法来晋升这个输出长度的限度。比方,前段时间 Meta 更新的差值 ORp 办法,能将 2k 的 token 下限晋升到 32k。在这种状况下,你的 prompt 工程能够十分欠缺,退出超多的限度条件和巨多的示例,达到更好的成果。 ...

September 5, 2023 · 3 min · jiezi

关于知识图谱:图数据库选型问题方法与工具

图数据库是常识图谱零碎的外围。在理论的利用中,为什么要做图数据库选型,图数据库选型应该怎么做?蚂蚁团体图数据库负责人洪春涛,在常识分享社区Datafun的演讲中,对这些问题进行了剖析和解答。以下是演讲原文整顿。1、为什么要做图数据库选型图数据库是常识图谱零碎的外围。在典型的常识图谱零碎中,数据会在常识抽取、整顿和推理之后,被寄存到图数据库中,而后图数据库会撑持常识图谱的查问、更新、推断等工作。因而图数据的选型决定了图谱零碎的规模、性能、稳定性,对整个图谱零碎利用十分重要。 目前行业内图数据库类型十分多,常见的有Neo4j、JanusGraph,以及蚂蚁团体研发的图数据库TuGraph等,整体数量在几十种左右。但他们之间的差别十分大,比方查询语言上Neo4j用的是Cypher,JanusGraph用的是Gremlin。 图数据库的图模型也有很大差别。图数据库目前大部分以属性图为主,也有另外一类是RDF图,这两种图数据库从数据抽象上不一样,其它很多个性,比方有没有用户权限,有没有多图、有没有超图,这些特色也都十分不一样。 应用图数据次要的问题在于,它不像关系型数据库是一个规范的关系代数的形象,下面有规范的SQL语言。目前图数据库没有齐全标准化下来,所以对于很多用户造成了很大的困扰,在选图数据库的时候,不晓得应该怎么选。 另外一个次要的问题是,图数据库当初很多利用场景其实是偏摸索类的,在具体场景当中,会用到哪些算法,须要哪些个性,用户当时并不知道,因而更难抉择图数据库的类型。 那么咱们该如何做图数据库系统选型呢? 图数据库系统的选型,一个十分重要的工具就是基准测试程序,英文叫Benchmark,它会模仿实在的场景对系统进行测试,是比拟规范的测试程序。 以TPC-C为例,这是个很规范的对关系型数据库进行测试的基准测试程序,它模仿的是连锁商店对数据库的应用,会在数据库建订单管理系统、库存管理系统、物流治理。这个程序自身会规定事务性应该反对到什么境地,应该有多并发,每一个查问的提早应该有什么样的要求。如果一个关系数据库可能正确地通过TPC-C这个测试,并且失去一个值,那么对用户来说,就能够大抵预计在失常的实在的状况下,它的性能,性能大抵如何,进一步预计在实在场景下的功能性、稳定性等。 所以Benchmark能够领导咱们对数据库系统的设计,同时它对减速整个行业的倒退是很重要的。 2、咱们须要什么样的基准测试程序一个好的Benchmark有以下个性。 首先要贴合理论,它抉择的场景必须是比拟符合实际状况的。比如说TPC-C要模仿一个商店的管理系统,那么这个数据特色、操作特色就必须跟商店差不多,以做库存治理、订单治理为例,这些查问有多少读、有多少写,它们之间的混合比例,都须要符合实际。 性能特色上,要满足肯定的提早要求。读写比例并发有肯定的要求,比方同时会有多少用户在这下面用,它的提早要求是多少,必须要求查问应该是在几十毫秒,都是有肯定的要求。查问跑进去的工夫如果太长,必定不合乎失常的需要。 另外它必须具备可扩展性。理论测试中,商店大小是有差别的,如果说一个Benchmark只规定了一种数据大小,那就很难让用户感觉到在本人的场景上面会是什么状况。比如说用户要开一个商店,心愿选一个数据库,但Benchmark的测试数据可能只限度了1GB数据,而理论用户的数据有1TB,那这个Benchmark就没有参考价值,所以大部分好的Benchmark都具备可扩展性,想测1GB、100GB、1TB甚至10TB都有方法去实现。 还有一点是规范必须要谨严,这是十分重要的。图数据测试,不能用TPC-C的数据来随便实现,比方只测读意外写,测试的时候把其中所有的写操作都去掉,跑进去一个后果看似很高,实际上却没有意义,因为并不符合实际的测试规范。所以这个规范自身必须要很谨严,它必须有审计规定,要有对数据的验证。 当初图数据库罕用的几个测试程序,一个是Twitter,即把Twitter颁布的数据集拿来跑K跳,从一个点登程去找K度的街坊,以及去跑图算法,这种测试的办法有很大的问题。一是推特自身的图十分无限,不具备可扩展性。图下面的点和边是没有属性,这其实是不合乎真实情况的。另外它是一个社交图,跟其余很多罕用的金融图等都不太一样,所以只能作为一个简略的参考。最致命的是它只有读没有写,测试的时候就没法去测它的写操作,或者要测写操作也只能加几条边加几个点,这是十分不谨严的。 3、 金融图数据库benchmark怎么做LDBC(The Linked Data Benchmark Council)是寰球出名的非盈利性技术协会,目前有三个Benchmark,一个是基于语义网络的RDF图,一个是图剖析,另外就是社交网络的图SNB。 目前国内上做得比拟规范的图数据库测试程序是LDBC的SNB的测试。SNB测试是模仿社交网站对于图数据库的利用场景,依照社交网站的数据个性生成数据,它容许生成各种各样大小的数据,同时操作上有读写混合,读也有各种丰盛的语义,有一个十分规范的文档,也有第三方审计。 SNB测试模仿的是社交的场景,外面有14类的点20类的边,点跟边下面会有一些属性,能够设置数据规模最小的数据是SF1,大略生成进去是1GB的数据,最大能够SF100,SF300,SF1000,SF30000都有。 从操作上它有两类,一类是Interactive,即模仿在线的查问,它下面有七种简略的读,14类简单的读。有八种写的操作,理论测试的时候,会要求把这些读写混合的并发的发到这个图数据库下面。另外一类是BI的Workload。BI的查问里边,它是简单的只读查问,就比下面这个简单读还要更简单,基本上是全局扫描的相似OLAP的利用。它的写是批量写,所以这个跟下面的Interactive是很不一样的。 在一些验证下面,它会要求读写混合,会有正确性的验证,这些读写做完了当前,须要验一下目前这个数据库的正确性,而后有事务隔离性的要求,最重要的是它有提早的要求,每一个查问规定大略只有千分之一的申请是能够超时的,如果提早超过100毫秒的查问超过千分之一。那么这个比例太高了,这个数据库就是不通过的。 SNB模仿的是一个社交网站的数据,里边有人的节点,有论坛的节点,论坛里边有很多帖子,而后大家能够去转载这些帖子,同时这个人会有各种各样的材料,有他的公司、大学、城市,通过边会把这些信息连起来,在下面去做查问。是一个比拟典型的图查问。 咱们发现在蚂蚁本人的利用场景上面,有很多跟SNB不一样的中央,因而决定跟LDBC一起做一个金融图的Benchmark。金融Benchmark跟SNB的次要差异是什么呢? 首先是场景上的差异,SNB是一个社交场景,咱们是金融风控等不同类型的场景,从数据上就会有比拟大的差异。社交网络的图,有它的特殊性,首先它往往会有很多大点,比方一个微博大V账号,会有很多关注,它就是个大点;而后它外面的点,均匀出度会比拟高,如每个微博账号,均匀会有300个左右的关注。这些个性导致社交图跟其它图都不一样,相对而言金融图绝对出度会小一些。 SNB下面的模型点跟点之间是没有反复边的,然而金融图里边就十分多重边的状况,比如说两个人之间会常常转账,那么他们之间就会有十分多的重边呈现。金融图的查问跟计算区别也很大,且查问对于提早的要求更高一些。如果20毫秒之内返回不回来,那么整个用户体验就会很蹩脚。 SNB里边读跟写是离开的。在金融图里读写是有可能在同一个Query里边的。咱们会找很多的环状的构造三角的构造,这些都是跟SNB不一样的中央。所以这也是促使咱们去做金融图Benchmark的一个次要能源。 目前咱们的金融图Benchmark还在设计阶段,次要是在线查问,对提早要求比拟高。另外咱们会设计负载的波峰波谷,因为一般来说中午流量比拟小;咱们会对数据有TTL,会对过期的数据进行清理。比如说个别零碎里边放三个月的数据,超过三个月就主动回收掉了。 以下是一个比较简单的又读又写的Query的示例。 除此之外,咱们还会做一些反欺诈的、反套现的操作,这也是金融场景中常常须要解决的问题。咱们会把金融图数据库Benchmark当做一个规范来做。 结语综合以上,咱们认为图数据库是图谱利用零碎的外围,所以它的选型很重要,而Benchmark作为选型最无力的工具十分重要。Benchmark如果做得好,它能够成为一种事实标准,领导零碎的设计。咱们也倡导更多的人来跟咱们一起参加Benchmark的开发以及制订,推动图数据库系统的标准化,共建行业生态。

November 27, 2022 · 1 min · jiezi

关于知识图谱:恒源云GpuSharePRGC基于潜在关系和全局对应的联合关系三元组抽取

文章起源 | 恒源云社区 原文地址 | PRGC:基于潜在关系和全局对应的联结关系三元组抽取 原文作者 | Mathor Abstract 本文讲关系抽取工作合成为关系判断、实体提取和subject-object对齐三个子工作,提出了一种基于潜在关系和全局对应的联结关系三元组抽取框架(PRGC)。具体而言,首先设计一个预测潜在关系的组件,将后续实体提取限度在预测的关系子集上,而不是所有的关系;而后用特定于关系的序列标记组件解决subject-object之间的重叠问题;最初设计一个全局对应组件来以较低的复杂度将主客体对齐成三元组。在两个公共数据集上达到了新的SOTA。 1 Introduction 关系抽取是从非结构化文本中辨认(subject,relation,object)三元组。本文将其合成为三个子工作:1.关系判断:辨认句子中的关系;2.实体提取:辨认句子中的subject和object;3.subject-object对齐:将subject-object对齐成一个三元组 对于关系判断:本文通过\( Potential\ Relation\ Prediction \)组件来预测潜在关系,而不是保留所有的冗余关系,这升高了计算复杂度,获得了更好的性能,特地是在实体提取方面。在实体提取方面:本文应用了一个更强壮的 \( Relation\ Specific\ Sequence\ Tag \)组件(简称Rel-Spec Sequence Tag)来别离提取subject和object,以天然地解决subject和object之间的重叠。对于subject-object对齐:本文设计了与一个关系无关的全局对应矩阵来判断特定的subject-object对在三元组中是否无效。 在给定句子的状况下,PRGC首先预测潜在关系的子集和蕴含所有subject-object之间对应分数的全局矩阵;而后进行序列标注,并行地提取每个潜在关系的主客体;最初枚举所有预测的实体对,而后通过全局对应矩阵进行剪枝。 2 Method2.1 PROBLEM DEFINITION 输出是具备n个token的句子\( S={x_1,x_2,…,x_n} \),冀望的输入是关系三元组\( T(S)={(s,r,o)|s,o \in E, r\in R} \),其中\( E \)、\( R \)别离示意实体集和关系集。 2.1.1 Relation Judgement 对于给定句子\( S \),该子工作是预测它句子\( S \)蕴含的潜在关系,输入为:\( Y_r(s)={r_1,r_2,…,r_m|r_i\in R} \),其中m为潜在关系子集的大小。 2.1.2 Entity Extraction 对于给定句子\( S \)和预测的潜在关系\( r_i \),该子工作是应用BIO标记计划辨认每个token的tag,其中\( t_j \)示意tag。输入为:\( Y_e(S,r_i|r_i\in R)={t_1,t_2,…,t_n} \)。 ...

March 9, 2022 · 1 min · jiezi

关于知识图谱:大厂技术实现-爱奇艺文娱知识图谱的构建与应用实践-自然语言处理系列

常识图谱是一种用图模型来形容常识和建模世界万物之间关联关系的技术办法。本文钻研的是爱奇艺奇搜常识图谱的构建流程与利用场景,理解这一娱乐行业常识图谱是如何帮忙用户准确找到想要的内容、答复用户问题、以及了解用户搜寻用意的。 一图看懂全文 获取『自然语言解决』行业解决方案 『举荐与计算广告』系列包含爱奇艺、美团、小米、百度等公司的业务剖析和技术解读。我的项目实现代码、我的项目数据集、论文合辑、文章合辑等,已整顿为大厂行业解决方案。扫码返回公众号(AI算法研究所) 后盾回复关键字『自然语言解决』获取。相干代码实现参考 ShowMeAI社区的技术专家小伙伴们也对常识图谱的典型算法做了实现。对『常识图谱构建与落地实际』细节感兴趣的话,请返回咱们的GitHub我的项目(https://github.com/ShowMeAI-Hub) 查看实现代码。感激ShowMeAI社区参加此我的项目的所有技术专家小伙伴,也欢送大家 PR 和 Star!举荐浏览 | 点击查看『自然语言解决』系列教程(http://www.showmeai.tech/tutorials/knowledge-graph) 大厂技术实现 | 爱奇艺娱乐常识图谱的构建与利用实际2012年5月,Google公布了常识图谱(Knowledge Graph),以晋升搜索引擎返回的答案品质和用户查问的效率。有了常识图谱作为辅助,搜索引擎可能洞察用户查问背地的语义信息,返回更为精准、结构化的信息,更大可能地满足用户的查问需要。 目前,随着智能信息服务利用的一直倒退,常识图谱已广泛应用于智能搜寻、智能问答、个性化举荐、聊天机器人、大数据风控、证券投资、智能医疗、自适应教育等畛域。常识图谱做AI技术的重要垂直分支,其在技术畛域的热度也逐年回升。 本篇是『常识图谱构建与落地实际』的实际篇,咱们与来自爱奇艺的NLP工程师奇异果,一起钻研学习爱奇艺搜寻团队2015年开始搭建的 奇搜常识图谱库 (https://so.iqiyi.com/) ,理解奇搜常识图谱的构建过程,及其在爱奇艺搜寻、NLP服务中的具体利用。 一、常识图谱介绍实质上,常识图谱是一种揭示实体之间关系的语义网络,对事实世界的事物及其互相关系进行形式化地形容。 A knowledge graph consists of a set of interconnected typed entities and their attributes. ——《Exploiting Linked Data and Knowledge Graphs in Large Organisations》 常识图谱是由一些相互连接的实体和他们的属性形成的。换句话说,常识图谱由一系列的(实体,关系,实体)三元组形成,用以表白事实世界中的诸多场景。 实体(Entity)指的是事实世界中的事物,是图里的节点。关系(Relation)指的是不同实体之间的某种分割,是图里的“边”。 图示为一个社交网络常识图谱: 实体有『人』『物品』『修建』『城市』等。『人与人之间的关系』能够是敌人或粉丝,『人与物品的关系』能够是创作或喜爱。二、奇搜常识图谱构建办法与流程爱奇艺搜寻(奇搜,https://so.iqiyi.com/) 是国内最大的视频搜索引擎之一,涵盖全网海量视频资源,为用户提供优质的全网视频&娱乐畛域的搜寻服务。 奇搜团队致力欠缺对视频内容和用户用意的了解,并在过程中构建了以视频畛域为主的常识图谱库。 以后,奇搜常识图谱的构建流程次要分为几个步骤: 常识示意与建模常识获取常识交融常识存储常识利用(常识查问与推理) 2.1 常识示意与建模咱们在确认常识的建模示意形式之后,再构建常识图谱。目前次要的常识建模形式有两种,爱奇艺奇搜常识图谱的构建采纳的是自顶向下的建模形式。 (1)自顶向下的数据建模办法。先为常识图谱设计数据模式( Schema ),再根据设计好的数据模式进行有针对性的数据抽取; (2)自底向上的数据建模办法。先进行数据的收集和整顿,再依据数据内容总结、演绎其特点,提炼框架,逐步形成确定的数据模式。 2.1.1 RDF三元组RDF(Resource Description Framework),即资源形容框架,实际上是一种数据模型,用来链接资源的各种形容。 ...

January 24, 2022 · 1 min · jiezi

关于知识图谱:大厂技术实现-详解知识图谱的构建全流程-自然语言处理系列

常识图谱(Knowledge Graph)的概念由谷歌2012年正式提出,旨在实现更智能的搜索引擎,并且于2013年当前开始在学术界和业界遍及。目前,随着智能信息服务利用的一直倒退,常识图谱已被广泛应用于智能搜寻、智能问答、个性化举荐、情报分析、反欺诈等畛域。本篇是『常识图谱构建与落地实际』的起始篇,咱们与来自百度的NLP工程师路遥,一起钻研常识图谱的构建流程与技术细节。 一图看懂全文 获取『自然语言解决』行业解决方案 『举荐与计算广告』系列包含爱奇艺、美团、小米、百度等公司的业务剖析和技术解读。我的项目实现代码、我的项目数据集、论文合辑、文章合辑等,已整顿为大厂行业解决方案。扫码返回公众号(AI算法研究所) 后盾回复关键字『自然语言解决』获取。相干代码实现参考 ShowMeAI社区的技术专家小伙伴们也对常识图谱的典型算法做了实现。对『常识图谱构建与落地实际』细节感兴趣的话,请返回咱们的GitHub我的项目(https://github.com/ShowMeAI-Hub) 查看实现代码。感激ShowMeAI社区参加此我的项目的所有技术专家小伙伴,也欢送大家 PR 和 Star!举荐浏览 | 点击查看『自然语言解决』系列教程 一、常识图谱简介常识图谱,是结构化的语义知识库,用于迅速形容物理世界中的概念及其互相关系,通过常识图谱可能将Web上的信息、数据以及链接关系汇集为常识,使信息资源更易于计算、了解以及评估,并能实现常识的疾速响应和推理。 1.1 广泛应用于各畛域当下常识图谱已在工业畛域失去了广泛应用,如搜寻畛域的Google搜寻、百度搜寻,社交畛域的领英经济图谱,企业信息畛域的天眼查企业图谱,电商畛域的淘宝商品图谱,O2O畛域的美团常识大脑,医疗畛域的丁香园常识图谱,以及工业制造业常识图谱等。 在常识图谱技术倒退初期,很多企业和科研机构会采纳自顶向下的形式构建根底知识库,如 Freebase。随着主动常识抽取与加工技术的一直成熟,以后的常识图谱大多采纳自底向上的形式构建,如 Google 的 Knowledge Vault 和微软的 Satori 知识库。 1.2 构建技术分类常识图谱的构建技术次要有自顶向下和自底向上两种。 自顶向下构建:借助百科类网站等结构化数据源,从高质量数据中提取本体和模式信息,退出到知识库里。自底向上构建:借助肯定的技术手段,从公开采集的数据中提取出资源模式,抉择其中置信度较高的信息,退出到知识库中。 1.3 “实体-关系-实体”三元组下图是典型的常识图谱样例示意图。能够看到,“图谱”中有很多节点,如果两个节点之间存在关系,他们就会被一条无向边连贯在一起,这个节点咱们称为实体(Entity),节点之间的这条边,咱们称为关系(Relationship)。 常识图谱的根本单位,就是“实体(Entity)-关系(Relationship)-实体(Entity)” 形成的三元组,这也是常识图谱的外围。 二、数据类型和存储形式常识图谱的原始数据类型一般来说有三类(也是互联网上的三类原始数据): 结构化数据(Structed Data),如:关系数据库、链接数据半结构化数据(Semi-Structured Data),如:XML、JSON、百科非结构化数据(Unstructured Data),如:图片、音频、视频 典型的半结构化数据样例如下: 如何存储下面这三类数据类型呢? 个别有两种抉择:能够通过RDF(资源形容框架)这样的标准存储格局来进行存储,比拟罕用的有Jena等。<RDF> <Description about="https://www.w3.org/RDF/"> <author>HanXinzi</author> <homepage> http://www.showmeai.tech </homepage> </Description></RDF>另一种办法是应用图数据库来进行存储,罕用的有Neo4j等。 截止目前为止,看起来常识图谱次要是一堆三元组,那用关系数据库来存储能够吗? 对,从技术上来说,用关系数据库来存储常识图谱(尤其是简略构造的常识图谱),是齐全没问题的。但一旦常识图谱变简单,用传统的「关系数据存储」,查问效率会显著低于「图数据库」。在一些波及到2,3度的关联查问场景,图数据库能把查问效率晋升几千倍甚至几百万倍。 而且基于图的存储在设计上会非常灵活,个别只须要部分的改变即可。当你的场景数据规模较大的时候,倡议间接用图数据库来进行存储。 三、常识图谱的架构常识图谱的架构次要能够被分为: 逻辑架构技术架构 3.1 逻辑架构在逻辑上,咱们通常将常识图谱划分为两个档次:数据层和模式层。 模式层:在数据层之上,是常识图谱的外围,存储通过提炼的常识,通常通过本体库来治理这一层(本体库能够了解为面向对象里的“类”这样一个概念,本体库就贮存着常识图谱的类)。数据层:存储实在的数据。能够看看这个例子: 模式层:实体-关系-实体,实体-属性-性值数据层:吴京-妻子-谢楠,吴京-导演-战狼Ⅱ3.2 技术架构常识图谱的整体架构如图所示,其中虚线框内的局部为常识图谱的构建过程,同时也是常识图谱更新的过程。别缓和,让咱们顺着这张图来理一下思路。 首先,咱们有一大堆的数据,这些数据可能是结构化的、非结构化的以及半结构化的;而后,咱们基于这些数据来构建常识图谱,这一步次要是通过一系列自动化或半自动化的技术手段,来从原始数据中提取出常识因素,即一堆实体关系,并将其存入咱们的知识库的模式层和数据层。四、构建技术后面的内容说到了,常识图谱有自顶向下和自底向上两种构建形式,这里提到的构建技术次要是自底向上的构建技术。 如前所述,构建常识图谱是一个迭代更新的过程,依据常识获取的逻辑,每一轮迭代蕴含三个阶段: 信息抽取:从各种类型的数据源中提取出实体、属性以及实体间的互相关系,在此基础上造成本体化的常识表白。常识交融:在取得新常识之后,须要对其进行整合,以消除矛盾和歧义,比方某些实体可能有多种表白,某个特定称呼兴许对应于多个不同的实体等。常识加工:对于通过交融的新常识,须要通过品质评估之后(局部须要人工参加甄别),能力将合格的局部退出到知识库中,以确保知识库的品质。 上面咱们顺次来对每一个步骤进行介绍。 4.1 常识抽取常识抽取(infromation extraction)是常识图谱构建的第1步,其中的关键问题是:如何从异构数据源中主动抽取信息失去候选批示单元? 信息抽取是一种自动化地从半结构化和无构造数据中抽取实体、关系以及实体属性等结构化信息的技术。波及的关键技术包含:实体抽取、关系抽取和属性抽取。 ...

January 23, 2022 · 1 min · jiezi

关于知识图谱:知识中台驱动产业智能化升级

随着人工智能技术的提高,智能化成为产业转型降级的要害抓手,但企业在晋升数字化和智能化程度的实际过程中,面临多种挑战,如:挪动利用的遍及,带来异构数据呈几何级数增长,企业须要深度开掘数据价值以赋能业务,以及传统 IT 零碎不足智能化的技术手段,难以无效撑持企业开掘、组织、治理和使用常识的须要等。 企业急需建设全新的信息和常识解决平台,以智能化的伎俩推动数据转换为常识,撑持企业翻新业务的疾速落地和迭代。 2021年12月,在以“常识中台驱动产业智能化降级”为主题的2021云智技术论坛-常识智能化专场上,多位百度专家独特探讨企业该如何通过构建全新的常识智能化体系,打造以常识为外围的竞争劣势,来重塑将来倒退格局。 01 百度智能云常识中台,助力企业减速智能化降级 百度技术委员会主席吴华示意,“智能化是产业转型降级的重要抓手,现在人工智能、大数据、5G 等技术在产业智能化降级中扮演着越来越重要的角色。企业要实现智能化降级,不仅须要数据,更须要数据中蕴含的信息和常识,因而企业常识智能化解决方案变得尤为重要。” 产业智能化是数字经济倒退的新阶段,深刻开掘产业数据价值,从海量数据中提取常识,实现智能化的利用,是产业智能化的必由之路。在这个过程中,面临以下四大挑战: 1、数据海量 企业在数字化的过程中,产生体量微小的数据,且数据规模一直极速增长,传统 IT 架构已无奈应答。 2、数据状态简单 企业存在大量的隐性常识,其专业性强、结构化水平低,行业数据出现复杂化、多模化发展,这将给数据处理和常识开掘带来微小挑战。 3、数据利用率低 企业外部数据分布在不同的业务零碎中,出现碎片化、孤岛化的特点,存在大量冗余和乐音。传统的数据处理技术难以对这些数据和信息进行语义化的了解,导致数据的利用率低下。 4、利用多态 企业外部利用和业务零碎纷繁复杂,传统的常识治理面临老本高、效率低、体验差等问题,常识利用不足系统化的能力。 为应答上述挑战,帮忙企业实现智能化降级,百度智能云公布常识中台解决方案。该计划基于百度常识图谱、自然语言解决、跨模态内容了解等核心技术,提供面向企业常识利用全生命周期的一站式解决方案,笼罩企业的常识生产、常识组织、常识利用的全流程外围能力。百度智能云常识中台可通过利用组件、标准化产品、定制化服务、集成化计划等多种灵便的形式对外输入,助力企业高效生产常识,灵便组织常识,智能利用常识,全面晋升企业运行效率和决策的智能化程度。 02 百度智能云常识中台背地的技术撑持百度智能云常识中台助力企业智能化降级的背地,离不开百度弱小的 AI 技术支持,如常识图谱、自然语言解决、常识加强的跨模态内容了解、面向多模态的简单常识开掘,以及常识加强的场景子图推理等。 1、常识图谱 百度常识图谱通过近10年的倒退,打造从通用到行业的常识图谱残缺技术体系,构建了业界规模最大的多源异构常识图谱,目前领有5500亿常识的多源异构超大规模常识图谱,除了根底的由实体、属性、关系形成的通用常识图谱,还针对不同利用场景和常识状态,构建了事件图谱、多模态图谱、行业常识图谱等多种图谱。通过继续获取和积攒常识,认知能力和智能化程度一直降级,从而能够更好地撑持不同的利用场景。 为了解决行业利用中最初一公里的问题,百度智能云从架构机制、策略算法到平台流程进行全面的降级和优化,构建高效可迁徙的行业常识图谱平台。该平台劣势有:一是专业性强,面向业余简单常识,实现基于超图的常识表白;二是效率高,反对低资源的学习机制,通过人机协同的形式,绝对传统人工构建形式,效率晋升百倍以上;三是可迁移性,实现从通用到行业,跨行业的多层次迁徙学习,目前已笼罩一百多个行业场景。 2、自然语言解决 百度研发了世界一流的语义了解、语言生成、智能问答、智能对话、机器翻译等自然语言解决技术。2021年百度智能云公布“常识加强大模型”文心 ERNIE 3.0,该模型基于深度学习平台飞桨的分布式训练技术,首次在百亿级参数预训练模型中引入大规模常识图谱,一举刷新54个中文 NLP 工作基准,并在寰球权威榜单“SuperGLUE”上排名第一。 3、常识加强的跨模态内容了解 百度自研常识加强的跨模态深度语义了解技术,通过常识关联跨模态信息,解决不同模态语义空间交融示意的难题,冲破了跨模态语义了解的瓶颈,让机器像人类一样,通过语言、听觉和视觉等取得对真实世界的对立认知,实现对简单场景的了解。 4、面向多模态的简单常识开掘 在常识开掘层,针对行业多态输出数据,百度智能云常识中台基于 Prompt Learning 技术,对实体关系和事件等信息抽取进行对立建模和多任务训练,利用畛域语言模型中蕴含的大量常识,使得模型具备良好的零样本迁徙和小样本学习的能力,除了传统的本体以及简略的 SPO 三元组外,还可开掘时序类、因果类、流程类等简单常识。并针对从常识体系的设计到零碎落地部署的全副流程,常识中台提供全链条按需定制工具,高效反对跨行业、跨场景的常识开掘需要。 5、常识加强的场景子图推理 在常识中台的利用中存在大量的推理场景,因而除了推理的后果准确性要求外,后果的可解释性尤为要害。另外,行业场景须要随着情境的变动做间断推理,这对推理过程的逻辑性、一致性带来微小的挑战。针对这些难题,百度智能云常识中台将数据与常识驱动相结合,独创常识加强的场景子图推理,使用子图来刻画情境,使后果更可解释、逻辑性和间断一致性。 基于以上弱小 AI 技术加持,百度智能云常识中台帮忙企业便捷地从数据提炼常识,通过搜寻、问答、推理、可视化等形式高效地将常识利用,将扩散在企业各处的常识进行集约化治理,起到凝练常识、赋能业务、助力企业晋升智能化程度的作用。 03 揭秘百度智能云常识中台的机制百度智能云 AI 产品业务部解决方案总监楚畅示意,企业数据知识化转型建设过程需经验数据治理、常识生产、常识组织、常识利用、常识经营环节。从整体来看,还可分成常识的生产、使用和经营等三大阶段。 作为企业常识智能化中枢,百度智能云常识中台解决方案打造了数据接入、常识生产、常识组织、智能利用、经营治理模块。 第一个环节是数据接入,百度智能云常识中台反对通过 API 形式或直连形式对接企业现有的数据平台、数据库、文档零碎等数据源,来获取包含结构化、半结构化和非结构化等多源异构数据信息。应用灵便可配置的调度工具,反对一次性全量数据导入、分批分时配置导入数据、实时在线逐条读取数据。数据接入后,零碎会对数据进行适配、加工、转换和散发等操作,造成常识体系。百度智能云常识中台反对单日十亿级数据吞吐量,可同时对接百万级数据源,做到数据分钟级的更新。 接入数据后,在常识生产环节中将接入数据加工成为各种各样的常识体系。百度智能云常识中台提供七大常识生产方式:常识图谱、问答常识、全文常识、标签常识、事件常识、多模态常识、因果常识生产等形式。 1、常识图谱生产 传统常识图谱生产由业务专家采纳自上而下的形式对某业务畛域的实体、属性、关系进行抽取和建模,造成 Schema 体系。百度智能云的智能常识图谱的生产,通过人机联合和算法驱动的形式,用 AI 算法模型来驱动和训练,可从企业积淀的数据或文档里抽取生成初步的 Schema 体系,再联合业务专家进行大量的人工审阅、调整,可大幅晋升图谱构建的效率。 百度智能云的常识图谱生产,一方面可大幅晋升常识图谱的构建效率,另一方面是有时候业务专家没有思考到的属性和实体,能够通过零碎主动获取,无效实现细节补充,确保整个图谱构建后果更加欠缺和迷信。比方在传统本体构建环节,靠传统形式由专家梳理整个常识体系与本体体系,周期需几周甚至大几周;而采纳人机联合与算法驱动的形式,只需几天就能构建实现整个常识与本体体系。 2、问答常识生产 ...

January 18, 2022 · 1 min · jiezi

关于知识图谱:关于执行gbuild命令时的错误

执行gbuild命令呈现You must input the database name for building database谬误执行gbuild在装置目录/gStroe下执行bin/gbuild db_name filepath呈现You must input the database name for building database!谬误。起因:0.8版本之前的命令为bin/gbuild db_name filepath,0.9当前执行会出错。0.9版本当前的命令为bin/gbuild -db db_name -f file_path示意从file_path中构建名为db_name的数据库,例如bin/gbuild -db lubm -f ./data/lubm/lubm.nt(从三元组文件lubm.nt构建lubm数据库)

January 10, 2022 · 1 min · jiezi

关于知识图谱:讲坛实录知识图谱的探索与应用

01 常识图谱到底是什么? 语义网络是一种以网络格局表白人类常识结构的模式,是一种用实体及其语义关系来表白常识的有向图。而常识图谱是一种基于图的数据结构,是一种用图模型来形容常识和建模世界万物之间关联关系的大规模语义网络。 常识图谱以半结构化的模式形容主观世界中概念、实体及其关系。在常识图谱里,咱们通常用“实体”来表白图里的节点、用 “关系” 来表白图里的 “边”。 常识图谱有模式层和数据层,左边这张图是模式层,形容的是实体类型(概念)之间的形象关系;右边这张图则是数据层。 人工智能分为三个阶段,从运算智能到感知智能,再到认知智能。 在上述三个阶段中,咱们正逐渐迈入第三个阶段,以后钻研的重心正在由感知智能畛域逐步过渡到认知智能畛域。 认知智能是人类特有的,建设在思考之上的智能。而思考建设在常识之上。AI要从感知智能迈向认知智能,实质上常识是根底,有了常识根底,AI能力造成推理机制。而常识图谱富含实体、属性、概念和事件,并从关系的角度将这些信息有机整合在一起。要害的是,它可能基于肯定的常识推理为AI的可解释性带来全新的一个视角。因而,常识图谱是认知智能底层的一种必要撑持。 02 常识图谱构建的根本流程有哪些? 常识图谱的根本构建流程有数据归集、常识抽取、常识交融、常识加工及常识利用。 数据归集:数据源不对立,对半结构化与非结构化数据须要进行数据抽取。针对构建常识图谱,咱们也须要设计底层的这种存储形式。 信息抽取:须要从各种类型的数据外面去提取实体、属性、实体之间的互相关系,在这个根底上造成一些成体系化常识。 其中,实体抽取会用到命名实体辨认技术,抽取时从数据集里自动识别命名实体。关系抽取次要是取得语义信息,以此获取实体之间的关联关系。而后应用面向凋谢域和面向关闭畛域的这种抽取办法来进行一个整体的联合,通过关系将实体之间分割起来,进而造成结构化的网状知识结构。属性抽取须要从不同信息源或者数据源里采集特定实体的属性信息。事件抽取个别从题目或者动作里抽取。 常识交融:获取新的常识后对常识进行整合,消除矛盾与歧义。实体对齐是将实体的各种名称进行对立对齐。指代消解是将文中的指代词与所指实体进行整合。 常识加工:知识库构建也称之为本体构建。通过实体并列的关系进行类似度计算,对关系进行抽取,进行实体的生成等等,最终造成一种概念或框架。品质评估是对常识的可信度进行量化,通过舍弃可信度低的常识来保障整个知识库的品质。常识推理次要是解决常识图谱之间关系值缺失一类的问题,通过基于逻辑的推理、基于图的推理、基于深度学习的推理来解决。常识更新包含模式层(知识库)的更新和数据层(数据存储)的更新。 常识存储:解决实现的常识须要存储,有两种存储形式。一种是通过资源形容框架RDF进行存储。还有一种是应用图数据库(咱们公司的StellarDB)。当初罕用图数据库存储,因为常识图谱的网络可能波及到上亿的节点,有时甚至几十亿,传统的数据库难以胜任。而图数据库的存储、查问效率十分高。关联查问效率会比传统数据存储的形式要高得多。 03 常识图谱次要依赖什么技术? 在常识图谱落地过程中,最重要的是要教会计算机常识推理的过程,而其中就须要用到图计算这种重要的技术支持。 图计算算法次要包含遍历算法(全盘拜访每一个节点)、社区发现(用于计算社交网络中人际关系)、PageRank(源自搜索引擎,用于网页链接排序) ,以及最短门路算法(解决图构造中距离问题),在常识图谱中次要利用遍历算法进行常识推理,以发现实体间暗藏的关系。 常识图谱实用于一些多元的、高维的、关系简单的场景。例如股票投研情报分析、公安情报分析、反欺诈情报分析、智能搜寻等。 04 Sophon KG为企业级常识图谱落地带来便当 Sophon KG是一站式常识图谱构建和剖析利用平台。为图谱模式定义(蕴含蓝图定义和本体定义)、常识抽取(从文本标注、模型训练到事件-实体-关系抽取)、常识交融(实体链接、实体合并)、常识存储和检索(对接星环自研的分布式图数据库StellarDB、可扩大的分布式全文搜索引擎Scope和时空序列数据库Spacture等)、常识推理(基于OWL进行本体推理和基于图计算关联性推理)做全链路的撑持和治理。 Sophon KG不仅反对零代码交互式图谱查问,还反对语义搜寻和举荐、基于图算法的模式发现(常识推理)、智能问答、情感剖析、时空剖析等性能,从而帮忙了解大数据,取得对大数据的洞察,提供决策反对。 Sophon KG的产品架构如下: 05 Sophon KG有哪些弱小性能? 1、零代码的图谱构建能力 2、交互式的图谱构建 3、交互式的查问,反对定向剖析、门路发现 4、弱小的图谱剖析能力,反对图谱比照、可视化统计、时序剖析 5、智能搜寻,反对单个实体和批量实体的疾速查问 6、文本标注组件KG Anno,反对实体、关系和文本分类3种标注工作 7、全图摸索,提供3D大图展现 06 常识图谱的典型应用场景有哪些? 金融反洗钱场景 通过关联查问、可视化图剖析、图开掘、机器学习和规定引擎;反对关联关系数据的疾速检索、查找和浏览;开掘暗藏关系并模型化业务教训,帮忙金融机构的建设一个可继续、经济可行的反洗钱合规框架。 金融反欺诈场景 针对大量数据,通过筛选剖析单干关系、团体关系、投资关系、社团分类关系以及资产与负债等状况,辨认危险客户和危险团体,升高人力老本耗费并大幅晋升反欺诈能力。 金融风险传导场景 以公司为信用主体追踪其发行的债券标的,联合公司信批等内部舆情,发现并量化重大危险事件,并通过信用主体的参控股关系、投资关系、分子公司关系、担保关系、董监高关系等,实现债务信用传导,影响企业现金流变动,最终来判断信用主体兑付状况。 07 常识图谱的将来会走向何方? 常识图谱利用正经验暴发期,已由原先的语义常识图谱一直向行业细分常识图谱倒退,拓展出平安常识图谱、金融常识图谱等行业常识图谱,及风控、投研、营销等场景化的常识图谱。 据Gartner公布的2020年数据与剖析畛域的十大技术趋势示意,到2022年,常识图谱技术实现100%的快速增长,到2023年,常识图谱技术将促成寰球30%的企业机构决策过程的疾速情景化。置信将来,常识图谱将与深度学习等AI前沿技术相结合,除金融、营销等场景外,也对自然灾害和其余危机的辨认、预测和布局施展关键作用。

December 8, 2021 · 1 min · jiezi

关于知识图谱:ACMMM2021|在多模态训练中融入知识图谱方法及电商应用实践

简介: 随着人工智能技术的一直倒退,常识图谱作为人工智能畛域的常识支柱,以其弱小的常识示意和推理能力受到学术界和产业界的宽泛关注。近年来,常识图谱在语义搜寻、问答、常识治理等畛域失去了宽泛的利用。 作者 | 朱渝珊起源 | 阿里技术公众号 一 背景1 多模态常识图谱随着人工智能技术的一直倒退,常识图谱作为人工智能畛域的常识支柱,以其弱小的常识示意和推理能力受到学术界和产业界的宽泛关注。近年来,常识图谱在语义搜寻、问答、常识治理等畛域失去了宽泛的利用。多模态常识图谱与传统常识图谱的次要区别是,传统常识图谱次要集中钻研文本和数据库的实体和关系,而多模态常识图谱则在传统常识图谱的根底上,构建了多种模态(例如视觉模态)下的实体,以及多种模态实体间的多模态语义关系。以后典型的多模态常识图谱有DBpedia、Wikidata、IMGpedia和MMKG。 多模态常识图谱的利用场景非常宽泛,它极大地帮忙了现有自然语言解决和计算机视觉等畛域的倒退。多模态构造数据尽管在底层表征上是异构的,然而雷同实体的不同模态数据在高层语义上是对立的,所以多种模态数据的交融对于在语义层级构建多种模态下对立的语言示意模型提出数据反对。其次多模态常识图谱技术能够服务于各种上游畛域,例如多模态实体链接技术能够交融多种模态下的雷同实体,可利用于新闻浏览,同款商品辨认等场景中,多模态常识图谱补全技术能够通过近程监督补全多模态常识图谱,欠缺现有的多模态常识图谱,多模态对话零碎可用于电商举荐,商品问答畛域。 2 多模态预训练预训练技术在计算机视觉(CV)畛域如VGG、Google Inception和ResNet,以及自然语言解决(NLP)如BERT、XLNet和GPT-3的胜利利用,启发了越来越多的研究者将眼光投向多模态预训练。实质上,多模态预训练冀望学习到两种或多种模态间的关联关系。学术界的多模态预训练计划多基于Transformer模块,在利用上集中于图文工作,计划大多大同小异,次要差别在于采纳模型构造与训练任务的差别组合,多模态预训练的上游工作能够是惯例的分类辨认、视觉问答、视觉了解推断工作等等。VideoBERT是多模态预训练的第一个作品,它基于BERT训练大量未标记的视频文本对。目前,针对图像和文本的多模态预训练模型次要能够分为单流模型和双流模型两种架构。VideoBERT,B2T2, VisualBERT, Unicoder-VL , VL-BERT和UNITER应用了单流架构,即利用单个Transformer的self-attention机制同时建模图像和文本信息。另一方面,LXMERT、ViLBERT和FashionBERT引入了双流架构,首先独立提取图像和文本的特色,而后应用更简单的cross-attention机制来实现它们的交互。为了进一步提高性能,VLP利用了一个共享的多层Transformer进行编码和解码,用于图像字幕和VQA。基于单流架构,InterBERT将两个独立的Transformer流增加到单流模型的输入中,以捕捉模态独立性。 3 常识加强的预训练近年来,越来越多的钻研人员开始关注常识图(KG)和预训练语言模型(PLM)的联合,以使PLM达到更好的性能。K-BERT将三元组注入到句子中,以生成对立的常识丰盛的语言示意。ERNIE将常识模块中的实体示意集成到语义模块中,将令牌和实体的异构信息示意到一个对立的特色空间中。KEPLER将实体的文本形容编码为文本嵌入,并将形容嵌入视为实体嵌入。KnowBERT应用一个集成的实体链接器,通过一种单词到实体的留神模式生成常识加强的实体广度示意。KAdapter为RoBERTa注入了事实常识和语言常识,并为每种注入的常识提供了神经适配器。DKPLM能够依据文本上下文动静地抉择和嵌入常识,同时感知全局和部分KG信息。JAKET提出了一个联结预训练框架,其中包含为实体生成嵌入的常识模块,以便在图中生成上下文感知的嵌入。KALM、ProQA、LIBERT等钻研还摸索了常识图与PLM在不同利用工作中的交融试验。然而,目前的常识加强的预训练模型仅针对繁多模态,尤其是文本模态,而将常识图融入多模态预训练的工作简直没有。 二 多模态商品常识图谱及问题随着人工智能技术的一直倒退,常识图谱作为人工智能畛域的常识支柱,以其弱小的常识示意和推理能力受到学术界和产业界的宽泛关注。多模态常识图谱与传统常识图谱的次要区别是,传统常识图谱次要集中钻研文本和数据库的实体和关系,而多模态常识图谱则在传统常识图谱的根底上,构建了多种模态(例如视觉模态)下的实体,以及多种模态实体间的多模态语义关系。如图1所示,在电商畛域,多模态商品常识图谱通常有图像、题目和构造常识。 多模态商品常识图谱的利用场景非常宽泛,多模态构造数据尽管在底层表征上是异构的,然而雷同实体的不同模态数据在高层语义上是对立的,所以多种模态数据的交融有利于充沛表白商品信息。多模态商品常识图谱技术能够服务于各种上游畛域,例如多模态实体链接技术能够交融多种模态下的雷同实体,能够广泛应用于产品对齐,明星同款等场景中,多模态问答零碎对于电商举荐,商品问答畛域的提高有着重大的推动作用。但目前还相当不足无效的技术手段来无效交融这些多模态数据,以反对宽泛的电商上游利用。 图1 最近几年,一些多模态预训练技术被提出(如VLBERT、ViLBERT、LXMERT、InterBERT等),这些办法次要用于开掘图像模态与文本模态信息之间的关联。然而,将这些多模态预训练方法间接利用到电子商务场景中会产生问题,一方面,这些模型不能建模多模态商品常识图谱的结构化信息,另一方面,在电商多模态常识图谱中,模态缺失和模态噪声是两个挑战(次要是文本和图片的缺失和噪声),这将重大升高多模态信息学习的性能。在实在的电子商务场景中,有的卖家没有将商品图片(或题目)上传到平台,有的卖家提供的商品图片(或题目)没有正确的主题或语义。图 2中的Item-2和Item-3别离显示了阿里场景中的模态噪声和模态缺失的例子。 图2 三 解决方案为了解决这一问题,咱们将产品结构化常识作为一种独立于图像和文本的新的模态,称为常识模态,即对于产品数据的预训练,咱们思考了三种模态的信息:图像模态(产品图像)、文本模态(产品题目)和常识模态(PKG)。如图2所示,PKG蕴含<h, r, t>模式的三元组。例如,<Item-1, Material,Cotton>示意产品Item-1的材质是棉花。咱们这样解决的起因在于,(1)PKG形容了产品的主观个性,它结构化且易于治理,通常为PKG做了很多保护和标准化工作,所以PKG绝对洁净可信。(2) PKG与其余模态蕴含的信息有重合也有互补,以图2的Item-1为例,从图片、题目和PKG都能够看出Item-1是一件长袖t恤;另一方面,PKG表明这款t恤不仅适宜秋季,也适宜秋季,但从图片和题目看不出来。因而,当存在模态噪声或模态缺失时,PKG能够纠正或补充其余模态。 四 模型架构咱们提出了一种在电子商务利用中新鲜的常识感知的多模态预训练方法K3M。模型架构如图3所示,K3M通过3个步骤学习产品的多模态信息:(1)对每个模态的独立信息进行编码,对应modal-encoding layer,(2)对模态之间的相互作用进行建模,对应modal-interaction layer,(3)通过各个模态的监督信息优化模型,对应modal-task layer。 图3 (1)modal-encoding layer。在对每个模态的单个信息进行编码时,针对图像模态、文本模态以及常识模态,咱们采纳基于Transformer的编码器提取图像、文本、三元组外表模式的初始特色。其中文本模态和常识模态的编码器参数共享。 (2)modal-interaction layer。当建模模式之间的相互作用时,有两个过程。第一个过程是文本模态和图像模态之间的交互:首先通过co-attention Transformer基于图像和文本模态的初始特色学习对应的交互特色,其次,为了放弃单个模态的独立性,咱们提出通过初始交互特色交融模块来交融图像和文本模态的初始特色及其交互特色。第二个过程是常识模态和其余两个模态的交互:首先用图像和文本模式的交互后果作为指标产品的初始示意,用三元组关系和尾实体的外表状态特色作为的商品属性和属性值的示意。而后通过构造聚合模块流传并在指标产品实体上聚合商品属性和属性值信息。商品实体的最终示意能够用于各种上游工作。 (3)modal-task layer。图像模态、文本模态和常识模态的预训练任务别离为掩码对象模型、掩码语言模型和链接预测模型。 五 试验与实际1 试验(论文的试验)K3M在淘宝4千万商品上训练,其中每个商品蕴含一个题目,一张图片和一组相干的三元组。咱们设置不同的模态缺失和乐音比率,在商品分类、产品对齐以及多模态问答3个上游工作上评估了K3M的成果,并与几个罕用的多模态预训练模型比照:单流模型VLBERT,和两个双流模型ViLBERT和LXMERT。试验后果如下: 图3显示了各种模型对商品分类的后果,能够察看到: (1)当模态缺失或模态噪声存在时,基线模型重大不足鲁棒性。当TMR减少到20%、50%、80%和100%时,“ViLBERT”、“LXMERT”和“VLBERT”的性能从TMR=0%均匀降落10.2%、24.4%、33.1%和40.2%。(2)带有缺失和噪声的文本模态对性能的影响大于图像模态。比照3个基线的“题目噪声”和“图像噪声”,随着TNR的减少,模型性能降落了15.1% ~ 43.9%,而随着INR的减少,模型性能降落了2.8% ~ 10.3%,阐明文本信息的作用更为重要。(3)引入常识图能够显著改善模态缺失和模态噪声问题。在无PKG基线的根底上,“ViLBERT+PKG”、“LXMERT+PKG”和“VLBERT+PKG”在TMR从0%减少到100%时的均匀改善率别离为13.0%、22.2%、39.9%、54.4%和70.1%。(4)K3M达到了最先进的性能。它将 “ViLBERT+PKG”、“LXMERT+PKG”和“VLBERT+PKG”在各种模态缺失和模态噪声设置下的后果进步了0.6%到4.5%。 图4显示了产品对齐工作的后果。在这个工作中,咱们能够失去相似于在我的项目分类工作中的察看后果。此外,对于模态缺失,模型性能不肯定随着缺失率的减少而升高,而是稳定的:当缺失率(TMR、IMR和MMR)为50%或80%时,模型性能有时甚至比100%时更低。实际上,这个工作的实质是学习一个模型来评估两个我的项目的多模态信息的相似性。直觉上,当对齐的商品对中的两个我的项目同时短少题目或图像时,它们的信息看起来比一个我的项目短少题目或图像而另一个我的项目什么都不缺时更类似。 表2显示了多模态问答工作的排序后果。在这个工作中,咱们也能够看到相似于在商品分类工作中的察看后果。 2 实际(阿里的业务利用成果)1、饿了么新批发导购算法,离线算法AUC晋升0.2%绝对值;在线AB-Test试验,流量5%,5天:CTR均匀进步0.296%,CVR均匀进步5.214%,CTR+CVR均匀进步:5.51%; 2、淘宝主搜找类似服务,离线算法AUC晋升1%,业务方反馈是很大的晋升;目前在线AB测试中; 3、阿里妈妈年货节商品组合算法,在线算法,基于Emedding的试验桶(5.52%)CTR指标相较于另外2个试验桶(5.50%,5.48%)别离进步0.02%、0.04%的点击率,绝对进步别离为0.363%、0.73%; 4、小蜜算法团队低志愿下的类似商品的举荐,整体减少这一路的召回状况下,转化能有2.3%到2.7%左右的晋升,绝对晋升12.5%。之前版本绝对晋升11%。后续扩大到其余场景。 原文链接本文为阿里云原创内容,未经容许不得转载。

October 20, 2021 · 1 min · jiezi

关于知识图谱:开放搜索查询分析服务架构解读

简介: 搜寻行为在后端都会有大量的数据计算和解决才会召回合乎用户需要的搜寻后果,本次分享联合自建搜寻业务中查问剖析服务常见的问题及难点,介绍阿里云凋谢搜寻查问剖析具备的能力及解决方案,并深度解读阿里巴巴查问剖析服务架构和兼容Elasticsearch的架构是如何实现的特邀嘉宾: 项招贵(项公)--阿里巴巴高级技术专家 视频地址:https://yqh.aliyun.com/live/o... 查问剖析介绍查问剖析在搜寻中的作用在搜寻申请的处理过程中能够在工程实现上分为两个阶段,召回和排序。在召回阶段须要尽可能的把用户想要的文档在引擎中找到,在排序阶段须要将最满足需要的文档排在最后面去返回给用户。 通过查问剖析能够疾速进行解决和剖析,比方,往往在理论的生产环境中,用户往往会有一些谬误的输出,须要进行query纠错。 其次咱们须要对query分词并且辨认其中不同词的重要水平,这有助于咱们在召回和排序中去应用。 同时因为理论的环境中存在一词多意,所以要进行同义词的扩大。 其次须要对用户的query进行改写去帮忙引擎更高效的去执行召回。在query解决的阶段,会输入一些信息去以帮忙咱们在排序时候跟文档去算一些文档的相关性、类目相关性、以及通过一些将文本进行向量化去算它的语义相关性等。 查问剖析链路总的来说,查问剖析的作用就是对用户输出的query进行剖析和改写,去晋升咱们零碎的召回的准确率和排序的相关性。 上面通过简略的例子介绍凋谢搜寻的查问剖析的性能。 自建搜寻服务面临的问题须要行业畛域常识一直积攒;短少大量行业样本数据,自研难度大;算法调优、工程开发、日常运维须要继续的人力投入;凋谢搜寻查问剖析特点面向行业提供残缺的查问剖析解决方案针对特定畛域提供算法性能,以及对某些特定的算法性能进行优化。例如,电商行业,凋谢搜寻提供了实体辨认。教育行业,往往不仅是文本,也有可能是副文本或图片,所以对query进行了一个文本向量化的性能。有些性能在不同的行业外面咱们也会针对性的去做优化,像拼写纠错或同义词的开掘等等。 查问剖析每一个性能均可干涉干涉是实时失效的, 蕴含实体辨认、拼写纠错、停用词、词权重,同义词,类目预测等。 轻量化的去定制服务依据客户不同的业务场景去配置他的查问剖析的能力,凋谢搜寻提供这些能力性能的选集,用户能够依据理论需要抉择其中一部分能力在理论生产环境中应用。 其次反对用户应用多种不同类型的查问剖析,或者说是不同的查问剖析的配置。 免运维罢黜用户日常的运维的继续的投入。 查问剖析服务架构算法服务中心算法性能的公布,迭代;用户模型的增删改查;算法模型的训练;算法模型的回流; 干涉性能用户干涉数据的增删改查;实时同步干涉数据到查问剖析服务中; 查问剖析和类目预测服务加载词典、模型、数据、配置;不同行业通过不同的服务链配置来实现;加载用户干涉数据; 查问过程依据用户配置的性能执行对应的查问剖析链;改写的query发给引擎执行查问;DIIRuntime框架反对多种不同类型的索引,满足算法对各种不同类型数据的高效拜访;索引构建、散发、加载、查问对立,升高开发和运维老本;链式服务框架,灵便组链,反对不同场景的性能;算法开发只须要关注算法性能自身逻辑的实现,简略快捷; Elasticsearch兼容架构凋谢搜寻Elasticsearch引擎查问剖析性能根本对齐凋谢搜寻的查问剖析能力; 具备行业分词能力 可干涉 反对扩大分词 具备行业查问剖析能力 可配置 可干涉 实现架构1.创立实例创立凋谢搜寻实例,关联Aliyun Elasticsearch的实例装置插件 2.配置查问剖析Mapping中设置应用响应的分析器 插件性能 提供通用、行业的分词能力 拜访查问剖析服务,获取query改写后果 改写Elasticsearch的查问query 原文链接本文为阿里云原创内容,未经容许不得转载。

October 13, 2021 · 1 min · jiezi

关于知识图谱:企业如何通过图数据库及知识图谱形成业务壁垒

随着业务数据量级猛增、业务数据类型更加多样化、业务复杂程度的激增,传统的关系型数据库早已无奈反映企业业务状况的全貌,对于剖析对象之间的关系洞察也透出了能力瓶颈。在这样的大背景下,企业对图数据库的需要应运而生。 区别于传统的关系型数据库,图数据库以实体为点,点与点的关联关系为边,对数据进行存储。企业开始应用原生图存储的模式存储多样化的数据,是心愿可能应用图的计算模式来对实体间盘根错节的关系疾速造成深刻洞察,从而积淀成企业智慧,进一步晋升业务的智能化程度,升高现有昂扬的人力老本,解决以往的人力决策难以跟上业务数据倒退的问题。 以大数据能力为松软底座 图数据库+TDH计算引擎实现优异的性能体现 目前市面上的开源图数据库较实用于个人用户,对于企业用户而言,图数据个别来源于已有的大数据系统,随着数据量的增长和业务模型逐步简单,开源图数据库既无奈接受大规模图存储和计算,也无奈融入大数据生态,徒增零碎复杂程度。 基于此痛点,星环科技自主研发了分布式图数据库StellarDB,以分布式的计算引擎为能源,可帮忙用户实现任意数据规模的图计算,且计算能力随节点数线性扩大,能够撑持万亿级别图规模存储。除了反对大规模的数据集外,StellarDB还具备深度的图剖析能力,反对10层以上的深度简单图遍历。 星环图数据库StellarDB为大数据平台提供了良好的兼容服务,能够疾速接入已有的大数据平台。 图1 星环科技分布式图数据库StellarDB StellarDB的查问性能和图算法能力曾经达到行业领先水平。本次测试采纳了公开数据集twitter-2010,其点边规模别离为四千万和十四亿。比照图数据库别离为:StellarDB 3.0.12,Neo4j 4.3.3,ArangoDB 3.7.11,以及JanusGraph 0.5.2。本次比拟的内容包含:数据导入测试、多度查问测试、多度最短门路测试,以及图算法测试。 最终后果如图2所示,横坐标示意耗时的倍数,以StellarDB的运行时长为基准,设定为1,柱越长代表查问或导入工作耗时越久,无柱状示意超过2h无后果返回或呈现OOM报错。 咱们首先来看数据导入速度,StellarDB在面对十亿边数据量集的导入速度在15分钟左右,其余开源数据库的导入工夫在近半小时级至半天级不等。咱们接下来对2度及3度查问进行比拟,能够看到在4次查问工作当中,StellarDB均有较好的性能体现:2度街坊查问的性能别离为其余产品的5-20倍不等;2度最短门路查问甚至达到1~40倍不等;3度最短门路查问达到1.4倍;而在3层街坊查问工作中,StellarDB能在亚分钟级查问出4.3亿条后果,而ArangoDB在4项查问工作中均超时。在图算法方面,StellarDB的PageRank后果返回速度也超其余返回后果速度2倍以上。 可见,面对国外厂商Neo4j善于的小数据量短查问场景,StellarDB在大图2度街坊查问中体现出了5倍的较大劣势,并疾速查问出Neo4j无奈返回的3度街坊查问。可见StellarDB对于海量的大图数据集有显著的性能劣势,且随着层数的增大,对多度及最短门路的查问劣势更加显著,而其余图数据库往往会产生报错、无奈返回后果等状况。 图2 StellarDB性能测试耗时比照图 在应用便捷性方面,StellarDB内置了近20种常见的图算法,可满足用户各类图剖析需要,并且反对2D/3D的全景剖析及展示,利用可视化技术帮忙用户疾速获取数据基于关联性的深度洞察。同时,StellarDB能够满足实时图查问和离线算法剖析的需要,无需学习特定的编程语言,只需基于支流的openCypher图形查询语言,即可实现简单的查问工作。在某些金融场景,用户甚至无需输出图形查询语言,应用自然语言即可进行疾速检索。 老本方面,StellarDB采纳了多种数据编码和压缩策略,无效升高海量图数据对于存储资源的需要。相较于开源图数据库,StellarDB可应用更少的节点实现更快的查问。跑在更少的服务器资源上,可极大升高用户的洽购、运维、空间及能耗老本及开销,以满足企业“碳达峰”、“碳中和”的需要。 企业级性能方面,StellarDB具备残缺的企业级性能,为企业客户设计了多维度的权限管制模型,反对图级别、标签级别、属性级别三层权限设置;提供了数据加密和配置掩码规定,保障敏感数据的安全性;提供增量和全量数据备份,以及在线跨集群数据恢复,帮助客户保障集群数据完整性;提供平安认证和访问控制,反对Kerberos和LDAP登陆和受权。 产品资质方面,StellarDB具备自主知识产权,且已取得图数据库根底能力专项测评证书,可与国产的操作系统和硬件平台兼容。 辅以KG等AI驱动的利用开发工具 实现金融风控全链路撑持 基于图数据库,用户能够在下层开发通用或行业常识图谱,将企业的业务规定、决策智慧积淀下来,并赋能搜索引擎、举荐零碎、实时危险预警等利用零碎,实现团体的数字化转型。 以金融监管机构为例,可实现团体派别常识图谱、产业链常识图谱、担保链常识图谱、反洗钱常识图谱等的构建;以银行为例,星环科技能够帮忙用户构建企业治理关系图谱、小微企业危险事件图谱、社交画像常识图谱、供应链常识图谱,从而实现贷后资金穿透治理和危险传递预估;投资图谱方面,星环科技可帮忙证券、基金、期货企业构建智能投研常识图谱、FOF投研常识图谱、大宗商品常识图谱等,可实现舆情事件的实时接入、危险事件的实时预警及危险传导的可视化。 除以上利用外,图数据库及常识图谱技术也大量利用于可疑团伙发现、产品或服务的精准举荐、社交网络分析、疫情溯源与防控等畛域。 图3 星环科技Sophon KG的企业常识图谱界面 星环科技提供用户 从点到线再到面的平面智能剖析能力 星环科技为用户串联起了从底层的关系型数据库、大数据平台到中层的图数据库,再到下层常识图谱利用的全栈产品,实现了从最底层独立的“点”剖析到关系的“线”剖析再到事件的“面”剖析,最终造成行业全面的“体”剖析的全栈智能剖析赋能。从点到面再到体的一站式剖析工具提供,能够搭建严密相扣的工作流链路,对于用户而言,可能大量节俭开发成本和根底算力,显著晋升剖析性能。 开展来讲: (1)“点”:传统数据分析是利用关系型数据库或不含图数据库的OLAP大数据平台,针对单个实体或属性进行统计分析或机器学习建模,它只能解决单个或多个独立“点”的信息。 (2)“线”:而当用户想基于点和点之间的关系进行多层关联关系剖析时,关系型数据库会遇到多表join的挑战而无奈返回后果。此时应用分布式的图数据库即可在疾速返回海量的大图剖析后果,实现对“线”的剖析。 (3)“面”:当盘根错节的线造成一个网络时,咱们须要应用属性图、图建模的技术来对简单网络进行剖析,如提取网络中的特色或模式,并固化这些模式和常识,泛化至业务零碎当中,造成企业的常识资产。 (4)“体”:最初,当遇到多层次、多维度的网络时,有异构图剖析能力的常识图谱能够帮忙企业造成语义网络,比方说将企业上下游、舆情信息等多源异构的网络进行整体剖析,造成对某一标的的价格走势预判,最终实现对“体”的剖析。 图4 星环科技从“点”到“面”的平面智能剖析能力 星环科技从点至面的平面智能剖析计划,其底层除反对TDH极速大数据平台外,利用联邦计算技术可集成多个异构数据源、跨平台的数据领有方,做到在不间接进行数据交换的前提下,取得整体数据的计算结果。此外,基于多模型的大数据技术架构,可通过8种独立的存储引擎反对业界支流的10种存储模型,对于用户来说,可对关系型数据、文本数据、天文空间数据、图数据、时序数据等进行对立的存储、查问计算和交融剖析。 咱们置信,图数据库作为Gartner公布的2021数据分析十大技术之一,将以极大的潜能开掘海量数据的有限价值,并辅以常识图谱等AI驱动的开发工具,从图计算及图模式摸索中一直积淀新的业务规定,实时赋能下层业务。随着图计算和解决技术的一直遍及,企业能通过把握从“点”到“线”至“面”的平面智能剖析能力,一直积攒常识和业务深层法则,最终形成企业松软的业务壁垒。

September 28, 2021 · 1 min · jiezi

关于知识图谱:初学者入门知识图谱必看的能力推理

摘要:本文从常识推理的基本概念登程,通俗易懂得介绍了常识图谱常识推理的利用和办法。本文分享自华为云社区《0根底入门常识图谱的超能力——常识推理》,作者:Cheri Chen。 一、常识推理的概念推理是使用逻辑思维能力,从已有的常识登程,得出未知的、隐性的常识。 具体到常识图谱中,所谓的常识推理,就是利用图谱中现有的常识(三元组),失去一些新的实体间的关系或者实体的属性(三元组)。如下图所示:如果原来的常识图谱中有这样两个三元组,<姚明,妻子,叶莉>和<姚明,女儿,姚沁蕾>,通过常识推理,能够失去<姚明,女儿,姚沁蕾>。 二、常识推理的利用常识补全理论构建的常识图谱,通常存在不齐备的问题,即局部关系或属性会缺失。常识补全呢,就是通过算法,补全常识图谱中缺失的属性或者关系。 如下图所示,以“姚沁蕾的妈妈是谁”为例。有一条常识是 “父亲的妻子是妈妈”,则可根据该常识,推理出姚沁蕾的妈妈是叶莉,进而补全“姚沁蕾”和“叶莉”之间的关系,晋升咱们这个简略的人物关系常识图谱的齐备性。 常识纠错理论构建的常识图谱还可能存在谬误常识。其中,实体的类型、实体间的关系、实体属性值均可能存在谬误。常识图谱的纠错是一个极具挑战的工作。这些谬误会影响常识图谱品质,进而影响基于常识图谱的利用。 咱们能够通过推理进行常识图谱纠错(如下图)。比方,在某个影视常识图谱中,虚线框中的实体《春光璀璨猪八戒》,其类型为“电影“。它的属性有集数,主题曲、片尾曲等。而其余同为”电影“类别的实体,其属性多蕴含上映期间、票房,且大多没有集数这个属性。则推理可知,《春光璀璨猪八戒》这个实体的类型大概率存在谬误,其正确类型应该是电视剧。 推理问答基于常识图谱的推理问答也是常识图谱推理的典型利用。基于常识图谱的问答,个别简称为KBQA。与传统的信息检索式问答相比,KBQA能够具备肯定的推理能力,这是它的劣势。基于常识图谱的推理问答,通常利用于波及多个实体,多个关系,多跳,比拟等绝对简单的问答场景中。 比方,“刘德华主演的电影中豆瓣评分大于8分的有哪些?“这样的问题。须要机器对该问题进行解析、了解,在常识图谱中实现查问、推理、比拟动作,找到《天下无贼》和《无间道》作为答案返回(如下图所示)。 三、常识推理的办法基于本体的推理本体是对畛域中概念和概念之间关系的形容。基于本体的推理是利用本体曾经蕴含的语义和逻辑,来对实体类型以及实体之间的关系进行推理。本体的形容模式是有标准的。RDFS、OWL等是一类满足特定标准和考究的用来表述本体的语言。 以RDFS为例:RDFS定义了一组用于资源形容的词汇:包含class,domain,range等。其自身就蕴含了简略的语义和逻辑。咱们能够利用这些语义和逻辑进行推理。 如下图中左侧的例子,谷歌的类型是一家人工智能公司,而人工智能公司又是高科技公司的子类,那么可推理,谷歌的也是一家高科技公司。右侧例子中,定义了投资这种关系的domain是投资人,range是公司。能够简略的认为,投资这种关系的头节点都是投资人这种类型、尾节点都是公司这种类型。假如当初有一条事实是大卫 切瑞顿 投资 谷歌 。则能够推理出,大卫 切瑞顿的类型是投资人。这两个例子呢,便是利用了RDFS自身蕴含的语义和逻辑,来进行推理。 基于规定的推理基于规定的推理就是说,能够形象出一系列的规定,将这些规定利用于常识图谱中,进行补全纠错。这种思路也是很简略、直观的。基于规定的推理的长处是,推理后果精准,并且具备可解释性。因而规定推理在学术界和工业界都有宽泛的利用。 图中的例子,是人工定义了一些规定,包含“B是A的妻子,则A是B的丈夫”、“B是A的女儿,则A是B的父亲”等等。使用这些规定来进行推理,进而补全常识图谱的缺失关系。咱们能够利用这些规定,推理出“米歇尔的丈夫是奥巴马”、“玛利亚的父亲是奥巴马”等新的常识。 基于示意学习的推理前两种办法:本体推理和规定推理,都是基于离散符号的常识示意来推理的。它们具备强逻辑束缚,准确度高、易于解释等长处。然而不易于扩大。基于示意学习的推理,通过映射函数,将离散符号映射到向量空间进行数值示意,同时捕获实体和关系之间的关联,再在映射后的向量空间中进行推理。 常识图谱是由实体和关系组成,通常采纳三元组的模式示意:head(头实体),relation(实体的关系),tail(尾实体) ,简写为(h,r,t)。常识示意学习工作就是学习h,r,t的向量示意。如下图所示,不同的点示意了不同的常识。咱们能够找到一个适合的映射函数,让间隔较近的点,在语义上也是类似的。 基于示意学习的推理比拟形象和简单,这里举个简略的例子,推理“姚沁蕾的出生地是哪儿”。 假如咱们曾经找到了一个完满的映射函数,能够把常识图谱和一段蕴含相干信息的文本映射到同一向量空间。再对这些向量进行计算,比方把“姚沁蕾”、“在”、“当地医院”、“出世”几个向量简略相加后,达到了“休斯顿”这个向量,则能够推理出姚沁蕾的出生地是休斯顿。 [2021华为云 AI 实战营]——六大实战营课程单元制,随进随学,供大家收费学习。 点击关注,第一工夫理解华为云陈腐技术~

July 29, 2021 · 1 min · jiezi

关于知识图谱:本地生活综合性需求图谱的构建及应用

本地生存综合性需要图谱(GENE: lifestyle GEneral NEeds net),是从用户需要视角登程,深刻开掘本地生存场景下用户多样化的需要,并将其与多行业、多类型的供应造成关联的常识图谱,旨在晋升平台供需匹配效率,助力业务增长。本文介绍了本地生存综合性需要图谱的背景、体系设计和波及的算法实际,并展现了在美团多个业务线的利用落地,心愿给大家带来一些帮忙或启发。一、背景1.1 业务现状以“帮大家吃得更好,生存更好”为使命,美团笼罩了外卖、餐饮、酒店、民宿、游览、门票、电影/上演、休闲/玩乐、丽人、医疗、亲子、教育、结婚、生存服务等数百个行业,满足数以亿计用户的多样化生存服务需要。为了继续减少平台价值,除了推动用户和商户在数量和品质上的一直晋升之外,更高效地匹配用户需要和商户供应也是重要抓手之一。 为了晋升匹配的效率,咱们须要更充沛、深刻地了解用户需要和商户供应,并且尝试从用户视角登程来组织和治理供应。以后,“行业-类目-商户-商品”是一种较为常见的供应组织和治理形式,然而随着业务和行业的疾速倒退,这种组织形式带来的痛点日渐突显,举例来说: 局部指向性不明确的用户需要,较难失去适宜的匹配后果。例如“周末陪宝宝去哪儿玩?”因为平台的匹配后果不现实,用户往往只能在线下实现类目决策,决定带宝宝去农家乐烧烤,再到平台上搜寻相应的农家乐团购。局部需要跨多个类目,匹配过程不够晦涩。例如“周末和敌人去哪里放松一下?”用户在线下实现类目决策后,可选类目包含KTV、酒吧、密室、桌游等,但各类目标承载页面互相独立,用户须要在承载页面间来回切换。在局部指向明确的类目中,用户依然难以找到满足本人需要的供应。例如在医美类目下,因为不足相干常识,用户往往并不理解商户提供的不拘一格的服务项目别离具备什么效用,适宜什么部位,应该应用什么资料,无奈高效地找到适宜本人的服务供应。上述问题的实质起因在于供应的组织形式次要是从行业视角登程,没有充分考虑到用户视角。在以后以满足用户需要为首要指标的市场环境下,咱们须要迭代欠缺现有的供应组织形式。 1.2 问题解析为了解决上述问题,咱们尝试从一个内部视角,联合第一性原理去进行分析。在整个人类社会中,依照马斯洛需要档次[1]的实践,人的需要是能够被演绎及分层的。如果将人类社会看作一个零碎,人类在其中一个称为“市场”的子系统中,通过交易来满足本人的需要。 人类从需要档次登程,在市场中实现交易,最终需要得以满足,那么在市场中交易的过程能够被拆解为“起心动念->思考->抉择评估->交易购买->履约/服务”。并且,经由前三个阶段,用户的需要逐步从粗粒度演变为细粒度,从形象过渡到具象。上面将联合具体的例子来进行解读: 需要档次:在马斯洛需要档次中有一个情感档次,对应了人类丰盛多样的情感需要,蕴含亲情、情谊、恋情等等。作为一个母亲,与本人的宝宝之间往往存在一种强烈的母子情,并且心愿一直去强化这种情感。起心动念:为此,母亲往往都会尽力花较多的工夫去陪伴宝宝。通过减少陪伴形式的维度,变为“陪宝宝玩”;通过减少工夫、空间等维度,变为“周末陪宝宝去哪儿玩?”思考:对于上述问题,母亲会找出很多种计划,比方户外烧烤、农家采摘、主题公园等等。当她决定选用户外烧烤这一计划时,便会转化为具体的商品需要,如购买烤架。评估抉择:母亲于是在可触达的供应范畴中进行抉择。正如人们常说的货比三家,抉择的根据会各不相同,如价格、品质、口碑等等。交易购买:当实现抉择之后,母亲便会进行交易,以换取商品或服务。履约服务:即商品到货、实现服务等等。市场是人类社会的一个子系统,电商平台则是市场中的一个子系统。同时,电商平台是一种线上化的子系统,它提供了搜寻、举荐等模式的供应检索能力。以后的一个现状是:用户往往在线下实现了“起心动念”到“思考”的过程,转化为具体的商品/服务需要,随后进入电商平台实现“抉择评估”到“履约服务”的后续过程(如下图1所示)。而电商平台往往聚焦于后三个阶段的能力晋升,容易疏忽前两个阶段。 因而,用户较难造成在平台上实现“起心动念”和“思考”的心智,而大部分电商平台按“行业-类目-商户-商品”的形式对供应进行组织和治理。最终,用户和电商平台之间造成了一种互相掣肘的关系。 事实上,绝对于“烤架”这种明确的商品需要,用户还有很多形象的、含糊的、不明确的需要,仍然停留在前两个阶段。例如,周末陪宝宝去哪儿玩?周末和敌人去哪里放松一下?结婚前怎样才能让本人变得更美?寒假如何造就孩子的入手能力?同时,这样的需要往往逾越多个类目,或者在同类目下存在多种抉择。 电商平台只有突破既有的掣肘关系,向用户提供前两个阶段(起心动念、思考)的能力,能力进一步满足用户的需要。用户的决策老本进一步升高,决策过程更加连贯,用户体验也能失去相应的晋升,同时用户在市场中的交易过程也可能进一步实现线上化。 以“行业-类目-商户-商品”作为参考,如果电商平台可能辨认出用户在前两个阶段的需要,并且在其和供应之间建设新的关联关系,辅以搜寻、举荐等检索能力,用户便有可能在线上实现前两个阶段。而常识图谱作为一种揭示实体之间关系的语义网络,用以解决上述问题显得尤为适合。 二、解决方案2.1 解决思路连续1.2中的例子,这位母亲将“周末陪宝宝去哪儿玩?”的需要转化为具体的“户外烧烤”需要,延长至更为具体的“烤架”和“农家乐团购”需要。此时,母亲便会别离返回各类实物电商平台以及以美团为代表的生存服务电商平台进行“抉择评估”。两种电商平台别离在实物供应池或服务供应池中采纳搜寻、举荐之类的召排技术定位到具体的商品/服务,并反馈给这位母亲。 对于1.2中的所述,技术团队冀望达成的目标,目前比拟有代表性的参考案例是阿里巴巴电商认知图谱AliCoCo[2]。它根本构建思路是从用户视角登程,先进行各种类型的原子词开掘,再进一步对原子词进行组合和挖掘出相干候选短语,再从中辨认出实在的用户需要,最初关联至相应的供应。它的层次结构如图2所示: 分类层:构建齐备的分类体系,蕴含了的大千世界的各种分类,既有通用的空间、工夫等类别,也有电商中波及的色彩、性能以及最为重要的品类等类别。原子概念层:在分类层诸多类别的根底上进行扩大,蕴含了各种类别下的原子概念(例如空间->户外、事件->烧烤、工夫->圣诞节、色彩->红色、性能->保暖、品类->连衣裙)及原子概念之间的关系。电商概念层:在原子概念层之上,蕴含了由原子概念组成或间接开掘的短语粒度的用户购物需要,即电商概念(例如户外烧烤),从而将用户购物需要显式地用一个合乎自然语言的短语示意。商品层:蕴含了商品与各种原子概念、电商概念之间的关联关系(例如户外烧烤->烤架、黄油、锡纸)。 基于上述图谱,这位母亲能够间接在天猫上表白“户外烧烤”的需要,而非更具体的“烤架”;天猫也会将烤架以外其余和户外烧烤相干的重要商品反馈给这位母亲。从对应关系来看,AliCoCo的电商概念层对应至“思考”阶段,商品层对应至“抉择评估”阶段。显然,因为AliCoCo的存在,天猫可能从“思考”阶段开始染指用户的交易过程。 由此推论,咱们应该能够将图谱构建得更为残缺,以笼罩“起心动念”阶段。在此阶段,人类的需要,按马斯洛需要档次,通过减少一个或多个维度束缚,而被逐步具象化。对于这样的维度束缚,咱们统称为“场景束缚”。因而,咱们将“思考”阶段对应的需要称为“具象需要”;将“起心动念”阶段对应的需要称为“场景需要”。为此,咱们心愿构建一个本地生存综合性需要图谱(GENE:lifestyle GEneral NEeds net),如下图3所示。对于本地生存场景下所波及的数百个综合性行业,咱们认为新的供应组织形式更能贴近用户需要,也是从用户视角去解决供需匹配的问题。 2.2 具体计划连续2.1中的构建思路,咱们尝试构建一套多层次的图谱构造,并将“具象需要”和“场景需要”拆分为独立的档次,既防止了两种类型的需要合在同一层级中而引起混同,又能对用户场景化的需要进行更详尽的拆解、更丰盛的刻画。本地生存综合性需要图谱(GENE),次要由六局部形成,蕴含场景需要层、场景因素层、具象需要层、需要对象层、行业体系层和供应层,如下图4所示: 在场景需要层,咱们用Human-Readable的短句来表征场景化的用户需要,如“国庆节陪3岁宝宝去哪玩”、“结婚前让本人变得更美”、“小学生晋升思维能力”等。一个场景需要的表述中,通常会蕴含人物、目标、工夫、空间、形式等因素,以“国庆节陪3岁宝宝去哪玩”为例,“3岁宝宝”是人物,“陪宝宝玩”是目标,“国庆节”是工夫。 在场景因素层,为了更好地表白场景需要,咱们将这些短句进行拆解,细化成多个细粒度的词汇,用这些词汇对场景需要中的人物、目标、工夫、空间、形式等因素进行残缺的笼罩和零碎的组织,咱们将其称为“场景因素”。 在具象需要层,因为场景需要的表述往往并不显式地指向某个具体的服务/供应,而是隐含了一批潜在的适宜这一场景的服务/供应。例如,在“国庆节陪3岁宝宝去哪玩”这个例子中,户外烧烤、喂羊驼、玩滑梯、骑小马等都是适宜这一场景需要的具体服务。所以咱们须要将所有这些具体的服务通过短语的模式显式的展示进去,这些短语间接反馈了用户具体的服务需要,被称之为“具象需要”。 在需要对象层,为了进一步的了解具象需要,咱们将具象需要分为具体的服务需要所对应的对象,咱们称之为“需要对象”,以及该服务中用户和对象之间的交互行为。例如,对于具象需要喂羊驼,能够分为羊驼(需要对象)和喂(服务交互),因为本地生存服务的多样性,围绕羊驼这一需要对象,除了喂羊驼外,还能够产生触摸羊驼、骑羊驼和看羊驼表演等多种具象需要。这一层除了蕴含需要对象节点外,也会涵盖需要对象的属性信息,以对需要对象进行更详尽地形容。例如对于具象需要户外烧烤,可分为烧烤(需要对象)、户外(需要对象属性)和体验(隐含的服务交互)。 在行业体系层,因为用户的场景需要和具象需要往往会逾越多个传统的服务类目,为了给用户需要确定一个具体的业务范围,咱们还须要构建出各行业波及的类目体系,作为上述各层构建的业务根底。 在供应层,蕴含内容这类虚构供应和商户与商品这类实体供应,这些供应将会和具象需要和场景需要等节点进行关联,从而为用户需要提供绝对应的供应撑持。例如,一个提供户外烧烤的供应将会关联上具象需要“户外烧烤”,并进一步关联上场景需要“国庆节陪3岁宝宝去哪玩”。 综上所述,在本地生存综合性需要图谱中,用户场景化的需要和具体的服务需要被别离表白成短句级别的场景需要和短语级别的具象需要。这两种需要别离通过场景因素和需要对象进行表白。最初,不同类型的供应都会和场景需要和具象需要相关联,从而以用户需要为纽带,晋升供应和用户的匹配效率。 三、实现办法以后,本地生存综合性需要图谱曾经初步涵盖了用户在玩乐、医美和教育三个本地生存相干行业中的多元化需要。咱们在图谱的构建过程中,自底向上依照行业体系层、需要对象层、具象需要层、场景因素层、场景需要层的程序逐层进行构建,并将各层的节点与各种类型的供应建设关联关系。下文将以玩乐行业为例,对图谱每一层的构建细节以及波及的算法进行介绍。 3.1 行业体系层3.1.1 行业类目树的构建在玩乐行业中,行业体系层蕴含了可能提供玩乐服务的类目,类目信息通过一个树形构造来表征。因为玩乐行业体系的构建,对专家常识的要求十分高,并且这部分的设计对后续各层的常识开掘至关重要,因而咱们没有间接进行人工定义,而是以以后咱们成熟的行业类目树为根底,通过对其进行剪枝和决裂来构建。 首先在类目树中筛选出和玩乐相干的一级类目节点,包含“休闲娱乐”、“亲子”、“游览”、“餐饮”等。对于每个一级类目,咱们进一步筛选其和玩乐相干的下一级类目直至叶子类目,并剪去与玩乐无关的类目。此外,咱们还对剪枝后的类目树中能够细分的玩乐相干的叶子类目进行决裂,例如将“洗浴”细分为“私汤”、“洗浴核心”等,最终失去残缺的玩乐行业类目树。 3.1.2 类目标供应关联确定了类目树后,咱们还须要获取实体供应(商户和商品)和虚构供应(内容,例如UGC)与类目标从属关系,从而为后续的一系列开掘提供数据反对。因为商品和内容均可链接到商户,所以咱们只须要获取商户与类目标从属关系即可。玩乐类目树是对咱们已有的类目进行剪枝和决裂失去的,除了决裂出的新类目外,其余类目和商户的关系均可间接继承原有的后果。对于新决裂的类目,咱们则须要从新构建商户和其之间的从属关系。 要判断一个商户属于哪个类目,最直观的根据就是商户名、商品名及商品详情,然而很多商户的商户名和商品蕴含的信息往往较少,减少了类目判断的难度。为了确保商户类目判断的准确性,咱们引入更多的商户信息,包含商户UGC和商户画像,设计了一个多源异构数据交融判断模型,整体模型构造如下图5所示: 其中,不同起源数据的特征提取和解决形式如下: 商户名、商品名及商品详情:均为文本数据,间接通过BERT[3]提取文本特色后输入。商户UGC:因为商户的UGC往往数量十分多,为了对其信息进行无效利用,首先通过Doc2Vec[4]的形式进行Encode失去UGC的特色后,再通过一个Self-Attention[5]模块进行特色解决后输入。商户画像:转成One-Hot特色后,通过全连贯层进行非线性映射后输入。上述三种特色相连接后进行交融,通过全连贯层和softmax层实现最终的类目判断。基于多源数据的交融建模,商户信息失去了充分利用。以洗浴细分类目为例,仅利用商户名、商品名及商品详情数据,基于BERT判断,准确率为92%,而基于多源交融模型判断后,准确率晋升到98%。 3.2 需要对象层在需要对象层,咱们心愿可能挖掘出玩乐行业体系中各类目波及的玩乐对象词作为该层的节点,这些词可能形容出用户在理论玩乐过程中的交互对象,这是用于组成具象玩乐需要的根底。为了确保玩乐对象开掘的全面性,咱们采纳多源多办法的模式。 在数据上,咱们采纳来自商户和用户的相干文本作为开掘语料。在办法上,咱们采纳两种形式来开掘玩乐对象词: 第一种是无监督的裁减,在开始开掘前经营会首先依据教训,提供一些玩乐对象词作为种子输出,咱们提前利用语料构建无监督的Skip-Gram构造的Word2Vec模型,对业务输出的种子词提取词向量,并联合余弦类似度,疾速裁减相干的对象词。第二种是有监督的标注,咱们将其定义序列标注问题,采纳基于BERT+CRF的模型,在语料中自动识别出新的对象词。在实际过程中,为了更高效的开掘,咱们将无监督环节裁减和质检后的对象词在语料中进行文本匹配,并将匹配后果转化为有监督标注环节的训练样本;同时对于有监督标注的后果,通过经营质检后,也会将其作为无监督裁减的输出,通过两个环节相结合,咱们实现玩乐对象的开掘,残缺流程如下图6所示。此外,在经营人工审核玩乐对象词的过程中,对于一些业务已知的外围玩乐对象,也会间接输出业务侧曾经积淀的相干特色作为其属性,进一步欠缺玩乐对象的信息,例如对于“剧本杀”这一玩乐对象,减少相应的“实景”和“桌面”等类型属性。 在获取对象词后,咱们还须要晓得对象词属于哪个类目,以便下一步的具象需要开掘及供应关联,为此咱们构建对象词和类目之间的关系。通过各类目下的语料文本中提及对象词的次数来掂量两者关系,是最直观且准确率最高的办法。因而,咱们间接应用对象词在每个类目下的语料中进行文本匹配,通过词频高下来确定关系。同时,咱们进一步构建对象词之间的上下位和同义关系,以后常见的有通过投影和分类(如BERT句间关系模型)等办法来进行关系判断等有监督办法。在理论过程中,咱们采纳规定辅助人工的形式,基于对象词的统计特色及Pattern共现的后果领导人工疾速实现构建。 3.3 具象需要层3.3.1 具象需要开掘具象需要层能够看成是用户在玩乐行业中的具体服务需要的汇合,每个具象玩乐需要是该层的一个节点,由玩乐对象叠加用户与对象之间的多元化的交互行为及对象形容信息失去,它通过短语的模式表白出用户对于玩乐服务供应的实质诉求。具体玩乐需要开掘的流程流程能够分为两个步骤: 候选短语生成:围绕玩乐对象词,生成大量蕴含玩乐对象的短语,作为具象玩乐需要候选集。短语品质判断:建设一个语义判断模型从候选集中提取实在的具象玩乐需要。候选短语生成 在步骤1中,首先咱们以需要对象词为外围,采纳与玩乐对象开掘雷同的语料,进行候选短语的生成。罕用的短语开掘算法如AutoPhrase[6],是以Ngram来进行短语组合,而这种模式对于有需要对象的短语显得过于冗余,所以咱们思考基于句法结构来进行短语开掘。 为了使生成短语合乎句法的要求,咱们以预设的句法关系为模板进行开掘。在大规模语料中为了更高效地开掘句法关系,咱们基于更轻便的ELECTRA[7]预训练模型获取句子各成分的Embedding后,再利用BiAffine[8]预测其句法关系。通过依存句法分析,咱们在各个类目标语料中挖掘出蕴含相应的玩乐对象且合乎句法关系的短语。此外,需要对象层中对象的属性也会被用作对象形容进行短语生成。最终所有开掘的短语,通过词频等统计特色粗筛后将作为具象玩乐需要的候选集,开掘示例如图7(a)所示。 短语品质判断 在步骤2中,通过步骤1获取的候选集短语尽管合乎预设的句法关系,然而从语义上依然存在大量与用户理论需要不符的表述,通过抽检剖析咱们发现符合要求的短语有余10%。如何从海量的候选短语中挑选出反映实在的用户具象玩乐需要的短语成为亟需解决的问题。 AutoPhrase通过基于短语统计特色的判断模型进行短语打分,然而仅通过统计特色难以辨认语义品质低的短语,为此咱们进一步基于统计和语义特色联结建模,构建一个Wide&Deep[9]构造的判断模型,对候选汇合中的短语是否为具象玩乐需要进行判断,咱们心愿判断模型能过滤掉大量的低质短语,从而为经营节俭大量的人力老本。判断模型的整体构造如图7(b)所示,其中: Wide局部,提取候选短语的全局和上下文的统计特色,通过全连贯层进行非线性映射后输入。Deep局部,提取候选短语的深度语义特色,通过BERT实现相应特色的提取后输入。上述Wide和Deep局部输入的特色相连接后进行交融,优势互补,通过全连贯层和softmax层来实现最终的短语判断。在实际过程中,除了间接应用曾经积攒的短语标签作为正样本外,咱们还通过预设一些常识性的Pattern从候选集中结构正样本,例如参观[动物]、触摸[动物],并对候选集采样结构负样本,实现初版模型的训练,之后联合被动学习,通过多轮迭代,模型最终达到92%的召回率和85%的准确率。通过品质判断后保留的短语则会交由经营人工审核提炼后成为最终的具象玩乐需要。 3.3.2 具象需要的供应关联在具象需要层中,因为具象玩乐需要是由玩乐对象失去的,所以两者之间人造地建设了对应关系。而对于具象玩乐需要之间的上下位和同义关系,则能够基于其对象之间的关系及其句法关系,在人工审核的环节来辅助人工实现构建。除此之外,更重要的是须要将具象玩乐需要与实体供应(商户和商品)及虚构供应(内容,例如UGC)进行关联。 咱们将这个问题形象为一个语义匹配的问题,通过具象玩乐需要与其对应的类目标供应的文本信息进行匹配来实现,其中,商户应用商户名文本信息,商品应用商品名和商品详情文本信息,UGC应用其本身文本信息。因为UGC和商品属于商户的一部分,所以具象玩乐需要与UGC/商品的关系也会退出其与商户关系的构建中。整体匹配流程如下图8所示,咱们首先进行具象玩乐需要与UGC/商品的匹配,在此基础上再联合商户名文本的匹配后果,一起通过规定聚合后关联到商户。 ...

July 19, 2021 · 2 min · jiezi

关于知识图谱:社交软件上你可能认识的人到底是怎么找到你的

摘要:你老死不相往来的EX,早已记不起面貌的初中同学、前共事、甚至你最不想见到的人——你的BOSS,这些人是怎么呈现在你社交软件举荐用户的名单里的呢?这其中关键技术便是:知识库的链接预测,又称为常识图谱补全。众里寻他千百度,蓦然回首,那人却在举荐名单处。 社交软件最牛的中央之一,肯定是用户关系的深度开掘。明明你曾经拉黑了某些人的电话、微信、以及所有社交账号,但TA还是毫不例外地呈现在页面上“你可能意识的人”里。这些人包含你老死不相往来的EX,早已记不起面貌的初中同学、前共事、甚至你最不想见到的人——你的BOSS。 ▲抖音-发现敌人 那么,这些人是怎么呈现在你的名单里的呢? 这其中关键技术便是:知识库的链接预测,又称为常识图谱补全。 一图了解什么是常识图谱?常识图谱是一种将常识写成结构化三元组的多关系图,蕴含了实体、概念和关系。 实体指的是事实世界中的事物比方人名、地名、机构等。概念指的是具备同种个性的实体形成的汇合,如下图中的“运动员”、“金球奖”等。关系则用来表白不同实体之间的某种分割。 常识图谱用实体和关系组成图谱,为真实世界的各个场景直观建模。构建常识图谱的过程实质是建设认知、了解世界的过程。 如何进行常识图谱补全以小明为例,小明就任于位于五道口的新浪,零碎能够揣测出小明在北京工作。并将同样在北京新浪工作的小王举荐给了他。在下图中,蓝色的箭头示意示意已存在的关系,红色箭头为常识图谱补全后的关系。 常识图谱与常识示意学习的关系常识图谱是由实体和关系组成,通常采纳三元组的模式示意——head(头实体),relation(实体的关系),tail(尾实体),简写为(h,r,t)。常识示意学习工作就是学习h,r,t的分布式示意(也被叫做常识图谱的嵌入示意(embedding))。能够这么说,有了常识图谱的Embedding,AI式的常识图谱利用才成为可能。 如何了解嵌入示意Embedding? 简略来说,embedding是对一个对象(词、字、句子、文章…)在多个维度上的形容,相当于通过数据建模的办法来形容一个对象。 举个例子,咱们常常用到的Photoshop里对于色彩的RGB表示法就属于一种非典型的embedding。在这里色彩被拆成三个特色纬度,R(红色强度,取值范畴0-255),G(绿色强度,取值范畴0-255),B(蓝色强度,取值范畴0-255)。RGB(0,0,0)就是彩色。RGB(41,36,33)就是象牙黑。通过这样的办法,咱们能够通过数字来形容色彩。 常识示意学习都有哪些办法常识示意学习的要害是设计正当的得分函数,在给定事实三元组为真的状况下咱们心愿最大化得分函数。它从实现模式上可分为以下两类: 基于构造的办法该类模型的根本思维是从三元组的构造登程学习常识图谱的实体和分割的示意,其中最为经典的算法是TransE模型。该办法的根本想法是头向量示意h与关系向量示意r之和与尾向量示意t越靠近越好,即h+r≈t。这里的“靠近”能够应用L1或L2范数进行掂量。原理图如下: 该类常识示意学习模型还有:TransH, TransR, TransD,TransA等。 基于语义的办法这类模型是从文本语义角度登程学习KG的实体和关系的示意。这类示意办法次要有LFM, DistMult, ComplEx, ANALOGY, ConvE等。 常识示意学习的利用因为基于示意学习,能够将常识图谱的实体和关系进行向量化示意,不便后续上游工作的计算,典型利用有以下几种: 1)类似度计算:利用实体的分布式示意,咱们能够疾速计算实体间的语义类似度,这对于自然语言解决和信息检索的很多工作具备重要意义。 如何进行类似度计算呢?举个例子。 假如"李白"这个词的embedding一共是5维,其值为[0.3, 0.5, 0.7, 0.03, 0.02],其中每个维度代表和某个事物的相关性,这五个数值别离代表[诗人,作家, 文学家,自由职业者,侠士]的含意。 而"王维"=[0.3, 0.55, 0.7, 0.03, 0.02],"牛顿"=[0.01, 0.02, 0.06, 0.4, 0.01],咱们能够用余弦间隔(几何中,夹角余弦可用来掂量两个向量方向的差别;机器学习中,借用这一概念来掂量样本向量之间的差别。)来计算这几个词的间隔,不言而喻李白和王维的间隔更近,和牛顿的间隔更远。 由此能够判断“李白” 和“王维”更为类似。 2)常识图谱补全。构建大规模常识图谱,须要一直补充实体间的关系。利用常识示意学习模型,能够预测2个实体的关系,这个别称为知识库的链接预测,又称为常识图谱补全。上文中“五道口小明”的例子能够很好的解释。 3)其余利用。常识示意学习已被宽泛用于关系抽取、主动问答、实体链接等工作,展现出微小的利用后劲。 主动问答是与常识示意学习深度联合的一大利用。对于智能问答产品来说,后盾设计时,个别分为3层,输出层、表示层、输入层。输出层简而言之就是问题库,这里汇合了所有用户可能会问到的问题。再通过表示层的常识抽取,最终返回后果。 典型的智能问答产品有苹果Siri、微软小冰、百度、阿里小蜜等。这些问答产品的一大特色是,能够使搜寻后果更精准,而不是返回一堆类似的页面让你本人去筛选,达到“所答即所问”。比方,搜寻“王思聪的身价多少”,返回来的后果就是具体的数字。 总结简而言之,社交产品基于常识图谱常识补全技术,通过实体和关系的示意对缺失三元组进行预测,在已知头实体以及头实体间的关系,预测其尾实体。也就是说,它们是依据用户画像来进行敌人举荐的,如果你不想那些“老熟人”呈现在你的举荐名单里,最好的办法是,关掉社交产品上的天文定位、尽可能少地走漏个人信息。 参考资料1、刘知远,孙茂松,林衍凯,谢若冰《常识示意学习研究进展》 点击关注,第一工夫理解华为云陈腐技术~

July 5, 2021 · 1 min · jiezi

关于知识图谱:常识性概念图谱建设以及在美团场景中的应用

常识性概念图谱,是围绕常识性概念建设的实体以及实体之间的关系,同时偏重美团的场景构建的一类常识图谱。本文介绍了美团常识性概念图谱构建的Schema,图谱建设中遇到的挑战以及建设过程中的算法实际,最初介绍了一些目前常识性概念图谱在业务上的利用。一、引言在自然语言解决中,咱们常常思考,怎么样能力做好自然语言的了解工作。对咱们人类来说,了解某一个自然语言的文本信息,通常都是通过以后的信息,关联本人大脑中存储的关联信息,最终了解信息。例如“他不喜爱吃苹果,然而喜爱吃冰淇淋”,人在了解的时候关联出大脑中的认知信息:苹果,甜的,口感有点脆;冰淇淋,比苹果甜,口感软糯、冰凉,夏天能解暑;小孩更喜爱吃甜食和冰淇淋。所以联合这样的常识,会推理出更喜爱冰淇淋的若干起因。然而当初很多自然语言了解的工作还是聚焦在信息的层面,当初的了解工作相似于一个贝叶斯概率,从已知的训练文本中寻找符合条件的最大化文本信息。 在自然语言解决中做到像人一样去了解文本是自然语言解决的终极目标,所以当初越来越多的钻研上,引入了一些额定的常识,帮忙机器做好自然语言文本的了解工作。单纯的文本信息只是内部客观事实的表述,常识则是在文本信息根底之上对外部客观事实的演绎和总结,所以在自然语言解决中退出辅助的常识信息,让自然语言了解的更好。 建设常识体系则是一种间接的形式,可能帮忙自然语言了解得更精确。常识图谱就是围绕这个思维提出,冀望通过给机器显性的常识,让机器可能像人一样进行推理了解。所以在2012年Google 正式提出了常识图谱(Knowledge Graph)的概念,它的初衷是为了优化搜索引擎返回的后果,加强用户的搜寻品质及体验。 二、常识性概念图谱介绍常识性概念图谱就是建设概念与概念之间的关系,帮忙自然语言文本的了解。同时咱们的常识性概念图谱偏重美团场景,帮忙晋升美团场景中的搜寻、举荐、Feeds流等的成果。 依照了解的需要,次要是三个维度的理解能力: 是什么,概念是什么,建设外围概念是什么的关联体系。例如“培修洗衣机”,“培修”是什么,“洗衣机”是什么。什么样,外围概念某一方面的属性,对外围概念某一方面的细化。“带露台的餐厅”、“亲子游乐园”、“水果千层蛋糕”中“带露台”、“亲子”、“水果千层”这些都是外围概念某一个方面的属性,所以须要建设外围概念对应属性以及属性值之间的关联。给什么,解决搜寻概念和承接概念之间的Gap,例如“浏览”、“逛街”、“遛娃”等没有明确对应的供应概念,所以建设搜寻和供应概念之间的关联网络,解决这一类问题。总结下来,涵盖“是什么”的概念Taxonomy体系结构,“什么样”的概念属性关系,“给什么”的概念承接关系。同时POI(Point of Interesting)、SPU(Standard Product Unit)、团单作为美团场景中的实例,须要和图谱中的概念建设连贯。 从建设指标登程,拆解整体常识性概念图谱建设工作,拆分为三类节点和四类关系,具体内容如下。 2.1 图谱三类节点Taxonomy节点:在概念图谱中,了解一个概念须要正当的常识体系,预约义好的Taxonomy常识体系作为了解的根底,在预约义的体系中分为两类节点:第一类在美团场景中能够作为外围品类呈现的,例如,食材、我的项目、场合;另一类是作为对外围品类限定形式呈现的,例如,色彩、形式、格调。这两类的节点的定义都能帮忙搜寻、举荐等的了解。目前预约义的Taxonomy节点如下图所示: 原子概念节点:组成图谱最小语义单元节点,有独立语义的最小粒度词语,例如网红、狗咖、脸部、补水等。定义的原子概念,全副须要挂靠到定义的Taxonomy节点之上。 复合概念节点:由原子概念以及对应属性组合而成的概念节点,例如脸部补水、面部补水等。复合概念须要和其对应的外围词概念建设上下位关系。 2.2 图谱四类关系同义/上下位关系:语义上的同义/上下位关系,例如脸部补水-syn-面部补水等。定义的Taxonomy体系也是一种上下位的关系,所以归并到同义/上下位关系里。 概念属性关系:是典型的CPV(Concept-Property-Value)关系,从各个属性维度来形容和定义概念,例如火锅-口味-不辣,火锅-规格-单人等,示例如下: 概念属性关系蕴含两类。 预约义概念属性:目前咱们预约义典型的概念属性如下: 开放型概念属性:除了咱们本人定义的公共的概念属性外,咱们还从文本中开掘一些特定的属性词,补充一些特定的属性词。例如,姿态、主题、舒适度、口碑等。 概念承接关系:这类关系次要建设用户搜寻概念和美团承接概念之间的链接,例如踏春-场合-植物园,减压-我的项目-拳击等。 概念承接关系以「事件」为外围,定义了「场合」、「物品」、「人群」、「工夫」、「效用」等可能满足用户需要的一类供应概念。以事件“美白”为例,“美白”作为用户的需要,能够有不同的供应概念可能满足,例如美容院、水光针等。目前,定义的几类承接关系如下图所示: POI/SPU-概念关系:POI作为美团场景中的实例,实例-概念的关系作为常识图谱中最初的一站,经常是比拟能施展常识图谱在业务上价值的中央。在搜寻、举荐等业务场景,最终的目标是可能展现出合乎用户需要的POI,所以建设POI/SPU-概念的关系是整个美团场景常识性概念图谱重要的一环,也是比拟有价值的数据。 三、常识性概念图谱构建图谱构建整体框架如下图所示: 3.1 概念开掘常识性概念图谱的各种关系都是围绕概念构建,这些概念的开掘是常识性概念图谱建设的第一环。依照原子概念和复合概念两种类型,别离采取相应的办法进行开掘。 3.1.1 原子概念开掘原子概念候选来自于Query、UGC(User Generated Content)、团单等文本分词后的最小片段,原子概念的判断规范是须要满足流行性、有意义、完整性三个个性的要求。 流行性,一个概念应是某个或某些语料内风行度较高的词,该个性次要通过频率类特色度量,如“桌本杀”这个词搜寻量很低且UGC语料中频率也很低,不满足流行性要求。有意义,一个概念应是一个有意义的词,该个性次要通过语义特色度量,如“阿猫”、“阿狗”通常只表一个单纯的名称而无其余理论含意。完整性,一个概念应是一个残缺的词,该个性次要通过独立检索占比(该词作为Query的搜寻量/蕴含该词的Query的总搜寻量)掂量,如“儿童设”是一个谬误的分词候选,在UGC中频率较高,但独立检索占比低。基于原子概念以上的个性,联合人工标注以及规定主动结构的训练数据训练XGBoost分类模型对原子概念是否正当进行判断。 3.1.2 复合概念开掘复合概念候选来自于原子概念的组合,因为波及组合,复合概念的判断比原子概念判断更为简单。复合概念要求在保障残缺语义的同时,在美团站内也要有肯定的认知。依据问题的类型,采纳Wide&Deep的模型构造,Deep侧负责语义的判断,Wide侧引入站内的信息。 该模型构造有以下两个特点,对复合概念的合理性进行更精确的判断: Wide&Deep模型构造:将离散特色与深度模型联合起来判断复合概念是否正当。Graph Embedding特色:引入词组搭配间的关联信息,如“食品”能够与“人群”、“烹饪形式”、“品质”等进行搭配。3.2 概念上下位关系开掘在获取概念之后,还须要了解一个概念“是什么”,一方面通过人工定义的Taxonomy常识体系中的上下位关系进行了解,另一方面通过概念间的上下位关系进行了解。 3.2.1 概念-Taxonomy间上下位关系概念-Taxonomy间上下位关系是通过人工定义的常识体系了解一个概念是什么,因为Taxonomy类型是人工定义好的类型,能够把这个问题转化成一个分类问题。同时,一个概念在Taxonomy体系中可能会有多个类型,如“青柠鱼”既是一种“动物”,也属于“食材”的领域,所以这里最终把这个问题作为一个Entity Typing的工作来解决,将概念及其对应上下文作为模型输出,并将不同Taxonomy类别放在同一空间中进行判断,具体的模型构造如下图所示: 3.2.2 概念-概念间上下位关系常识体系通过人工定义的类型来了解一个概念是什么,但人工定义的类型始终是无限的,如果上位词不在人工定义的类型中,这样的上下位关系则没方法了解。如能够通过概念-Taxonomy关系了解“西洋乐器”、“乐器”、“二胡”都是一种“物品”,但没方法获取到“西洋乐器”和“乐器”、“二胡”和“乐器”之间的上下位关系。基于以上的问题,对于概念-概念间存在的上下位关系,目前采取如下两种办法进行开掘: 基于词法规定的办法:次要解决原子概念和复合概念间的上下位关系,利用候选关系对在词法上的蕴含关系(如西洋乐器-乐器)开掘上下位关系。 基于上下文判断的办法:词法规定能够解决在词法上存在蕴含关系的上下位关系对的判断。对于不存在词法上的蕴含关系的上下位关系对,如“二胡-乐器”,首先须要进行上下位关系发现,抽取出“二胡-乐器”这样的关系候选,再进行上下位关系判断,判断“二胡-乐器”是一个正当的上下位关系对。思考到人在解释一个对象时会对这个对象的类型进行相干介绍,如在对“二胡”这个概念进行解释时会提到“二胡是一种传统乐器”,从这样的解释性文本中,既能够将“二胡-乐器”这样的关系候选对抽取进去,也能同时实现这个关系候选对是否正当的判断。这里在上下位关系开掘上分为候选关系形容抽取以及上下位关系分类两局部: 候选关系形容抽取:两个概念从属于雷同的Taxonomy类型是一个候选概念对是上下位关系对的必要条件,如“二胡”和“乐器”都属于Taxonomy体系中定义的“物品”,依据概念-Taxonomy上下位关系的后果,对于待开掘上下位关系的概念,找到跟它Taxonomy类型统一的候选概念组成候选关系对,而后在文本中依据候选关系对的共现筛选出用作上下位关系分类的候选关系形容句。上下位关系分类:在获取到候选关系形容句后,须要联合上下文对上下位关系是否正当进行判断,这里将两个概念在文中的起始地位和终止地位用非凡标记标记进去,并以两个概念在文中起始地位标记处的向量拼接起来作为两者关系的示意,依据这个示意对上下位关系进行分类,向量示意应用BERT输入的后果,具体的模型构造如下图所示: 在训练数据结构上,因为上下位关系表述的句子十分稠密,大量共现的句子并没有明确的示意出候选关系对是否具备上下位关系,利用已有上下位关系采取近程监督形式进行训练数据构建不可行,所以间接应用人工标注的训练集对模型进行训练。因为人工标注的数量比拟无限,量级在千级别,这里联合Google的半监督学习算法UDA(Unsupervised Data Augmentation)对模型成果进行晋升,最终Precision能够达到90%+,具体指标见表1: 3.3 概念属性关系开掘概念含有的属性能够依照属性是否通用划分为公共属性和凋谢属性。公共属性是由人工定义的、大多数概念都含有的属性,例如价位、格调、品质等。凋谢属性指某些特定的概念才含有的属性,例如,“植发”、“美睫”和“剧本杀”别离含有凋谢属性“密度”、“翘度”和“逻辑”。凋谢属性的数量远远多于公共属性。针对这两种属性关系,咱们别离采纳以下两种形式进行开掘。 3.3.1 基于复合概念开掘公共属性关系因为公共属性的通用性,公共属性关系(CPV)中的Value通常和Concept以复合概念的模式组合呈现,例如,平价商场、日式操持、红色电影高清。咱们将关系开掘工作转化为依存剖析和细粒度NER工作(可参考《美团搜寻中NER技术的摸索与实际》一文),依存剖析辨认出复合概念中的外围实体和润饰成分,细粒度NER判断出具体属性值。例如,给定复合概念「红色电影高清」,依存剖析辨认出「电影」这个外围概念,「红色」、「高清」是「电影」的属性,细粒度NER预测出属性值别离为「格调(Style)」、「品质评估(高清)」。 依存剖析和细粒度NER有能够相互利用的信息,例如“毕业公仔”,「工夫(Time)」和「产品(Product))」的实体类型,与「公仔」是外围词的依存信息,能够相互促进训练,因而将两个工作联结学习。然而因为两个工作之间的关联水平并不明确,存在较大噪声,应用Meta-LSTM,将Feature-Level的联结学习优化为Function-Level的联结学习,将硬共享变为动静共享,升高两个工作之间噪声影响。 模型的整体架构如下所示: ...

June 28, 2021 · 4 min · jiezi

关于知识图谱:如何高效地存储与检索大规模的图谱数据

摘要:本文简要介绍常识图谱的存储与检索相干的常识。本文分享自华为云社区《常识图谱的存储与检索》,原文作者:JuTzungKuei 。 1、概述背景:随着互联网的倒退与遍及,一个万物互联的世界正在成型。与此同时,数据呈现出爆炸式的指数级增长,咱们正处于一个数字洪流波澜壮阔的新时代。 咱们每天产生多少数据?据统计每天: 发送 5 亿条推文博客;发送 2940 亿封邮件;全世界每天有 50 亿次在线搜寻;一辆联网汽车会产生 4TB 的数据;Facebook 每天产生 4PB 的数据,其中蕴含 3.5 亿的照片以及 1 亿小时的视频。常识越来越多,目前常见的常识图谱都是以三元组的数据模式形成。 DBpedia 有近 8 千万条三元组;YAGO 有超过 1.2 亿三元组;Wikidata 有近 4.1 亿三元组;Freebase 有超过 30 亿三元组;中文百科有约 1.4 亿三元组。 所以,咱们该如何高效地存储与检索大规模的图谱数据??? 常识图谱是一个有向图构造,形容了事实世界中存在的实体、事件或者概念以及它们之间的关系。其中,有向图中的节点示意实体、事件或者概念,图中的边示意相邻节点之间的关系。 图中展现了对于刘德华的常识图谱部分示意图。图中红色字体示意概念,矩形框示意实体,蓝色字体示意属性,椭圆示意属性值,橙色字体示意关系。 概念:人物、国家、电影等实体:刘德华、朱丽倩、中国、天下无贼等属性:身高、体重、性别、首都、简称、上映工夫、豆瓣评分等关系:妻子、女儿、国籍、主演等2、常识图谱的存储常识图谱中的常识是通过 RDF 构造进行示意的,其根本形成单元是事实。 每个事实是一个三元组:<主语 S, 谓语 P, 宾语 O>,其中: 主语 S:能够是实体、事件、概念谓语 P:能够是关系、属性宾语 O:能够是实体、事件、概念、一般值上面展现了常识图谱中常识示意的三元组列表。 <S, P, O> <刘德华, 生日, 1961 年 9 月 27 日> <刘德华, 血型, AB 型> <刘德华, 妻子, 朱丽倩> ...

May 12, 2021 · 2 min · jiezi

关于知识图谱:知识图谱内容调研

常识图谱内容调研是什么 常识图谱的实质是揭示实体之间关系的语义网络。利用实体和关系来表白主观世界的对象以及不同对象之间存在的关系,提供了组织、治理和了解海量非结构化信息的能力,且对信息的刻画形式更靠近于人类认知世界的模式。例如,实体“《静夜思》”和实体“李白”之间存在关系“创作者”,其结点代表实体(Entity)或者概念(Concept),边代表实体或概念之间的各种语义关系。 解决什么问题 因为互联网数据存在着多元异构性和高度动态性,并且内容丰盛波及范围广,不同的数据之间存在简单的关联性。因而传统的数据存储、治理和查问模式曾经无奈满足当今人们对常识的需要。开发者心愿可能从海量互联网数据中获取并治理无效的信息,同时让计算机主动了解并剖析网络数据中的内容,从而精确、高效的开掘数据资源中所蕴含的价值信息。常识图谱技术的提出为更好地组织、治理和了解互联网中的海量信息提供了一种卓有成效的解决方案,其常识表白的办法也更靠近人类认知世界的模式。 现有的视频指标信息开掘次要还是人工操作,大部分摄像头所录制的视频只有通过人眼查看能力发现视频中的无效监控信息,面对海量的视频,无限的人力很难防止脱漏视频中的一些重要信息,且消耗了大量的人力,没有展现出很好的智能性。如何基于海量的视频,构建一套自动化办法,对视频进行信息提取,开掘视频中潜在的无效信息,是当今智能化时代的趋势。 基于视频知识库的构建是一个创新性的办法,可能对大量的视频自动化地提取无效信息,常识图谱是基于文本的知识库的构建,视频图谱在监控视频上构建语义信息。视频图谱有很高的理论利用价值,比方在公安畛域,通过构建视频图谱,可能挖掘出频繁同行的犯罪团伙;在住宅小区或者工厂等小型区域,能够区别常驻人员和外来人员。视频图谱的构建和开掘钻研大大降低了人力老本,系统性地构建了监控视频中的行人、车辆、物品等关系模型,可用于疾速信息检索等方面。因而,钻研一种基于监控视频的视频图谱构建和开掘办法具备很高的价值。 钻研现状及发展趋势常识图谱构建利用实际 在常识图谱倒退的晚期阶段,常识的起源次要依赖于各种百科全书、网络词典文集和百科网站等结构化数据,并且通过人工合作的形式构建实现,期间具备代表性的工作包含YAGO,DBpedia和Freebase等知识库。因为常识图谱技术的疾速遍及与利用,大量的结构化数据已无奈满足人们的需要,因而现阶段常识图谱中的数据起源次要是互联网海量纯文本等非结构化信息,并采纳凋谢域信息抽取技术主动构建,代表性成绩包含谷歌公司的KnowledgeVault和卡耐基梅隆大学的NELL(Never-EndingLanguageLearning)我的项目等,相干成绩如下图 国外在常识图谱的构建方面取得的重要停顿次要为谷歌公司所开发的Knowledgevault,将维基百科作为根底的Freebase以及DBpedia,其中Freebase将维基百科作为数据起源,并从中抽提结构化数据,借助人工编制的模式实现了2000余万条实体的结构,逐步成为了Google常识图谱重要形成内容。DBpedia则是由莱比锡大学与曼海姆大学共同开发的跨语言知识库,同样将维基百科作为根本数据起源,应用固定模式将结构化信息抽提进去,采纳关联的模式公布信息。DBpedia具备了4000余万条实体和5亿件事实信息。国内以后所公布常识图谱产品蕴含了百度知心、搜狗知立方以及清华大学所开发的XLore、上海交大开发的Zhishi.me等。 以上这些知识库都是基于网页中的文本数据构建而成的,只可能答复对于文本中的一些相干问题。一些学者也尝试为图像构建知识库,如斯坦福大学李菲菲团队构建的VisualGenome知识库,其应用“众包”形式对108249个图像进行解析,提取了420万个区域描述、170万个可视问答、210万个对象实例、180万个属性和180万个关系。基于该知识库,构建一系列的智能检索和剖析利用,如基于场景图(SceneGraph)的图像检索、可视主动问答。和图像题目主动生成等。 现有的知识库次要面向文本数据,面向图像的只有VisualGenome,而面向监控视频数据的知识库依然空缺。知识库是对原始数据进行语义了解和剖析之后的两头后果,相对来说,面向文本的知识库构建更为容易,而图像和视频数据的知识库构建难度更大。鉴于监控视频大数据的数据量之大,很难像VisualGenome一样用“众包”形式构建,因此须要用自动化形式对监控视频进行解析。此外,知识库是为下层智能剖析和查问服务,因而面向监控视频大数据的知识库须要紧扣监控视频剖析利用需要。 常识图谱构建技术目前常识图谱的构建技术钻研根本还是针对文本信息,自然语言的钻研。 命名实体辨认技术 在进行文本处理之前,须要进行命名实体辨认,此时要用到命名实体辨认技术,这是自然语言解决的前置工作。随同着大数据技术以及人工智能技术的继续倒退,研究者对于命名实体辨认工作所发展的钻研工作日益增多,相干技术取得了继续倒退,并获得了突出成绩。在利用不断深入的背景下,命名实体辨认缓缓成为情感剖析、语义检索、主动问答以及机器翻译等钻研工作的前提和根底。比方如何从大量非结构化语料文本中自主、准确的将命名实体抽提进去,曾经成为了国内外学术界关注的焦点。国外在很早之前就开始了对命名实体辨认的钻研,并不断深入。目前,国外学者所发展的钻研工作更加偏向于采纳监督、半监督机械学习办法辨认用英文语料文本,针对规定、办法所发展的钻研工作曾经十分少见。在英文语料文本的辨认中常常采纳的模型、办法包含了最大熵模型、隐马尔可夫模型、决策树、条件随机等。不同于英文语料文本,中文辨认难度较大,国内学者从国外研究成果中抽提出了无效的办法,联合中文的理论状况,对其开展了无效地摸索。常常应用的办法通常是人工从语料当中抽提出特色,联合数学模型对其命名实体辨认。从研究成果上看,俞鸿魁等人创造性的给出层叠隐马尔可夫模型,把多种实体类型辨认融入到了具体的数学模型中,最终结果表明其可能更加容易的发现未登录实体,同时对于复合实体的辨认也有肯定的促进作用。周俊生将中文实体前后缀作为特色,将条件随机场办法作为根底,对人民日报语料开展了剖析,并取得了良好的后果。随着钻研的不断深入,更多试验结果表明,条件随机场也可能用于辨认中文命名实体,把条件随机场作为前提与根底的命名实体辨认技术开始受到了学术界的广泛必定。 关系抽提技术 在上世纪九十年代,MUC-7率先颁布了实体关系抽提相干钻研工作,其被看做是信息抽取子工作。随同着MUC停办,ACE会议齐全接替了MUC内容,持续钻研以意料文本作为根本内容的主动抽取办法。ACE工作外围为信息抽取,在理论工作的发展过程中须要一直地拓展工作牵涉到的各个领域及不同的语言。这两个会议对于自然语言解决工作中信息抽提的进一步倒退有着踊跃的推动作用。在人工智能、大数据等相干技术的倒退背景下,人们将更多的关注点集中在信息抽提技术层面,并且将其看做是信息抽取工作的前置工作,关系抽取也开始失去了诸多学者的宽泛关注,他们为了欠缺与健全关系抽取实践而源源不断地投入精力,独特推动抽提技术的有序倒退,在理论利用中广泛应用关系抽取研究成果。关系抽取的对象为非结构化语料文本,目前钻研办法蕴含了基于模型匹配、机器语言以及语义网络等诸多内容。ChinatsuAone等人借助模式匹配思维构建了关系抽提零碎,通过人工编写关系抽取规定,保障了文本和抽取规定之间的匹配度,失去了实体关系实例。该零碎采纳了绝对灵便的架构模块,利用规定、模块一直地批改、欠缺该零碎。RomanY结构了Proteus零碎,其是一种基于样本泛化的关系抽取模式,用户能够对存在特定类型关系demo开展剖析,总结关系特色,并且把关系特色形象为特定的模型,该零碎能够取得良好试验成果。 现有计划调研基于常识图谱的视觉指标关系建模的利用 一、针对于罪犯的常识图谱构建与利用关键词:开掘视觉指标潜在语义关联,建设多元化的指标关系图谱,基于常识图谱实现对指标的更高效了解与表白。 1.涉案实体辨认 先将监控视频中辨认到的罪犯主体的信息标注为词汇,将监控图像中的罪犯信息细分为人名、机构名、地名、工夫、日期、货币、交通工具和武器等实体。实体辨认分人工辨认和自动识别。人工辨认绝对精确,但效率低,仅实用大量样本的解决。自动识别分为两大类:基于规定的实体辨认和基于机器学习的实体辨认,机器学习辨认又分为基于特色和基于神经网络。基于规定的办法实用于英文环境,国外晚期零碎均采纳此法。基于词典办法依附匹配规定简略无效,对中文反对较好,但构建词典耗时耗力。机器学习办法则利用已标注的语料库训练模型,应用特定字或词命名实体整体或局部。其后,基于LSTMCRF的深度学习被用于实体辨认。因为工作和需要不同,实体辨认的粒度也不同。实体辨认粒度越小则难度和开销越大,但指导意义更大。以后,困扰实体辨认的因素包含实体命名模式多变、语言环境简单和实体存在歧义等。 2.实体消歧 因为模式和语义简单,实体辨认后需进行一致性校验,即实体消歧。其起因在于:同一实体可能有不同的称呼,同一名称可能示意不同的实体。消歧的个别办法为有监督的机器学习。分类办法通过构建正负实例、指称-实体对等模式通过有监督形式进行学习,获取二元分类模型以实现实体消歧。机器学习排序办法分三类,PointWise应用近似回归模型计算候选匹配实体的得分并排序,得分越高则越偏向为同一实体;PairWise将候选项匹配成对,利用项与项间的绝对地位关系构建训练样本,采纳分类办法训练排序感知机实现消歧;ListWise则将査询后果排序列表视为训练实例,利用ListNet算法训练排序模型进行消歧。基于图的办法将情报中的实体指称及其候选实体形成图构造,利用两者的关联实现协同消歧。混合模型综合使用多种模型取得各自消歧后果,最初通过比拟失去最优后果,成果好于单模型。实体消歧过程要防止实体的脱漏和散失,免得数据失真。 3.实体关联提取 实体关联是构建立功常识图谱的外围环节,将监控信息从画面和文字层面回升到内容层面。在立功情报方面,实体关系次要体现人(组织)、物或事为核心的两方或多方关联,须要时还可退出工夫或地点。其难点在于同一关系表述不同、关系波及实体多、同一词汇标注表白不同关系和存在隐性关联等。基于模板的办法是关系抽取的传统办法,依据实体指称的画面上下文关系参照模板提取关系。基于机器学习的办法分为有监督学习和弱监督学习两类。有监督学习办法通过分类算法学习人工标注的实体指称关联样本进行模型训练,造成语义关系分类器用于关系提取。基于弱监督学习办法以间隔监督为假如,对人工标注的局部图谱三元组样本进行学习以造成分类器,进而主动实现其余内容的关系抽取。Hasegawa等提出基于无监督技术的关系抽取,按实体特色进行全连通聚类,通过关系相似性确定实体关系的类型。视频、图片、语言等类型的情报信息间接进行关系抽取将是今后的倒退方向。 4.利用常识图谱剖析开掘立功情报基于图谱的立功信息搜寻传统的信息检索通过关键字匹配形式实现查找,未思考关键字的语义和上下文关系,检索品质不高。基于常识图谱的实体检索同时思考语义相似性和构造相似性,计算每个实体相干的三元组与用户查问之间的相关度,排序后失去候选实体。此外,常识图谱作为一种存在逻辑构造的有向连通图,可通过图模型进行建模检索,用检索对象的特色建设子图并构建图谱的图索引,通过子图筛选技术实现立功信息检索。当检索指标较简单时可综合多个图谱进行搜寻,基于图谱的问答技术用于进步搜寻成果。基于词典-文法的语义解析办法通过剖析问句,构建由节点、边和操作符组成的语义图,视其为图谱子图并映射到图谱中,通过图匹配实现检索。目前,基于常识图谱的简略问题检索根本成熟,但深层开掘问题、大规模搜寻和长尾问题等仍待钻研。基于图谱的案件推理常识图谱的结构化模式是其强于数据库的最大劣势,反对信息推理,可用于情报的补齐、质检和开掘,辅助研判。常识图谱推理着眼实体和关系,进行演绎推理和基于演绎的推理,由已有信息推断未知信息。归纳推理用于推理具体事实,利用逻辑规定取得某个事件的过程;演绎推理则着重提取常识图谱中的逻辑规定。演绎推理包含基于谓词逻辑的关系推理、基于概率逻辑的规定提取和基于随机游走的规定开掘等。归纳推理包含基于相信规定推理的关系预测,基于门路的关系推理等。常识图谱推理技术可辅助事件法则开掘、人员画像构建、特定群体发现、人物关系梳理等立功情报分析。二、基于监控视频的视频图谱构建与开掘1.视频图谱的设计与实现 常识图谱构建过程蕴含信息抽取、常识交融、常识加工。信息抽取从非结构化和半结构化数据中抽取实体、关系、实体属性,常识交融和常识加工对已有的信息进行语义消歧和常识推理等。视频图谱的构建与常识图谱相似,也是一个迭代的过程,采纳自底向上的构建形式,为了实现摄像头下的行人人脸特色的疾速提取,采纳深度卷积神经网络,对提取后的特色进行聚类,就能失去每个行人惟一的身份。为了存储主动提取的信息,须要设计一个联合图数据库的存储形式,采纳图数据库Neo4j进行实体、属性和关系数据的存储。节点作为实体,示意行人或者摄像头,边作为关系,示意行人之间、行人与摄像头之间的关系,属性作为实体的属性信息。 (1)图谱整体框架 视频图谱蕴含三个基本要素:节点、边和属性,其中节点能够示意对象(如视频文档、视频中的人、车和物品),边示意对象间的关系,节点和边均能够有多个属性。以行人为例,行人能够通过多个摄像头,对行人呈现的工夫、行人的特色信息进行记录,能够开掘行人之间的共现关系。视频图谱整体框架如下图所示。 视频图谱由多个视频对象组成,也能够用摄像头示意,示意一段监控视频或者一个摄像头。视频中呈现的行人、车辆等信息通过自动化提取办法提取进去,并且极记录行人、车辆的相干信息,例如行人编号信息、呈现的工夫信息,作为行人的属性信息示意在图谱中。通过共现关系剖析,找到图谱中具备共现关系的行人,也能够进而通过关系的连贯,找出对应的团伙。 (2)图谱构建的实现 基于监控视频的视频图谱的构建总体流程如下图所示。总共分为以下几个模块:人脸检测及特征提取、人脸聚类、实体关系存储、共现关系发现、图谱展现。 (1)人脸检测及特征提取模块包含:应用深度学习的办法检测摄像头视频流中的行人,提取行人的人脸特色等; (2)人脸聚类模块包含:应用基于密度的DBSCAN算法将检测到的人脸聚成不同的类别,调配不同的cluster_id等; (3)数据存储模块包含:应用图数据库Neo4j存储监控视频中呈现行人实体的信息,以及和摄像头之间的呈现关系等; (4)共现关系发现模块包含:计算给定摄像头范畴、给定工夫阈值条件下的行人之间的共现关系等; (5)图谱展现模块包含:应用前端展现框架展现视频图谱的样貌,提供交互式检索框等。 (3)行人人脸特征提取和聚类 视频图谱的自动化构建的根底是行人人脸检测和人脸特征提取,对于海量监控视频,将视频中呈现的行人自动检测并提取进去,作为视频图谱的行人实体。如下图所示,从监控摄像头中读取视频流并提取视频的关键帧,只关注关键帧是为了防止不必要的检测,可能视频中缩小人脸检测的次数,进步零碎的运行效率,距离几帧进行人脸检测即可。人脸检测和对齐应用MTCNN网络,网络的输出是视频帧,输入为蕴含人脸框和人脸关键点的图像。应用MTCNN网络检测人脸包含图像金字塔、P网络、R网络、O网络四个步骤。图像金字塔的作用是失去不同尺寸的输出图像,剩下的三个网络顺次串联,上一个网络的输入作为下一个网络的输出。对于检测后的人脸应用残差网络模型提取人脸的深度特色,残差网络的输出为上一步失去的对齐后人脸图像,输入为高维人脸特色。最初对特色进行聚类,将同一个人的不同人脸样本聚到雷同的类,聚类办法采纳基于密度的DBSCAN办法,类外部的间隔较为严密,类之间间隔较远,同一个类中的人脸示意同一个身份的行人的不同工夫被抓拍到的快照,不同类示意不同身份的行人,对每一个聚类进行编号,用来示意监控视频中行人的身份。 (4)实体与关系的存储 节点贮存,图数据库中节点示意实体,在视频图谱中,实体有行人、摄像头等。所以节点分为:行人节点和摄像头节点。基于Neo4j的标签规定,指定行人节点的标签为Person,摄像头节点的标签为Camera。标签是Neo4j数据库的分类信息,通过标签能够不便疾速进行匹配。 关系存储,图数据库中关系示意分割,视频图谱中,实体之间的分割是要害信息。关系建设在两个已知节点的根底上,关系分为单向关系和双向关系。在视频图谱中,有多种关系,例如行人和摄像头的关系,为呈现关系,能够指定为单向关系,开始节点为摄像头节点,完结节点为行人节点;摄像头之间的关系为连通关系,指定为双向关系。 属性存储,图数据库中不仅实体蕴含属性,关系也有属性信息。属性既存在于节点中,也存在于关系中。Person节点中能够存储行人呈现的工夫、行人的快照、行人的人脸特色等信息,Camera节点中能够存储摄像头的一些动态信息,例如摄像头的编号、地位形容、经纬度等信息;对于关系,以行人和摄像头之间的关系为例,一个关系对应于行人呈现在摄像头下的一次状况,存储工夫、快照等信息。 2.视频图谱的数据挖掘(1)共现关系的发现 在文献计量钻研畛域中,独特呈现的特色项之间存在着某种关联,关联水平能够应用共现频次来评估。例如,通过剖析一篇文章,要找到文章中两个人物之间的关系,个别认为,在同一篇文章中呈现的两个人物的名字有肯定的关联,统计全文呈现的关联次数,能够结构任何两个人物之间的共现关系。视频图谱中,共现关系与上述形容相似,场景和实体有所不同,在多个理论场景中,肯定范畴的时间跨度内,不同行人被摄像头一起抓拍到,则认为他们之间有肯定的分割。如下图所示,两人行人别离在工夫上被雷同的摄像头拍摄到,那么认为他们之间存在共现关系。 (2)共现关系的预测 关联规定剖析的目标是找出数据集之间各项之间的分割,常被称为购物篮剖析。在监控视频图谱的场景中,如果依据大量的历史数据,剖析出某个立功嫌疑人呈现的状况下,其余立功同伙呈现的概率,那么将施展出视频图谱更深层次的作用,基于共现关系发现算法,进一步采纳关联规定算法预测某一个行人呈现的条件下,与之有关联的人呈现的概率。关联规定剖析的后果是规定的预测,规定是“如果…那么…”的模式,“如果”是条件,“那么”是后果。 关联规定剖析首先被提出就是为了解决购物篮的问题,旨在找出大量商品购物之间的关联,起初被广泛应用与信息畛域,而在现在的应用情境下,依据监控视频图谱的环境,应用关联规定的外围思路,找出实用于此环境的关联规定剖析后果。Apriori算法作为关联规定剖析的经典算法被宽泛探讨,也是最早应用的关联规定算法;FP-Growth算法基于Apriori做了优化解决,通过构建一个FP-Tree来生成频繁项集,缩小了磁盘的IO次数,晋升算法的性能;当数据一直增长时,应用单机解决容易达到瓶颈,应用基于分布式的FP-Growth算法是天经地义的抉择。 三、基于常识图谱的预测案例一、城市交通拥堵区域预测钻研 智能交通系统是一种先进的应用程序,指将各种先进的技术如大数据,信息通信技术,电子控制技术等各种集成到整个运输管理系统中,旨在提供与不同交通形式和交通管理相干的翻新服务。随着电子器件、大数据和人工智能的倒退,通过智能化技术来缓解交通拥堵状况曾经是交通管理的趋势,同时传感器技术的提高产生了更高精度且可实时获取的交通数据,为交通状况的剖析与预测提供了海量的数据反对。因而,如何针对多源异构的交通大数据,摸索更加先进的办法对钻研城市交通拥堵预测具备重要意义。 交通拥堵预测钻研现状 Ryo提出了一种基于信息科学中的频繁模式开掘算法,从交通传感器数据中列举交通拥堵模式的办法,来理解城市以后的交通拥堵状况。该办法改良了频繁模式开掘算法从而无效地开掘时空相干的拥挤模式并预测拥挤。 Li提出了一种自适应数据驱动的实时拥挤预测办法。该办法包含基于自适应K均值聚类的交通模式识别算法,二维速度预测模型和自适应阈值校准办法。在主成分剖析之后,进行自适应K均值聚类算法以取得不同的流量模式。利用自适应阈值校准办法实现拥挤辨认,而后依据不同的流量模式提出拥挤预测。OnievaTM提出了一个试验钻研,将机器学习办法利用于预测路线的拥挤水平。该钻研旨在找出相干论断以及产生蕴含一组规定的模型,同时思考清晰和含糊变体。所应用的办法显示出良好的性能,模型可能精确批示出拥挤的水平。 Wan设计了一种基于深度学习实践的拥挤预测模型来预测交通拥堵,剖析了不同迭代次数和学习率对模型预测精度的影响。文章在现有钻研的根底上,提取了交通拥堵的影响因素,如交通流量,天气和光线,并构建状态矩阵来示意交通流的状态,提出了基于CNN预测的交通拥堵模型,应用状态矩阵作为输出变量。 在国内钻研方面,姚智胜和邵春福使用状态空间模型将拥挤问题转化为多点工夫序列预测,构建多维自回归模型,模型参数应用EM算法预计,将路线多点的交通状态作为钻研对象,并利用卡尔曼滤波进一步预测零碎状态,在疾速路上6个采样点的实在数据进行验证,自回归模型预测成果比卡尔曼滤波单点预测办法更好。 ...

March 3, 2021 · 1 min · jiezi

关于知识图谱:知识图谱描边12NERCRF数据标注

named_entity_recognition命名实体辨认公司实操——具体步骤(raw数据+标注+数据集解决+crf)我的项目的github地址 工作指标从一些工厂、单位的日常查看日志中,辨认出隐患设施实体和地点实体,如下表: 隐患日志隐患地点隐患设施1轧钢部一轧反吹压力表未校验轧钢部反吹压力表2铸管4.0施工现场多处气瓶间距不符合要求铸管、4.0施工现场气瓶 ………………121煤气职业危害告知牌检测数据未更新 煤气职业危害告知牌ps:上表的程序仅是实例展现,不代表selected_data.xlsx中的真实情况。 试验步骤: 1、将每一句话用BIO标注形式标注 2、写dataloader3、应用crf模型训练 上面咱们介绍具体的标注工具及步骤 数据标注:想要的训练数据集展现如下:善其事而先利其器,采纳YEDAA这个python开源工具包来标注,运行后界面长这样: 应用时几点留神:1、操作方法是用英文写的,根本能涵盖你的应用要求,花几分钟工夫建一个txt文件练练就会了; 2、目前YEDDA(2020.11)只反对Python2,我用conda创立了一个py2环境;3、反对间接导入文件(open按钮),我应用的是txt格局; 4、反对导出模式设置,标注实现后点击Export按钮即可输入,咱们会失去一个.anns文件; 5、可设置快捷键命令,一键标注光标内文本 6、荧光笔标记的标签如果挨着,肯定要防止重叠,一个字符的重叠都不能够,否则会呈现如下谬误: 数据集解决数据分析:数据量只有121句,划分为10:1(110对train数据。11对val数据,也就是用来测试的。 流程:①把121个sentence和tag对以(s,t)的模式加载到内存(load_dataset)②用固定的随机种子打乱程序③划分列表,再别离存储为train.txt和val.txt CRF模型

January 6, 2021 · 1 min · jiezi

关于知识图谱:京东推荐系统中的兴趣拓展如何驱动业务持续增长

如何基于商品常识图谱做趣味召回? 本篇文章是来自京东举荐广告的彭长平所做的分享,次要向大家介绍一些过来一两年在京东举荐零碎里做的一些算法的翻新。 内容次要分三局部: 第一局部是简略形容一下电商的举荐与一般的、大家熟知的其余举荐零碎的一些差别。 第二局部会从几个维度讲一下在京东举荐零碎上做的一些翻新,尤其是在用户趣味拓展这个维度上。因为就电商场景来说,所有的电商举荐零碎都是分成捕获用户趣味和满足用户趣味,而后也包含趣味的拓展。在电商角度来说,用户趣味的拓展绝对他类型的举荐零碎可能会更重要一些,实际上,在京东举荐零碎外面,用户趣味拓展这部分的曝光占比超过了一半以上。 第三局部会简略介绍一下,咱们当初正在做的一些绝对前沿的技术方向。 举荐零碎大家应该都比拟相熟了,从 PC 时代开始,国内外所有的互联网公司,尤其是平台型的互联网公司,随着 Iterm 候选的增多,曾经远远超过了人脑可能解决的范畴,所以它必然要通过算法去刻画人的趣味,以及 Item 的属性,去满足人和 Item 的匹配。 国内外大家可能看到的一些报道,像 Netflex、Amazon、Facebook、国内的 BAT,尤其是挪动时代开始之后,手机屏幕这种手指和屏幕天然的交互方式,自然而然使得举荐零碎简直成为每一家挪动互联网公司的标配。举荐零碎是公司破费十分多的人力和财力去打造的一个零碎,同时这个零碎也为各个企业带来了十分大的商业价值。 在传统的举荐零碎里,其实最次要是记录人的行为,因为最传统的举荐零碎的算法就是协同过滤,后盾的思维就是——物以类聚,人以群分。那么,相似的行为,或者商品属性相似的货色,就能够去做拓展。所以它最根底的一个逻辑,就是可能去记录用户的行为,基于这个行为去辨认他的趣味,去举荐和他趣味相干属性的商品,或者是其余的一些 Item。 电商举荐零碎分成两类,第一类是你辨认他的趣味,而后去举荐跟他的趣味相匹配的一些商品。第二类,就是你要找到一些他没有明确表达出来的趣味,咱们用算法去猜想他有这方面的趣味,而后去帮他做拓展。 趣味的拓展,其实对于各种举荐零碎都很重要,但对于电商来说尤其重要。因为对于电商来说,你须要疏导他去买,在你的平台高低单,如果你只是满足了他买的这个商品,其实也就意味着你的零碎的下限是无限的,不论是对于用户也好,或者对于你平台上的商家也好,那么其成长空间是无限的。所以拓展用户趣味以及基于拓展进去的趣味帮他做举荐,对于电商零碎来说尤其重要。但这个事件对于电商零碎来说,又是个特地难的事件。咱们从用户和商品两个纬度讲一下: 从用户纬度思考,第一,如果说你去跟资讯类的、信息流这种举荐零碎相比,那么它的用户行为是绝对少的,因为用户不可能每天花 60 分钟、70 分钟,甚至更长时间在你的零碎上。第二个艰难还是从用户角度来看,对于资讯类平台的举荐零碎来说,用户生产你的内容就是在线上,你可能残缺地记录到这个用户观看或生产平台内容的过程。然而,对于电商零碎来说,它只是交易的过程产生在线上,用户为什么要买这个商品?以及买完商品之后的所有的生产过程,都是在线下的,难以数字化的。第三个艰难跟后面两个点是也相干的,就是大多用户买完商品之后,在短期内不会再来买这个商品,不会再来买同类的商品,也就是说他的需要和趣味会产生转移,这也就是为什么说,在电商的举荐零碎里,仅仅捕获用户的趣味,基于捕捉到的趣味去做举荐是不够的,这是从用户纬度来讲咱们面临的挑战。 从商品的维度来讲,第一、商品的规模是特地大的,咱们失常看到的大部分平台的举荐零碎所举荐的 Item 汇合可能是几十万,几百万这个量级的,然而对于 电商零碎 来说,它后盾真正的侯选级都是数十亿 SKU 的侯选,也是因为当初这个时代,曾经进入了一个供过于求的状态,所以它更依赖于这些中长尾的商品,更依赖于举荐零碎,去找到适合的用户。第二个特点,从电商平台角度来说,大量的热点是随着一些节日或者平台本人做的一些临时性的流动带来的用户,那么从逻辑上来说,这些商品其实它们的前续的用户行为一段时间内也是不足的,所有的这些点都表明:第一、趣味拓展对于电商举荐零碎来说特地重要。第二、它依赖于传统的协同过滤,依赖于用户行为的这种形式是不够的,所以前面我次要是介绍一些,咱们在这方面做的一些尝试性的翻新。我次要会介绍一些理念性的货色,讲得会绝对粗略一些,每个方面介绍几个办法,不会讲特地简单的推理过程,就是心愿咱们解决这个问题的一些思路对大家有些启发。 大家能看到下图中的三个环节,右边是形容传统的、咱们记录下来的用户的行为,包含他的浏览、购买、加购等所有电商平台可能在线记录下来的行为,失常的举荐零碎都是分为几个环节: 第一个环节是要从刚刚所说的数十亿的 SKU 汇合里,召回进去大略数千级别的侯选 SKU;第二个环节是要对召回进去的数千级别的 SKU 去做 CTR,去做点击率或者转化率的预估,就是对每一个候选的商品,给用户打一个预估的 CTR 的分,或者预估的转化率的分;第三个环节是拿到打完分的这一千个侯选之后,怎么推出来最初返回给用户看到的那几条,或者几十条的侯选的过程。那么最初,出现给用户的商品包含两部局部:第一局部,其实曾经晓得它对这些商品是感兴趣的。第二局部是去帮他探测,或者说把他感兴趣的、摸索过的商品举荐进去。简直工业界的零碎都是这种漏斗型的环节,我方才讲的那三个环节都是漏斗型的,所以咱们在每一个环节都须要去解决摸索进去的商品怎么进去的这个问题。其实你曾经辨认出了用户的趣味,而后基于趣味打分,这个技术绝对成熟的。然而如何去召回 CTR 预估,以及最初的排序环节,如何保障咱们摸索进去的货色可能进来而且有一个正当的排序,每个环节都会有对应的一些解决方案。我这里次要介绍三个点的翻新,第一个点就是基于商品常识图谱的召回。第二个环节是 CTR 预估的环节,第三个点是在 Rerank,在最终的排序环节,怎么去做一个全局的建模。 上面咱们来具体阐明下各个环节。第一个环节是讲基于商品常识图谱的趣味召回,就是刚刚提到的,咱们不论是从用户纬度来说,还是从商品纬度来说,存在大量的用户行为缺失,商品也短少对应的行为。它依赖于传统行为的这种办法,不论是 CF 也好,还是基于用户行为去训练各种向量模型,或者其余的各种模型化的召回办法,在行为缺失的时候都生效了。 电商里有几个典型的场景,是商品行为特地缺失的,而这些场景在电商当中又特地重要: 第一个就是新品的上架,比方小米 10 公布了,华为 10 或者 P40 公布了,或者 iPhone12 公布了,这些新品上来的时候,其实是齐全没有用户行为的,这个时候你依赖于行为的模式去召回,都会面临商品原本很热,然而如果你依赖行为,它是推不进来的; ...

October 30, 2020 · 2 min · jiezi

关于知识图谱:华为云专家讲述知识图谱构建流程及方法

摘要:随着AI技术的倒退和遍及,当今社会曾经进入了智能化时代。与以往不同的是,在这一波浪潮中,企业不仅是向数字化转型,更是向知识化转型。那么,如何助力企业破解智能化常识开掘和治理难题,实现知识化转型?华为云自然语言解决技术专家郑毅在《企业级常识计算平台的技术解读和案例实际》分享中,讲述了华为云常识计算平台及相干技术、常识图谱构建流程及办法,以及常识计算行业案例。本文次要讲述“常识图谱构建流程及办法”,让咱们先睹为快。 一、 什么是常识图谱?常识图谱是由实体、关系和属性组成的一种数据结构。以下图为例,“刘德华“是一个人物类型的实体,“刘德华”有本人的身高、国籍等信息,这些信息便称之为实体的属性。 同样,“无间道”是一个电影类型的实体。咱们晓得“刘德华”是“无间道”这部电影的主演,所以“刘德华”与“无间道”之间有“主演”关系。通过实体、关系、属性,就可能把咱们人能够了解的常识无效地组织起来。常识图谱的构建与利用波及数据库、自然语言解决(NLP)和语义网络等技术。 图1 常识图谱示例 通用常识图谱or行业常识图谱? 依照常识图谱的用处,常识图谱可分为通用常识图谱和行业常识图谱。通用常识图谱偏重构建常识性的常识,并用于搜索引擎和举荐零碎等。行业常识图谱(也可称企业常识图谱)次要面向企业业务,通过构建不同行业、企业的常识图谱,对企业外部提供知识化服务。华为云常识图谱服务可用于以上两类常识图谱的构建、治理和服务,更偏重面向企业常识图谱。 二、 如何构建常识图谱?常识图谱构建次要分为自顶向下(top-down)与自底向上(bottom-up)两种构建形式。自顶向下构建形式须要先定义好本体(Ontology或称为Schema),再基于输出数据实现信息抽取到图谱构建的过程。该办法更实用于专业知识方面图谱的构建,比方企业常识图谱,面向畛域业余用户应用。自底向上构建形式则是从凋谢的Open Linked Data中抽取置信度高的常识,或从非结构化文本中抽取常识,实现常识图谱的构建。该形式更实用于常识性的常识,比方人名、机构名等通用常识图谱的构建。本文偏重介绍自顶向下构建形式的相干流程和技术,并用于构建企业常识图谱。 目前业界暂无常识图谱云服务,也没有统一标准的自顶向下构建流程。以后业界支流的常识图谱构建形式是基于企业外部数据、公开数据,图谱服务商以解决方案模式帮忙客户定制构建常识图谱。这样的形式无疑老本十分高并且效率很低,通常须要很长的周期能力实现。同时,企业没有参与感,图谱构建也可能存在很大偏差,难以用于理论业务中。 站在用户角度,咱们通过形象常识图谱构建流程及相干技术,推出华为云常识图谱云服务(图2),为不同行业、不同企业提供疾速构建常识图谱能力的平台,赋能大中小型企业构建属于本人的常识图谱。 图2 华为云常识图谱云服务 华为云常识图谱云服务提供流水线式图谱构建能力,将图谱构建形象为如下根本流程:本体构建、数据源配置、信息抽取、常识映射以及常识交融。 图3 常识图谱构建根本流程 进一步通过将每一个流程模块形象成插件模式,并通过组合配置生成图谱构建工作。面向不同的行业和畛域,只须要批改插件配置即可实现企业常识图谱的构建。同时,基于流水线设计,常识图谱云服务能够在只批改数据源的前提下实现常识图谱的更新操作,十分实用于须要频繁更新的常识图谱。 2.1 如何构建常识图谱的本体?常识图谱构建的第一步须要实现图谱本体(Ontology)的设计和构建。本体是图谱的模型,是对形成图谱的数据的一种模式束缚。对于企业常识图谱的构建,个别是由垂直畛域的行业专家和常识图谱专家单干实现。 本体的构建和设计对于常识图谱的构建至关重要。能够通过梳理畛域常识、术语词典、专家的人工教训等作为本体构建的根底,联合常识图谱的利用场景来欠缺图谱的构建,最终取得实体类别、类别之间的关系、实体蕴含的属性定义。华为云常识图谱云服务提供图形化本体设计工具,能够通过拖拽编辑灵便实现企业常识图谱本体的构建。 图4 华为云常识图谱云服务-本体设计界面 2.2 如何配置数据源?须要做哪些筹备在配置数据源之前,须要将不同类型、不同格局的数据进行初步的整顿。比方:针对本地非电子化文档,须要先进行扫描电子化,联合OCR等技术将扫描件转换成文本文档。再比方:针对本地电子化文档,须要将本地文档按文档类型、格局进行归档解析整顿成标准的格局,或者针对网络资源,须要依据网站特点,开发相应的爬虫,对数据进行爬取,并存储到本地数据库等等。还有一些第三方资源,须要获取相应的数据拜访接口,并通过接口获取相应数据。 整顿好的数据上传到华为云OBS对象存储服务后,常识图谱云服务就能够进行数据源的配置,包含指定格局的针对结构化数据和非结构化文本的配置等。 2.3 什么是信息抽取?怎么抽取?信息抽取的目标是依据不同的数据源、不同的数据格式,实现实体、属性、关系这种常识的抽取。这是常识图谱构建流程中十分要害的一环,信息抽取的品质决定了常识图谱的品质。实体之间的关系以及实体的属性值,都能够用三元组(主语、谓词、宾语)来示意,所以信息抽取又能够简略叫做三元组抽取。 华为云常识图谱云服务反对结构化Key-Value格局和非结构化文本的三元组抽取。针对结构化数据,能够通过配置预置函数的组合,实现字段的解决。与之对应的,针对非结构化文本,云服务提供算法模型抽取能力,反对业界前沿的基于机器浏览了解(Machine Reading Comprehension,MRC)的三元组抽取办法,通过应用多轮对话的思维进行三元组抽取,先抽取主语(Subject),而后依据抽取后果和候选谓词对应的模板结构问句抽取宾语(Object),最终组成(主语,谓词,宾语)三元组。该框架模型成果能够达到以后业界最好程度(state-of-the-art)。华为云常识图谱服务反对基于该算法的模型训练、预测以及治理性能,同时以插件模式实现流水线中信息抽取局部。 图5 基于机器浏览了解(MRC)的三元组抽取办法 信息抽取中模型训练推理性能是基于华为云-ModelArts AI计算平台实现的,该平台提供高效的AI计算、模型训练、推理及部署能力,同时为了不便训练三元组抽取模型,额定提供三元组标注工具,用户能够基于该工具疾速取得训练数据,实现信息抽取以及常识图谱构建工作。 图6 三元组标注工具示例 2.4 常识交融是如何实现的?所谓常识交融,就是对多个数据源进行常识抽取后的大量三元组数据进行对齐合并。举个例子:百度百科有明星刘德华,互动百科有明星刘德华,咱们构建的常识图谱不能有两个明星刘德华吧?这时候就须要把他们辨认进去放在一起,而后合并成一个实体,这就是实体的对齐以及常识的交融。 这其中要害的问题是怎么高效的实现实体对齐,技术路线根本能够分为两类:基于实体属性类似度的框架、基于联结表征的深度学习框架。思考到基于联结表征的深度学习框架依赖大量标注数据,并且模型与行业及数据强相干,无奈提供很好的通用化能力,因而,华为云常识图谱服务以后反对基于实体属性类似度的框架,能够通过定义类似度度量及组合,实现实体对齐以及常识交融。 除此之外,华为云常识图谱云服务还提供图谱可视化服务,能够直观地察看剖析实体及关系。 图7 病毒蛋白常识图谱可视化示例 三、 常识图谱须要怎么的存储形式?通过常识图谱构建,咱们当初曾经有了大量的三元组常识。那么要怎么来存储这些三元组常识呢? 最间接的形式是应用表格局的存储形式,如关系型数据表,三元组以三列数据或多列数据的模式存储。这种办法在图谱规模比拟小的时候是可行的,然而如果图谱规模变大了,是否仍然可行呢?举个例子,倘若咱们有了娱乐明星+电影这样一个娱乐图谱,其中包含了大量的明星人物、电影以及他们之间的关系。如果想查问“刘德华和梁朝伟独特演过的电影中,年龄最大的导演是谁?“,就须要对关系型数据库中常识图谱后果表做2-3次自连贯操作,如果三元组的数量是千万、亿、十亿规模的话,不言而喻,这样的查问效率极低,根本不可行。 华为云常识图谱服务采纳的是业界支流的图数据库形式存储常识图谱,间接把数据或常识图谱以图的模式存储,能够十分高效地实现多跳关系、属性的查问。具体的,咱们应用华为云图引擎服务,包含图存储、图计算一体的架构设计,不仅能够提供高效的查问性能,同时也能够提供多种预置的图深度学习算法,应用起来十分不便,欢送大家前来试用。 图8 华为云图引擎服务产品劣势 四、 华为云常识计算案例介绍中国石油基于华为云常识计算服务的常识建模、油气图谱构建、图谱存储、自然语言解决、机器学习等能力构建了业界首个油气常识计算平台。以油气勘探开发数据为根底,通过常识计算技术的利用,为油气勘探开发增储上产、降本增效提供智能辅助和决策。 图9 油气常识计算的价值和意义 华为常识计算解决方案提供丰盛的常识利用,从解决企业痛点、晋升企业效率、提供知识化服务的角度全面赋能企业,体现了常识计算在各行业中的智能化价值,让各行业的企业能够疾速、低成本、高效率地治理,通过利用企业常识、实现知识化转型,开释知识化带来的红利,全面晋升企业在智能化时代的竞争力。 点击关注,第一工夫理解华为云陈腐技术~ ...

October 12, 2020 · 1 min · jiezi