关于知识图谱:Paper-Digest-在图上思考基于知识图谱的深度且负责的大语言模型推理

<article class=“article fmt article-content”><p></p><blockquote>笔记整顿:孙硕硕,东南大学硕士,钻研方向为自然语言解决 <br/>链接:https://arxiv.org/abs/2307.07697</blockquote><h2><strong>Part.1 动机</strong></h2><p>本文的动机是大型语言模型在各种工作中获得了较大的提高,但它们往往难以完成简单的推理,并且在常识可追溯性、及时性和准确性等至关重要的状况下体现出较差的性能。</p><p>为了解决这些限度,作者提出了 Think-on-Graph (ToG),这是一个新鲜的框架,它利用常识图谱来加强 LLM 的深度和负责任的推理能力。通过应用 ToG,能够辨认与给定问题相干的实体,并进行摸索和推理以从内部常识数据库中检索相干三元组。</p><p>这个迭代过程生成多个推理门路,由程序连贯的三元组组成,直到收集到足够的信息以答复问题或达到最大深度。通过对简单的多跳推理问答工作的试验,作者证实了 ToG 优于现有办法,无效地解决了 LLM 的上述限度,而不会带来额定的训练老本。</p><h2><strong>Part.2 奉献</strong></h2><p>本文的次要奉献包含: </p><p>1)提出了一种新的框架 ToG,该框架集成了思维推理和常识图谱链来答复常识密集型问题。</p><p>2)ToG框架从类人迭代信息检索中吸取灵感,生成多个高概率推理门路。</p><p>3) 试验结果表明,ToG在不减少训练老本的状况下显著加强了现有的提醒办法,缓解了LLM中的幻觉问题,展现了将LLM与常识图谱集成用于推理工作的后劲。</p><h2><strong>Part.3 办法</strong></h2><p>本文引入了 ToG,这是一种用于图搜寻的新范式,它提醒 LLM 依据给定的查问中的实体摸索多种可能的推理门路。ToG 一直保护问题 x 的 topN 推理门路 p,每条门路由几个三元组 Ti 组成。<strong>ToG 搜寻的整个过程能够分为以下三个步骤:实体获取、摸索和推理。</strong>依据两头步骤的组合,本文提出了两种办法:基于实体的 ToG 和基于关系的 ToG。</p><h3>基于实体的 ToG</h3><p>ToG 首先提醒 LLM 提取问题中的实体并取得每个实体对问题的奉献分数。这与之前将问题合成为子问题的办法不同,ToG 更强调实体。在 ToG 框架中,摸索阶段至关重要,因为它旨在辨认最相干的 top-N 三元组作为给定问题的推理门路中的两头步骤,基于广度优先搜寻。<strong>这一阶段包含两个不同的阶段:关系摸索和实体摸索。</strong>作者采纳两个步骤来生成以后搜寻迭代、搜寻和修剪的关系候选集,LLM主动实现这个过程。关系摸索阶段首先搜寻与以后实体集中每个实体相关联的所有关系。搜寻过程能够通过执行两个简略的预约义模式查问轻松实现,这使得 ToG 在没有任何训练老本的状况下很好地适应不同的 KB。一旦取得了候选集和关系搜寻,就会对查问奉献较低的边进行剪枝,只保留前 N 个边作为以后摸索迭代的终止。能够利用LLM依据给定的问题基于以后实体剪枝,失去与以后关系集,即最相干的top-N关系及其对应的分数。与关系摸索相似,实体摸索依然应用 LLM 主动执行的两个步骤,即搜寻和修剪。在执行上述两种摸索后,能够构建一个综合推理门路,其中每个两头步骤对应于一个程序相干的三元组。在通过摸索过程取得以后推理门路 P 后,提醒 LLM 评估以后推理门路是否足以推断答案。如果评估产生踊跃的后果,对得分进行归一化并提醒 LLM 应用以问题为输出的推理门路生成答案。相同,如果评估产生负面后果,反复摸索和推理步骤,直到评估为正或达到最大搜寻深度。</p><h3>基于关系的 ToG</h3><p>以往的知识库问答办法,特地是那些利用语义解析的办法,次要依赖于基于关系的信息来生成正式查问。实体的文字信息并不总是残缺的,尤其是在对短少实体“名称”一部分的不残缺常识图谱执行查问时,这可能会误导推理。因而,本文提出了基于关系的 ToG,它打消了摸索过程中搜寻两头实体的须要。它利用 LLM 的推理能力为推理过程中的每个链应用不同的候选集来生成答案。这种办法提供了两个要害益处:1)它打消了对摸索实体耗时的过程的需要,从而升高了整体办法老本并显著进步了推理速度。2) 特地是在不残缺的 KB 数据集下,这种办法次要关注关系的语义信息,导致更高的准确性。值得注意的是,这两种办法都遵循相似的管道,但在两头步骤中扩大推理链方面有所不同。与基于实体的 ToG 相比,基于关系的 ToG 只波及关系的摸索和推理,其中推理阶段放弃不变。两种办法之间最显著的区别是以下两种办法:实体汇合中采样的样本是独立同散布的,通过计算几个样本的平均值,能够推导出实体集内关系的平均值。因为两头步骤不波及任何实体,须要依据关系、历史门路和实体汇合取得候选集,其中实体集是固定的。因而,候选实体集作为推理门路中的终端节点。具体算法步骤如表1所示。</p><p></p><p></p><p></p><h2><strong>Part.4 试验</strong></h2><p>本文在常识密集型工作上评估提出的办法,问题须要特定的常识来答复,LLM 在这种工作上常常会遇到幻觉问题。Complex Web Questions (CWQ)是一个用于答复须要对多个三元组进行推理的简单问题的数据集,它蕴含大量自然语言中的简单问题。本文前人工作雷同,应用齐全匹配精度作为评估指标。对于 CWQ 数据集,作者随机抉择 1,000 个样本作为测试集。而后排除了无奈胜利执行 SPARQL 查问和链接到不足“名称”关系答案的实体的样本。最终试验保留了 995 个样本。次要知识库起源是 Freebase。本文将摸索、推理和答案生成的温度设置为 0,以实现可重复性,并将生成的最大token长度设置为 256。本文应用了 ChatGPT API 执行上述过程。对于基线模型,作者应用规范提醒 (IO 提醒) 和思维链提醒 (CoT),其中蕴含 6 个上下文示例和“逐渐”推理链。ToG 在 CWQ 数据集上的性能如表 2 所示。很显著,在仅保留三个推理门路的试验条件下,每条门路的最大长度为 3,ToG(E) 在 CWQ 上的体现优于 CoT 14.86%,ToG(R) 为 17.47%。</p><p></p><h2><strong>Part.5 总结</strong></h2><p>在这项工作中,作者提出了一种新的框架 ToG,该框架集成了思维推理和常识图谱链来答复常识密集型问题。ToG框架从类人迭代信息检索中吸取灵感,生成多个高概率推理门路。试验结果表明,ToG在不减少训练老本的状况下显著加强了现有的提醒办法,缓解了LLM中的幻觉问题,展现了将LLM与常识图谱集成用于推理工作的后劲。</p><p><strong>继续分享 SPG 及 SPG + LLM 双驱架构相干干货及停顿</strong></p><p><strong>官网:</strong>https://spg.openkg.cn/</p><p><strong>Github:</strong>https://github.com/OpenSPG/openspg</p></article> ...

February 29, 2024 · 1 min · jiezi

关于知识图谱:基于-LLM-的知识图谱另类实践

本文整顿自社区用户陈卓见在「夜谈 LLM」主题分享上的演讲,次要包含以下内容: 利用大模型构建常识图谱利用大模型操作结构化数据利用大模型应用工具利用大模型构建常识图谱 上图是之前,我基于大语言模型构建常识图谱的成品图,次要是将金融相干的股票、人物、涨跌幅之类的基金信息抽取进去。之前,咱们要实现这种信息抽取的话,个别是用 Bert + NER 来实现,要用到几千个样本,能力开发出一个成果绝对不错的模型。而到了大语言模型时代,咱们有了 few-shot 和 zero-shot 的能力。 这里交叉下 few-shot 和 zero-shot 的简略介绍,前者是小样本学习,后者是零样本学习,模型借助推理能力,能对未见过的类别进行分类。 因为大语言模型的这种个性,即使你不给模型输出任何样本,它都能将 n+ 做好,出现一个不错的成果。如果你再给模型肯定的例子,进行学习: is_example = { '基金':[ { 'content': '4月21日,易方达基金公司明星基金经理张坤在管的4只基金产品悉数公布了2023年年报' 'answers':{ '基金名称':['易方达优质企业','易方达蓝筹精选'], '基金经理':['张坤'], '基金公司':['易方达基金公司'], '基金规模':['889.42亿元'], '重仓股':['五粮液','茅台'] } } ], '股票':[ { 'content': '国联证券04月23日公布研报称,给予西方财产(300059.SZ,最新价:17.03元)买入评级...' 'answers':{ '股票名称':['西方财产'], '董事长':['其实'], '涨跌幅':['原文中未提及'] } } ]}就能达到上述的成果。有了大语言模型之后,用户对数据的需要会缩小很多,对大多数人而言,你不须要那么多估算去搞数据了,大语言模型就能实现数据的简略抽取,满足你的业务根本需要,再辅助一些规定,就能够。 而这些大语言模型的能力,次要是大模型的 ICL(In-Context Learning)能力以及 prompt 构建能力。ICL 就是给定肯定样本,输出的样本越多,输入的成果越好,然而这个能力受限于模型的最大 token 长度,像是 ChatGLM-2,第一版本只有 2k 的输出长度,像是下面的这个示例,如果你的输出特地多的话,可能很快就达到了这个模型可输出的 token 下限。当然,当初有不少办法来晋升这个输出长度的限度。比方,前段时间 Meta 更新的差值 ORp 办法,能将 2k 的 token 下限晋升到 32k。在这种状况下,你的 prompt 工程能够十分欠缺,退出超多的限度条件和巨多的示例,达到更好的成果。 ...

September 5, 2023 · 3 min · jiezi

关于知识图谱:图数据库选型问题方法与工具

图数据库是常识图谱零碎的外围。在理论的利用中,为什么要做图数据库选型,图数据库选型应该怎么做?蚂蚁团体图数据库负责人洪春涛,在常识分享社区Datafun的演讲中,对这些问题进行了剖析和解答。以下是演讲原文整顿。1、为什么要做图数据库选型图数据库是常识图谱零碎的外围。在典型的常识图谱零碎中,数据会在常识抽取、整顿和推理之后,被寄存到图数据库中,而后图数据库会撑持常识图谱的查问、更新、推断等工作。因而图数据的选型决定了图谱零碎的规模、性能、稳定性,对整个图谱零碎利用十分重要。 目前行业内图数据库类型十分多,常见的有Neo4j、JanusGraph,以及蚂蚁团体研发的图数据库TuGraph等,整体数量在几十种左右。但他们之间的差别十分大,比方查询语言上Neo4j用的是Cypher,JanusGraph用的是Gremlin。 图数据库的图模型也有很大差别。图数据库目前大部分以属性图为主,也有另外一类是RDF图,这两种图数据库从数据抽象上不一样,其它很多个性,比方有没有用户权限,有没有多图、有没有超图,这些特色也都十分不一样。 应用图数据次要的问题在于,它不像关系型数据库是一个规范的关系代数的形象,下面有规范的SQL语言。目前图数据库没有齐全标准化下来,所以对于很多用户造成了很大的困扰,在选图数据库的时候,不晓得应该怎么选。 另外一个次要的问题是,图数据库当初很多利用场景其实是偏摸索类的,在具体场景当中,会用到哪些算法,须要哪些个性,用户当时并不知道,因而更难抉择图数据库的类型。 那么咱们该如何做图数据库系统选型呢? 图数据库系统的选型,一个十分重要的工具就是基准测试程序,英文叫Benchmark,它会模仿实在的场景对系统进行测试,是比拟规范的测试程序。 以TPC-C为例,这是个很规范的对关系型数据库进行测试的基准测试程序,它模仿的是连锁商店对数据库的应用,会在数据库建订单管理系统、库存管理系统、物流治理。这个程序自身会规定事务性应该反对到什么境地,应该有多并发,每一个查问的提早应该有什么样的要求。如果一个关系数据库可能正确地通过TPC-C这个测试,并且失去一个值,那么对用户来说,就能够大抵预计在失常的实在的状况下,它的性能,性能大抵如何,进一步预计在实在场景下的功能性、稳定性等。 所以Benchmark能够领导咱们对数据库系统的设计,同时它对减速整个行业的倒退是很重要的。 2、咱们须要什么样的基准测试程序一个好的Benchmark有以下个性。 首先要贴合理论,它抉择的场景必须是比拟符合实际状况的。比如说TPC-C要模仿一个商店的管理系统,那么这个数据特色、操作特色就必须跟商店差不多,以做库存治理、订单治理为例,这些查问有多少读、有多少写,它们之间的混合比例,都须要符合实际。 性能特色上,要满足肯定的提早要求。读写比例并发有肯定的要求,比方同时会有多少用户在这下面用,它的提早要求是多少,必须要求查问应该是在几十毫秒,都是有肯定的要求。查问跑进去的工夫如果太长,必定不合乎失常的需要。 另外它必须具备可扩展性。理论测试中,商店大小是有差别的,如果说一个Benchmark只规定了一种数据大小,那就很难让用户感觉到在本人的场景上面会是什么状况。比如说用户要开一个商店,心愿选一个数据库,但Benchmark的测试数据可能只限度了1GB数据,而理论用户的数据有1TB,那这个Benchmark就没有参考价值,所以大部分好的Benchmark都具备可扩展性,想测1GB、100GB、1TB甚至10TB都有方法去实现。 还有一点是规范必须要谨严,这是十分重要的。图数据测试,不能用TPC-C的数据来随便实现,比方只测读意外写,测试的时候把其中所有的写操作都去掉,跑进去一个后果看似很高,实际上却没有意义,因为并不符合实际的测试规范。所以这个规范自身必须要很谨严,它必须有审计规定,要有对数据的验证。 当初图数据库罕用的几个测试程序,一个是Twitter,即把Twitter颁布的数据集拿来跑K跳,从一个点登程去找K度的街坊,以及去跑图算法,这种测试的办法有很大的问题。一是推特自身的图十分无限,不具备可扩展性。图下面的点和边是没有属性,这其实是不合乎真实情况的。另外它是一个社交图,跟其余很多罕用的金融图等都不太一样,所以只能作为一个简略的参考。最致命的是它只有读没有写,测试的时候就没法去测它的写操作,或者要测写操作也只能加几条边加几个点,这是十分不谨严的。 3、 金融图数据库benchmark怎么做LDBC(The Linked Data Benchmark Council)是寰球出名的非盈利性技术协会,目前有三个Benchmark,一个是基于语义网络的RDF图,一个是图剖析,另外就是社交网络的图SNB。 目前国内上做得比拟规范的图数据库测试程序是LDBC的SNB的测试。SNB测试是模仿社交网站对于图数据库的利用场景,依照社交网站的数据个性生成数据,它容许生成各种各样大小的数据,同时操作上有读写混合,读也有各种丰盛的语义,有一个十分规范的文档,也有第三方审计。 SNB测试模仿的是社交的场景,外面有14类的点20类的边,点跟边下面会有一些属性,能够设置数据规模最小的数据是SF1,大略生成进去是1GB的数据,最大能够SF100,SF300,SF1000,SF30000都有。 从操作上它有两类,一类是Interactive,即模仿在线的查问,它下面有七种简略的读,14类简单的读。有八种写的操作,理论测试的时候,会要求把这些读写混合的并发的发到这个图数据库下面。另外一类是BI的Workload。BI的查问里边,它是简单的只读查问,就比下面这个简单读还要更简单,基本上是全局扫描的相似OLAP的利用。它的写是批量写,所以这个跟下面的Interactive是很不一样的。 在一些验证下面,它会要求读写混合,会有正确性的验证,这些读写做完了当前,须要验一下目前这个数据库的正确性,而后有事务隔离性的要求,最重要的是它有提早的要求,每一个查问规定大略只有千分之一的申请是能够超时的,如果提早超过100毫秒的查问超过千分之一。那么这个比例太高了,这个数据库就是不通过的。 SNB模仿的是一个社交网站的数据,里边有人的节点,有论坛的节点,论坛里边有很多帖子,而后大家能够去转载这些帖子,同时这个人会有各种各样的材料,有他的公司、大学、城市,通过边会把这些信息连起来,在下面去做查问。是一个比拟典型的图查问。 咱们发现在蚂蚁本人的利用场景上面,有很多跟SNB不一样的中央,因而决定跟LDBC一起做一个金融图的Benchmark。金融Benchmark跟SNB的次要差异是什么呢? 首先是场景上的差异,SNB是一个社交场景,咱们是金融风控等不同类型的场景,从数据上就会有比拟大的差异。社交网络的图,有它的特殊性,首先它往往会有很多大点,比方一个微博大V账号,会有很多关注,它就是个大点;而后它外面的点,均匀出度会比拟高,如每个微博账号,均匀会有300个左右的关注。这些个性导致社交图跟其它图都不一样,相对而言金融图绝对出度会小一些。 SNB下面的模型点跟点之间是没有反复边的,然而金融图里边就十分多重边的状况,比如说两个人之间会常常转账,那么他们之间就会有十分多的重边呈现。金融图的查问跟计算区别也很大,且查问对于提早的要求更高一些。如果20毫秒之内返回不回来,那么整个用户体验就会很蹩脚。 SNB里边读跟写是离开的。在金融图里读写是有可能在同一个Query里边的。咱们会找很多的环状的构造三角的构造,这些都是跟SNB不一样的中央。所以这也是促使咱们去做金融图Benchmark的一个次要能源。 目前咱们的金融图Benchmark还在设计阶段,次要是在线查问,对提早要求比拟高。另外咱们会设计负载的波峰波谷,因为一般来说中午流量比拟小;咱们会对数据有TTL,会对过期的数据进行清理。比如说个别零碎里边放三个月的数据,超过三个月就主动回收掉了。 以下是一个比较简单的又读又写的Query的示例。 除此之外,咱们还会做一些反欺诈的、反套现的操作,这也是金融场景中常常须要解决的问题。咱们会把金融图数据库Benchmark当做一个规范来做。 结语综合以上,咱们认为图数据库是图谱利用零碎的外围,所以它的选型很重要,而Benchmark作为选型最无力的工具十分重要。Benchmark如果做得好,它能够成为一种事实标准,领导零碎的设计。咱们也倡导更多的人来跟咱们一起参加Benchmark的开发以及制订,推动图数据库系统的标准化,共建行业生态。

November 27, 2022 · 1 min · jiezi

关于知识图谱:恒源云GpuSharePRGC基于潜在关系和全局对应的联合关系三元组抽取

文章起源 | 恒源云社区 原文地址 | PRGC:基于潜在关系和全局对应的联结关系三元组抽取 原文作者 | Mathor Abstract 本文讲关系抽取工作合成为关系判断、实体提取和subject-object对齐三个子工作,提出了一种基于潜在关系和全局对应的联结关系三元组抽取框架(PRGC)。具体而言,首先设计一个预测潜在关系的组件,将后续实体提取限度在预测的关系子集上,而不是所有的关系;而后用特定于关系的序列标记组件解决subject-object之间的重叠问题;最初设计一个全局对应组件来以较低的复杂度将主客体对齐成三元组。在两个公共数据集上达到了新的SOTA。 1 Introduction 关系抽取是从非结构化文本中辨认(subject,relation,object)三元组。本文将其合成为三个子工作:1.关系判断:辨认句子中的关系;2.实体提取:辨认句子中的subject和object;3.subject-object对齐:将subject-object对齐成一个三元组 对于关系判断:本文通过\( Potential\ Relation\ Prediction \)组件来预测潜在关系,而不是保留所有的冗余关系,这升高了计算复杂度,获得了更好的性能,特地是在实体提取方面。在实体提取方面:本文应用了一个更强壮的 \( Relation\ Specific\ Sequence\ Tag \)组件(简称Rel-Spec Sequence Tag)来别离提取subject和object,以天然地解决subject和object之间的重叠。对于subject-object对齐:本文设计了与一个关系无关的全局对应矩阵来判断特定的subject-object对在三元组中是否无效。 在给定句子的状况下,PRGC首先预测潜在关系的子集和蕴含所有subject-object之间对应分数的全局矩阵;而后进行序列标注,并行地提取每个潜在关系的主客体;最初枚举所有预测的实体对,而后通过全局对应矩阵进行剪枝。 2 Method2.1 PROBLEM DEFINITION 输出是具备n个token的句子\( S={x_1,x_2,…,x_n} \),冀望的输入是关系三元组\( T(S)={(s,r,o)|s,o \in E, r\in R} \),其中\( E \)、\( R \)别离示意实体集和关系集。 2.1.1 Relation Judgement 对于给定句子\( S \),该子工作是预测它句子\( S \)蕴含的潜在关系,输入为:\( Y_r(s)={r_1,r_2,…,r_m|r_i\in R} \),其中m为潜在关系子集的大小。 2.1.2 Entity Extraction 对于给定句子\( S \)和预测的潜在关系\( r_i \),该子工作是应用BIO标记计划辨认每个token的tag,其中\( t_j \)示意tag。输入为:\( Y_e(S,r_i|r_i\in R)={t_1,t_2,…,t_n} \)。 ...

March 9, 2022 · 1 min · jiezi

关于知识图谱:大厂技术实现-爱奇艺文娱知识图谱的构建与应用实践-自然语言处理系列

常识图谱是一种用图模型来形容常识和建模世界万物之间关联关系的技术办法。本文钻研的是爱奇艺奇搜常识图谱的构建流程与利用场景,理解这一娱乐行业常识图谱是如何帮忙用户准确找到想要的内容、答复用户问题、以及了解用户搜寻用意的。 一图看懂全文 获取『自然语言解决』行业解决方案 『举荐与计算广告』系列包含爱奇艺、美团、小米、百度等公司的业务剖析和技术解读。我的项目实现代码、我的项目数据集、论文合辑、文章合辑等,已整顿为大厂行业解决方案。扫码返回公众号(AI算法研究所) 后盾回复关键字『自然语言解决』获取。相干代码实现参考 ShowMeAI社区的技术专家小伙伴们也对常识图谱的典型算法做了实现。对『常识图谱构建与落地实际』细节感兴趣的话,请返回咱们的GitHub我的项目(https://github.com/ShowMeAI-Hub) 查看实现代码。感激ShowMeAI社区参加此我的项目的所有技术专家小伙伴,也欢送大家 PR 和 Star!举荐浏览 | 点击查看『自然语言解决』系列教程(http://www.showmeai.tech/tutorials/knowledge-graph) 大厂技术实现 | 爱奇艺娱乐常识图谱的构建与利用实际2012年5月,Google公布了常识图谱(Knowledge Graph),以晋升搜索引擎返回的答案品质和用户查问的效率。有了常识图谱作为辅助,搜索引擎可能洞察用户查问背地的语义信息,返回更为精准、结构化的信息,更大可能地满足用户的查问需要。 目前,随着智能信息服务利用的一直倒退,常识图谱已广泛应用于智能搜寻、智能问答、个性化举荐、聊天机器人、大数据风控、证券投资、智能医疗、自适应教育等畛域。常识图谱做AI技术的重要垂直分支,其在技术畛域的热度也逐年回升。 本篇是『常识图谱构建与落地实际』的实际篇,咱们与来自爱奇艺的NLP工程师奇异果,一起钻研学习爱奇艺搜寻团队2015年开始搭建的 奇搜常识图谱库 (https://so.iqiyi.com/) ,理解奇搜常识图谱的构建过程,及其在爱奇艺搜寻、NLP服务中的具体利用。 一、常识图谱介绍实质上,常识图谱是一种揭示实体之间关系的语义网络,对事实世界的事物及其互相关系进行形式化地形容。 A knowledge graph consists of a set of interconnected typed entities and their attributes. ——《Exploiting Linked Data and Knowledge Graphs in Large Organisations》 常识图谱是由一些相互连接的实体和他们的属性形成的。换句话说,常识图谱由一系列的(实体,关系,实体)三元组形成,用以表白事实世界中的诸多场景。 实体(Entity)指的是事实世界中的事物,是图里的节点。关系(Relation)指的是不同实体之间的某种分割,是图里的“边”。 图示为一个社交网络常识图谱: 实体有『人』『物品』『修建』『城市』等。『人与人之间的关系』能够是敌人或粉丝,『人与物品的关系』能够是创作或喜爱。二、奇搜常识图谱构建办法与流程爱奇艺搜寻(奇搜,https://so.iqiyi.com/) 是国内最大的视频搜索引擎之一,涵盖全网海量视频资源,为用户提供优质的全网视频&娱乐畛域的搜寻服务。 奇搜团队致力欠缺对视频内容和用户用意的了解,并在过程中构建了以视频畛域为主的常识图谱库。 以后,奇搜常识图谱的构建流程次要分为几个步骤: 常识示意与建模常识获取常识交融常识存储常识利用(常识查问与推理) 2.1 常识示意与建模咱们在确认常识的建模示意形式之后,再构建常识图谱。目前次要的常识建模形式有两种,爱奇艺奇搜常识图谱的构建采纳的是自顶向下的建模形式。 (1)自顶向下的数据建模办法。先为常识图谱设计数据模式( Schema ),再根据设计好的数据模式进行有针对性的数据抽取; (2)自底向上的数据建模办法。先进行数据的收集和整顿,再依据数据内容总结、演绎其特点,提炼框架,逐步形成确定的数据模式。 2.1.1 RDF三元组RDF(Resource Description Framework),即资源形容框架,实际上是一种数据模型,用来链接资源的各种形容。 ...

January 24, 2022 · 1 min · jiezi

关于知识图谱:大厂技术实现-详解知识图谱的构建全流程-自然语言处理系列

常识图谱(Knowledge Graph)的概念由谷歌2012年正式提出,旨在实现更智能的搜索引擎,并且于2013年当前开始在学术界和业界遍及。目前,随着智能信息服务利用的一直倒退,常识图谱已被广泛应用于智能搜寻、智能问答、个性化举荐、情报分析、反欺诈等畛域。本篇是『常识图谱构建与落地实际』的起始篇,咱们与来自百度的NLP工程师路遥,一起钻研常识图谱的构建流程与技术细节。 一图看懂全文 获取『自然语言解决』行业解决方案 『举荐与计算广告』系列包含爱奇艺、美团、小米、百度等公司的业务剖析和技术解读。我的项目实现代码、我的项目数据集、论文合辑、文章合辑等,已整顿为大厂行业解决方案。扫码返回公众号(AI算法研究所) 后盾回复关键字『自然语言解决』获取。相干代码实现参考 ShowMeAI社区的技术专家小伙伴们也对常识图谱的典型算法做了实现。对『常识图谱构建与落地实际』细节感兴趣的话,请返回咱们的GitHub我的项目(https://github.com/ShowMeAI-Hub) 查看实现代码。感激ShowMeAI社区参加此我的项目的所有技术专家小伙伴,也欢送大家 PR 和 Star!举荐浏览 | 点击查看『自然语言解决』系列教程 一、常识图谱简介常识图谱,是结构化的语义知识库,用于迅速形容物理世界中的概念及其互相关系,通过常识图谱可能将Web上的信息、数据以及链接关系汇集为常识,使信息资源更易于计算、了解以及评估,并能实现常识的疾速响应和推理。 1.1 广泛应用于各畛域当下常识图谱已在工业畛域失去了广泛应用,如搜寻畛域的Google搜寻、百度搜寻,社交畛域的领英经济图谱,企业信息畛域的天眼查企业图谱,电商畛域的淘宝商品图谱,O2O畛域的美团常识大脑,医疗畛域的丁香园常识图谱,以及工业制造业常识图谱等。 在常识图谱技术倒退初期,很多企业和科研机构会采纳自顶向下的形式构建根底知识库,如 Freebase。随着主动常识抽取与加工技术的一直成熟,以后的常识图谱大多采纳自底向上的形式构建,如 Google 的 Knowledge Vault 和微软的 Satori 知识库。 1.2 构建技术分类常识图谱的构建技术次要有自顶向下和自底向上两种。 自顶向下构建:借助百科类网站等结构化数据源,从高质量数据中提取本体和模式信息,退出到知识库里。自底向上构建:借助肯定的技术手段,从公开采集的数据中提取出资源模式,抉择其中置信度较高的信息,退出到知识库中。 1.3 “实体-关系-实体”三元组下图是典型的常识图谱样例示意图。能够看到,“图谱”中有很多节点,如果两个节点之间存在关系,他们就会被一条无向边连贯在一起,这个节点咱们称为实体(Entity),节点之间的这条边,咱们称为关系(Relationship)。 常识图谱的根本单位,就是“实体(Entity)-关系(Relationship)-实体(Entity)” 形成的三元组,这也是常识图谱的外围。 二、数据类型和存储形式常识图谱的原始数据类型一般来说有三类(也是互联网上的三类原始数据): 结构化数据(Structed Data),如:关系数据库、链接数据半结构化数据(Semi-Structured Data),如:XML、JSON、百科非结构化数据(Unstructured Data),如:图片、音频、视频 典型的半结构化数据样例如下: 如何存储下面这三类数据类型呢? 个别有两种抉择:能够通过RDF(资源形容框架)这样的标准存储格局来进行存储,比拟罕用的有Jena等。<RDF> <Description about="https://www.w3.org/RDF/"> <author>HanXinzi</author> <homepage> http://www.showmeai.tech </homepage> </Description></RDF>另一种办法是应用图数据库来进行存储,罕用的有Neo4j等。 截止目前为止,看起来常识图谱次要是一堆三元组,那用关系数据库来存储能够吗? 对,从技术上来说,用关系数据库来存储常识图谱(尤其是简略构造的常识图谱),是齐全没问题的。但一旦常识图谱变简单,用传统的「关系数据存储」,查问效率会显著低于「图数据库」。在一些波及到2,3度的关联查问场景,图数据库能把查问效率晋升几千倍甚至几百万倍。 而且基于图的存储在设计上会非常灵活,个别只须要部分的改变即可。当你的场景数据规模较大的时候,倡议间接用图数据库来进行存储。 三、常识图谱的架构常识图谱的架构次要能够被分为: 逻辑架构技术架构 3.1 逻辑架构在逻辑上,咱们通常将常识图谱划分为两个档次:数据层和模式层。 模式层:在数据层之上,是常识图谱的外围,存储通过提炼的常识,通常通过本体库来治理这一层(本体库能够了解为面向对象里的“类”这样一个概念,本体库就贮存着常识图谱的类)。数据层:存储实在的数据。能够看看这个例子: 模式层:实体-关系-实体,实体-属性-性值数据层:吴京-妻子-谢楠,吴京-导演-战狼Ⅱ3.2 技术架构常识图谱的整体架构如图所示,其中虚线框内的局部为常识图谱的构建过程,同时也是常识图谱更新的过程。别缓和,让咱们顺着这张图来理一下思路。 首先,咱们有一大堆的数据,这些数据可能是结构化的、非结构化的以及半结构化的;而后,咱们基于这些数据来构建常识图谱,这一步次要是通过一系列自动化或半自动化的技术手段,来从原始数据中提取出常识因素,即一堆实体关系,并将其存入咱们的知识库的模式层和数据层。四、构建技术后面的内容说到了,常识图谱有自顶向下和自底向上两种构建形式,这里提到的构建技术次要是自底向上的构建技术。 如前所述,构建常识图谱是一个迭代更新的过程,依据常识获取的逻辑,每一轮迭代蕴含三个阶段: 信息抽取:从各种类型的数据源中提取出实体、属性以及实体间的互相关系,在此基础上造成本体化的常识表白。常识交融:在取得新常识之后,须要对其进行整合,以消除矛盾和歧义,比方某些实体可能有多种表白,某个特定称呼兴许对应于多个不同的实体等。常识加工:对于通过交融的新常识,须要通过品质评估之后(局部须要人工参加甄别),能力将合格的局部退出到知识库中,以确保知识库的品质。 上面咱们顺次来对每一个步骤进行介绍。 4.1 常识抽取常识抽取(infromation extraction)是常识图谱构建的第1步,其中的关键问题是:如何从异构数据源中主动抽取信息失去候选批示单元? 信息抽取是一种自动化地从半结构化和无构造数据中抽取实体、关系以及实体属性等结构化信息的技术。波及的关键技术包含:实体抽取、关系抽取和属性抽取。 ...

January 23, 2022 · 1 min · jiezi

关于知识图谱:知识中台驱动产业智能化升级

随着人工智能技术的提高,智能化成为产业转型降级的要害抓手,但企业在晋升数字化和智能化程度的实际过程中,面临多种挑战,如:挪动利用的遍及,带来异构数据呈几何级数增长,企业须要深度开掘数据价值以赋能业务,以及传统 IT 零碎不足智能化的技术手段,难以无效撑持企业开掘、组织、治理和使用常识的须要等。 企业急需建设全新的信息和常识解决平台,以智能化的伎俩推动数据转换为常识,撑持企业翻新业务的疾速落地和迭代。 2021年12月,在以“常识中台驱动产业智能化降级”为主题的2021云智技术论坛-常识智能化专场上,多位百度专家独特探讨企业该如何通过构建全新的常识智能化体系,打造以常识为外围的竞争劣势,来重塑将来倒退格局。 01 百度智能云常识中台,助力企业减速智能化降级 百度技术委员会主席吴华示意,“智能化是产业转型降级的重要抓手,现在人工智能、大数据、5G 等技术在产业智能化降级中扮演着越来越重要的角色。企业要实现智能化降级,不仅须要数据,更须要数据中蕴含的信息和常识,因而企业常识智能化解决方案变得尤为重要。” 产业智能化是数字经济倒退的新阶段,深刻开掘产业数据价值,从海量数据中提取常识,实现智能化的利用,是产业智能化的必由之路。在这个过程中,面临以下四大挑战: 1、数据海量 企业在数字化的过程中,产生体量微小的数据,且数据规模一直极速增长,传统 IT 架构已无奈应答。 2、数据状态简单 企业存在大量的隐性常识,其专业性强、结构化水平低,行业数据出现复杂化、多模化发展,这将给数据处理和常识开掘带来微小挑战。 3、数据利用率低 企业外部数据分布在不同的业务零碎中,出现碎片化、孤岛化的特点,存在大量冗余和乐音。传统的数据处理技术难以对这些数据和信息进行语义化的了解,导致数据的利用率低下。 4、利用多态 企业外部利用和业务零碎纷繁复杂,传统的常识治理面临老本高、效率低、体验差等问题,常识利用不足系统化的能力。 为应答上述挑战,帮忙企业实现智能化降级,百度智能云公布常识中台解决方案。该计划基于百度常识图谱、自然语言解决、跨模态内容了解等核心技术,提供面向企业常识利用全生命周期的一站式解决方案,笼罩企业的常识生产、常识组织、常识利用的全流程外围能力。百度智能云常识中台可通过利用组件、标准化产品、定制化服务、集成化计划等多种灵便的形式对外输入,助力企业高效生产常识,灵便组织常识,智能利用常识,全面晋升企业运行效率和决策的智能化程度。 02 百度智能云常识中台背地的技术撑持百度智能云常识中台助力企业智能化降级的背地,离不开百度弱小的 AI 技术支持,如常识图谱、自然语言解决、常识加强的跨模态内容了解、面向多模态的简单常识开掘,以及常识加强的场景子图推理等。 1、常识图谱 百度常识图谱通过近10年的倒退,打造从通用到行业的常识图谱残缺技术体系,构建了业界规模最大的多源异构常识图谱,目前领有5500亿常识的多源异构超大规模常识图谱,除了根底的由实体、属性、关系形成的通用常识图谱,还针对不同利用场景和常识状态,构建了事件图谱、多模态图谱、行业常识图谱等多种图谱。通过继续获取和积攒常识,认知能力和智能化程度一直降级,从而能够更好地撑持不同的利用场景。 为了解决行业利用中最初一公里的问题,百度智能云从架构机制、策略算法到平台流程进行全面的降级和优化,构建高效可迁徙的行业常识图谱平台。该平台劣势有:一是专业性强,面向业余简单常识,实现基于超图的常识表白;二是效率高,反对低资源的学习机制,通过人机协同的形式,绝对传统人工构建形式,效率晋升百倍以上;三是可迁移性,实现从通用到行业,跨行业的多层次迁徙学习,目前已笼罩一百多个行业场景。 2、自然语言解决 百度研发了世界一流的语义了解、语言生成、智能问答、智能对话、机器翻译等自然语言解决技术。2021年百度智能云公布“常识加强大模型”文心 ERNIE 3.0,该模型基于深度学习平台飞桨的分布式训练技术,首次在百亿级参数预训练模型中引入大规模常识图谱,一举刷新54个中文 NLP 工作基准,并在寰球权威榜单“SuperGLUE”上排名第一。 3、常识加强的跨模态内容了解 百度自研常识加强的跨模态深度语义了解技术,通过常识关联跨模态信息,解决不同模态语义空间交融示意的难题,冲破了跨模态语义了解的瓶颈,让机器像人类一样,通过语言、听觉和视觉等取得对真实世界的对立认知,实现对简单场景的了解。 4、面向多模态的简单常识开掘 在常识开掘层,针对行业多态输出数据,百度智能云常识中台基于 Prompt Learning 技术,对实体关系和事件等信息抽取进行对立建模和多任务训练,利用畛域语言模型中蕴含的大量常识,使得模型具备良好的零样本迁徙和小样本学习的能力,除了传统的本体以及简略的 SPO 三元组外,还可开掘时序类、因果类、流程类等简单常识。并针对从常识体系的设计到零碎落地部署的全副流程,常识中台提供全链条按需定制工具,高效反对跨行业、跨场景的常识开掘需要。 5、常识加强的场景子图推理 在常识中台的利用中存在大量的推理场景,因而除了推理的后果准确性要求外,后果的可解释性尤为要害。另外,行业场景须要随着情境的变动做间断推理,这对推理过程的逻辑性、一致性带来微小的挑战。针对这些难题,百度智能云常识中台将数据与常识驱动相结合,独创常识加强的场景子图推理,使用子图来刻画情境,使后果更可解释、逻辑性和间断一致性。 基于以上弱小 AI 技术加持,百度智能云常识中台帮忙企业便捷地从数据提炼常识,通过搜寻、问答、推理、可视化等形式高效地将常识利用,将扩散在企业各处的常识进行集约化治理,起到凝练常识、赋能业务、助力企业晋升智能化程度的作用。 03 揭秘百度智能云常识中台的机制百度智能云 AI 产品业务部解决方案总监楚畅示意,企业数据知识化转型建设过程需经验数据治理、常识生产、常识组织、常识利用、常识经营环节。从整体来看,还可分成常识的生产、使用和经营等三大阶段。 作为企业常识智能化中枢,百度智能云常识中台解决方案打造了数据接入、常识生产、常识组织、智能利用、经营治理模块。 第一个环节是数据接入,百度智能云常识中台反对通过 API 形式或直连形式对接企业现有的数据平台、数据库、文档零碎等数据源,来获取包含结构化、半结构化和非结构化等多源异构数据信息。应用灵便可配置的调度工具,反对一次性全量数据导入、分批分时配置导入数据、实时在线逐条读取数据。数据接入后,零碎会对数据进行适配、加工、转换和散发等操作,造成常识体系。百度智能云常识中台反对单日十亿级数据吞吐量,可同时对接百万级数据源,做到数据分钟级的更新。 接入数据后,在常识生产环节中将接入数据加工成为各种各样的常识体系。百度智能云常识中台提供七大常识生产方式:常识图谱、问答常识、全文常识、标签常识、事件常识、多模态常识、因果常识生产等形式。 1、常识图谱生产 传统常识图谱生产由业务专家采纳自上而下的形式对某业务畛域的实体、属性、关系进行抽取和建模,造成 Schema 体系。百度智能云的智能常识图谱的生产,通过人机联合和算法驱动的形式,用 AI 算法模型来驱动和训练,可从企业积淀的数据或文档里抽取生成初步的 Schema 体系,再联合业务专家进行大量的人工审阅、调整,可大幅晋升图谱构建的效率。 百度智能云的常识图谱生产,一方面可大幅晋升常识图谱的构建效率,另一方面是有时候业务专家没有思考到的属性和实体,能够通过零碎主动获取,无效实现细节补充,确保整个图谱构建后果更加欠缺和迷信。比方在传统本体构建环节,靠传统形式由专家梳理整个常识体系与本体体系,周期需几周甚至大几周;而采纳人机联合与算法驱动的形式,只需几天就能构建实现整个常识与本体体系。 2、问答常识生产 ...

January 18, 2022 · 1 min · jiezi

关于知识图谱:关于执行gbuild命令时的错误

执行gbuild命令呈现You must input the database name for building database谬误执行gbuild在装置目录/gStroe下执行bin/gbuild db_name filepath呈现You must input the database name for building database!谬误。起因:0.8版本之前的命令为bin/gbuild db_name filepath,0.9当前执行会出错。0.9版本当前的命令为bin/gbuild -db db_name -f file_path示意从file_path中构建名为db_name的数据库,例如bin/gbuild -db lubm -f ./data/lubm/lubm.nt(从三元组文件lubm.nt构建lubm数据库)

January 10, 2022 · 1 min · jiezi

关于知识图谱:讲坛实录知识图谱的探索与应用

01 常识图谱到底是什么? 语义网络是一种以网络格局表白人类常识结构的模式,是一种用实体及其语义关系来表白常识的有向图。而常识图谱是一种基于图的数据结构,是一种用图模型来形容常识和建模世界万物之间关联关系的大规模语义网络。 常识图谱以半结构化的模式形容主观世界中概念、实体及其关系。在常识图谱里,咱们通常用“实体”来表白图里的节点、用 “关系” 来表白图里的 “边”。 常识图谱有模式层和数据层,左边这张图是模式层,形容的是实体类型(概念)之间的形象关系;右边这张图则是数据层。 人工智能分为三个阶段,从运算智能到感知智能,再到认知智能。 在上述三个阶段中,咱们正逐渐迈入第三个阶段,以后钻研的重心正在由感知智能畛域逐步过渡到认知智能畛域。 认知智能是人类特有的,建设在思考之上的智能。而思考建设在常识之上。AI要从感知智能迈向认知智能,实质上常识是根底,有了常识根底,AI能力造成推理机制。而常识图谱富含实体、属性、概念和事件,并从关系的角度将这些信息有机整合在一起。要害的是,它可能基于肯定的常识推理为AI的可解释性带来全新的一个视角。因而,常识图谱是认知智能底层的一种必要撑持。 02 常识图谱构建的根本流程有哪些? 常识图谱的根本构建流程有数据归集、常识抽取、常识交融、常识加工及常识利用。 数据归集:数据源不对立,对半结构化与非结构化数据须要进行数据抽取。针对构建常识图谱,咱们也须要设计底层的这种存储形式。 信息抽取:须要从各种类型的数据外面去提取实体、属性、实体之间的互相关系,在这个根底上造成一些成体系化常识。 其中,实体抽取会用到命名实体辨认技术,抽取时从数据集里自动识别命名实体。关系抽取次要是取得语义信息,以此获取实体之间的关联关系。而后应用面向凋谢域和面向关闭畛域的这种抽取办法来进行一个整体的联合,通过关系将实体之间分割起来,进而造成结构化的网状知识结构。属性抽取须要从不同信息源或者数据源里采集特定实体的属性信息。事件抽取个别从题目或者动作里抽取。 常识交融:获取新的常识后对常识进行整合,消除矛盾与歧义。实体对齐是将实体的各种名称进行对立对齐。指代消解是将文中的指代词与所指实体进行整合。 常识加工:知识库构建也称之为本体构建。通过实体并列的关系进行类似度计算,对关系进行抽取,进行实体的生成等等,最终造成一种概念或框架。品质评估是对常识的可信度进行量化,通过舍弃可信度低的常识来保障整个知识库的品质。常识推理次要是解决常识图谱之间关系值缺失一类的问题,通过基于逻辑的推理、基于图的推理、基于深度学习的推理来解决。常识更新包含模式层(知识库)的更新和数据层(数据存储)的更新。 常识存储:解决实现的常识须要存储,有两种存储形式。一种是通过资源形容框架RDF进行存储。还有一种是应用图数据库(咱们公司的StellarDB)。当初罕用图数据库存储,因为常识图谱的网络可能波及到上亿的节点,有时甚至几十亿,传统的数据库难以胜任。而图数据库的存储、查问效率十分高。关联查问效率会比传统数据存储的形式要高得多。 03 常识图谱次要依赖什么技术? 在常识图谱落地过程中,最重要的是要教会计算机常识推理的过程,而其中就须要用到图计算这种重要的技术支持。 图计算算法次要包含遍历算法(全盘拜访每一个节点)、社区发现(用于计算社交网络中人际关系)、PageRank(源自搜索引擎,用于网页链接排序) ,以及最短门路算法(解决图构造中距离问题),在常识图谱中次要利用遍历算法进行常识推理,以发现实体间暗藏的关系。 常识图谱实用于一些多元的、高维的、关系简单的场景。例如股票投研情报分析、公安情报分析、反欺诈情报分析、智能搜寻等。 04 Sophon KG为企业级常识图谱落地带来便当 Sophon KG是一站式常识图谱构建和剖析利用平台。为图谱模式定义(蕴含蓝图定义和本体定义)、常识抽取(从文本标注、模型训练到事件-实体-关系抽取)、常识交融(实体链接、实体合并)、常识存储和检索(对接星环自研的分布式图数据库StellarDB、可扩大的分布式全文搜索引擎Scope和时空序列数据库Spacture等)、常识推理(基于OWL进行本体推理和基于图计算关联性推理)做全链路的撑持和治理。 Sophon KG不仅反对零代码交互式图谱查问,还反对语义搜寻和举荐、基于图算法的模式发现(常识推理)、智能问答、情感剖析、时空剖析等性能,从而帮忙了解大数据,取得对大数据的洞察,提供决策反对。 Sophon KG的产品架构如下: 05 Sophon KG有哪些弱小性能? 1、零代码的图谱构建能力 2、交互式的图谱构建 3、交互式的查问,反对定向剖析、门路发现 4、弱小的图谱剖析能力,反对图谱比照、可视化统计、时序剖析 5、智能搜寻,反对单个实体和批量实体的疾速查问 6、文本标注组件KG Anno,反对实体、关系和文本分类3种标注工作 7、全图摸索,提供3D大图展现 06 常识图谱的典型应用场景有哪些? 金融反洗钱场景 通过关联查问、可视化图剖析、图开掘、机器学习和规定引擎;反对关联关系数据的疾速检索、查找和浏览;开掘暗藏关系并模型化业务教训,帮忙金融机构的建设一个可继续、经济可行的反洗钱合规框架。 金融反欺诈场景 针对大量数据,通过筛选剖析单干关系、团体关系、投资关系、社团分类关系以及资产与负债等状况,辨认危险客户和危险团体,升高人力老本耗费并大幅晋升反欺诈能力。 金融风险传导场景 以公司为信用主体追踪其发行的债券标的,联合公司信批等内部舆情,发现并量化重大危险事件,并通过信用主体的参控股关系、投资关系、分子公司关系、担保关系、董监高关系等,实现债务信用传导,影响企业现金流变动,最终来判断信用主体兑付状况。 07 常识图谱的将来会走向何方? 常识图谱利用正经验暴发期,已由原先的语义常识图谱一直向行业细分常识图谱倒退,拓展出平安常识图谱、金融常识图谱等行业常识图谱,及风控、投研、营销等场景化的常识图谱。 据Gartner公布的2020年数据与剖析畛域的十大技术趋势示意,到2022年,常识图谱技术实现100%的快速增长,到2023年,常识图谱技术将促成寰球30%的企业机构决策过程的疾速情景化。置信将来,常识图谱将与深度学习等AI前沿技术相结合,除金融、营销等场景外,也对自然灾害和其余危机的辨认、预测和布局施展关键作用。

December 8, 2021 · 1 min · jiezi

关于知识图谱:ACMMM2021|在多模态训练中融入知识图谱方法及电商应用实践

简介: 随着人工智能技术的一直倒退,常识图谱作为人工智能畛域的常识支柱,以其弱小的常识示意和推理能力受到学术界和产业界的宽泛关注。近年来,常识图谱在语义搜寻、问答、常识治理等畛域失去了宽泛的利用。 作者 | 朱渝珊起源 | 阿里技术公众号 一 背景1 多模态常识图谱随着人工智能技术的一直倒退,常识图谱作为人工智能畛域的常识支柱,以其弱小的常识示意和推理能力受到学术界和产业界的宽泛关注。近年来,常识图谱在语义搜寻、问答、常识治理等畛域失去了宽泛的利用。多模态常识图谱与传统常识图谱的次要区别是,传统常识图谱次要集中钻研文本和数据库的实体和关系,而多模态常识图谱则在传统常识图谱的根底上,构建了多种模态(例如视觉模态)下的实体,以及多种模态实体间的多模态语义关系。以后典型的多模态常识图谱有DBpedia、Wikidata、IMGpedia和MMKG。 多模态常识图谱的利用场景非常宽泛,它极大地帮忙了现有自然语言解决和计算机视觉等畛域的倒退。多模态构造数据尽管在底层表征上是异构的,然而雷同实体的不同模态数据在高层语义上是对立的,所以多种模态数据的交融对于在语义层级构建多种模态下对立的语言示意模型提出数据反对。其次多模态常识图谱技术能够服务于各种上游畛域,例如多模态实体链接技术能够交融多种模态下的雷同实体,可利用于新闻浏览,同款商品辨认等场景中,多模态常识图谱补全技术能够通过近程监督补全多模态常识图谱,欠缺现有的多模态常识图谱,多模态对话零碎可用于电商举荐,商品问答畛域。 2 多模态预训练预训练技术在计算机视觉(CV)畛域如VGG、Google Inception和ResNet,以及自然语言解决(NLP)如BERT、XLNet和GPT-3的胜利利用,启发了越来越多的研究者将眼光投向多模态预训练。实质上,多模态预训练冀望学习到两种或多种模态间的关联关系。学术界的多模态预训练计划多基于Transformer模块,在利用上集中于图文工作,计划大多大同小异,次要差别在于采纳模型构造与训练任务的差别组合,多模态预训练的上游工作能够是惯例的分类辨认、视觉问答、视觉了解推断工作等等。VideoBERT是多模态预训练的第一个作品,它基于BERT训练大量未标记的视频文本对。目前,针对图像和文本的多模态预训练模型次要能够分为单流模型和双流模型两种架构。VideoBERT,B2T2, VisualBERT, Unicoder-VL , VL-BERT和UNITER应用了单流架构,即利用单个Transformer的self-attention机制同时建模图像和文本信息。另一方面,LXMERT、ViLBERT和FashionBERT引入了双流架构,首先独立提取图像和文本的特色,而后应用更简单的cross-attention机制来实现它们的交互。为了进一步提高性能,VLP利用了一个共享的多层Transformer进行编码和解码,用于图像字幕和VQA。基于单流架构,InterBERT将两个独立的Transformer流增加到单流模型的输入中,以捕捉模态独立性。 3 常识加强的预训练近年来,越来越多的钻研人员开始关注常识图(KG)和预训练语言模型(PLM)的联合,以使PLM达到更好的性能。K-BERT将三元组注入到句子中,以生成对立的常识丰盛的语言示意。ERNIE将常识模块中的实体示意集成到语义模块中,将令牌和实体的异构信息示意到一个对立的特色空间中。KEPLER将实体的文本形容编码为文本嵌入,并将形容嵌入视为实体嵌入。KnowBERT应用一个集成的实体链接器,通过一种单词到实体的留神模式生成常识加强的实体广度示意。KAdapter为RoBERTa注入了事实常识和语言常识,并为每种注入的常识提供了神经适配器。DKPLM能够依据文本上下文动静地抉择和嵌入常识,同时感知全局和部分KG信息。JAKET提出了一个联结预训练框架,其中包含为实体生成嵌入的常识模块,以便在图中生成上下文感知的嵌入。KALM、ProQA、LIBERT等钻研还摸索了常识图与PLM在不同利用工作中的交融试验。然而,目前的常识加强的预训练模型仅针对繁多模态,尤其是文本模态,而将常识图融入多模态预训练的工作简直没有。 二 多模态商品常识图谱及问题随着人工智能技术的一直倒退,常识图谱作为人工智能畛域的常识支柱,以其弱小的常识示意和推理能力受到学术界和产业界的宽泛关注。多模态常识图谱与传统常识图谱的次要区别是,传统常识图谱次要集中钻研文本和数据库的实体和关系,而多模态常识图谱则在传统常识图谱的根底上,构建了多种模态(例如视觉模态)下的实体,以及多种模态实体间的多模态语义关系。如图1所示,在电商畛域,多模态商品常识图谱通常有图像、题目和构造常识。 多模态商品常识图谱的利用场景非常宽泛,多模态构造数据尽管在底层表征上是异构的,然而雷同实体的不同模态数据在高层语义上是对立的,所以多种模态数据的交融有利于充沛表白商品信息。多模态商品常识图谱技术能够服务于各种上游畛域,例如多模态实体链接技术能够交融多种模态下的雷同实体,能够广泛应用于产品对齐,明星同款等场景中,多模态问答零碎对于电商举荐,商品问答畛域的提高有着重大的推动作用。但目前还相当不足无效的技术手段来无效交融这些多模态数据,以反对宽泛的电商上游利用。 图1 最近几年,一些多模态预训练技术被提出(如VLBERT、ViLBERT、LXMERT、InterBERT等),这些办法次要用于开掘图像模态与文本模态信息之间的关联。然而,将这些多模态预训练方法间接利用到电子商务场景中会产生问题,一方面,这些模型不能建模多模态商品常识图谱的结构化信息,另一方面,在电商多模态常识图谱中,模态缺失和模态噪声是两个挑战(次要是文本和图片的缺失和噪声),这将重大升高多模态信息学习的性能。在实在的电子商务场景中,有的卖家没有将商品图片(或题目)上传到平台,有的卖家提供的商品图片(或题目)没有正确的主题或语义。图 2中的Item-2和Item-3别离显示了阿里场景中的模态噪声和模态缺失的例子。 图2 三 解决方案为了解决这一问题,咱们将产品结构化常识作为一种独立于图像和文本的新的模态,称为常识模态,即对于产品数据的预训练,咱们思考了三种模态的信息:图像模态(产品图像)、文本模态(产品题目)和常识模态(PKG)。如图2所示,PKG蕴含<h, r, t>模式的三元组。例如,<Item-1, Material,Cotton>示意产品Item-1的材质是棉花。咱们这样解决的起因在于,(1)PKG形容了产品的主观个性,它结构化且易于治理,通常为PKG做了很多保护和标准化工作,所以PKG绝对洁净可信。(2) PKG与其余模态蕴含的信息有重合也有互补,以图2的Item-1为例,从图片、题目和PKG都能够看出Item-1是一件长袖t恤;另一方面,PKG表明这款t恤不仅适宜秋季,也适宜秋季,但从图片和题目看不出来。因而,当存在模态噪声或模态缺失时,PKG能够纠正或补充其余模态。 四 模型架构咱们提出了一种在电子商务利用中新鲜的常识感知的多模态预训练方法K3M。模型架构如图3所示,K3M通过3个步骤学习产品的多模态信息:(1)对每个模态的独立信息进行编码,对应modal-encoding layer,(2)对模态之间的相互作用进行建模,对应modal-interaction layer,(3)通过各个模态的监督信息优化模型,对应modal-task layer。 图3 (1)modal-encoding layer。在对每个模态的单个信息进行编码时,针对图像模态、文本模态以及常识模态,咱们采纳基于Transformer的编码器提取图像、文本、三元组外表模式的初始特色。其中文本模态和常识模态的编码器参数共享。 (2)modal-interaction layer。当建模模式之间的相互作用时,有两个过程。第一个过程是文本模态和图像模态之间的交互:首先通过co-attention Transformer基于图像和文本模态的初始特色学习对应的交互特色,其次,为了放弃单个模态的独立性,咱们提出通过初始交互特色交融模块来交融图像和文本模态的初始特色及其交互特色。第二个过程是常识模态和其余两个模态的交互:首先用图像和文本模式的交互后果作为指标产品的初始示意,用三元组关系和尾实体的外表状态特色作为的商品属性和属性值的示意。而后通过构造聚合模块流传并在指标产品实体上聚合商品属性和属性值信息。商品实体的最终示意能够用于各种上游工作。 (3)modal-task layer。图像模态、文本模态和常识模态的预训练任务别离为掩码对象模型、掩码语言模型和链接预测模型。 五 试验与实际1 试验(论文的试验)K3M在淘宝4千万商品上训练,其中每个商品蕴含一个题目,一张图片和一组相干的三元组。咱们设置不同的模态缺失和乐音比率,在商品分类、产品对齐以及多模态问答3个上游工作上评估了K3M的成果,并与几个罕用的多模态预训练模型比照:单流模型VLBERT,和两个双流模型ViLBERT和LXMERT。试验后果如下: 图3显示了各种模型对商品分类的后果,能够察看到: (1)当模态缺失或模态噪声存在时,基线模型重大不足鲁棒性。当TMR减少到20%、50%、80%和100%时,“ViLBERT”、“LXMERT”和“VLBERT”的性能从TMR=0%均匀降落10.2%、24.4%、33.1%和40.2%。(2)带有缺失和噪声的文本模态对性能的影响大于图像模态。比照3个基线的“题目噪声”和“图像噪声”,随着TNR的减少,模型性能降落了15.1% ~ 43.9%,而随着INR的减少,模型性能降落了2.8% ~ 10.3%,阐明文本信息的作用更为重要。(3)引入常识图能够显著改善模态缺失和模态噪声问题。在无PKG基线的根底上,“ViLBERT+PKG”、“LXMERT+PKG”和“VLBERT+PKG”在TMR从0%减少到100%时的均匀改善率别离为13.0%、22.2%、39.9%、54.4%和70.1%。(4)K3M达到了最先进的性能。它将 “ViLBERT+PKG”、“LXMERT+PKG”和“VLBERT+PKG”在各种模态缺失和模态噪声设置下的后果进步了0.6%到4.5%。 图4显示了产品对齐工作的后果。在这个工作中,咱们能够失去相似于在我的项目分类工作中的察看后果。此外,对于模态缺失,模型性能不肯定随着缺失率的减少而升高,而是稳定的:当缺失率(TMR、IMR和MMR)为50%或80%时,模型性能有时甚至比100%时更低。实际上,这个工作的实质是学习一个模型来评估两个我的项目的多模态信息的相似性。直觉上,当对齐的商品对中的两个我的项目同时短少题目或图像时,它们的信息看起来比一个我的项目短少题目或图像而另一个我的项目什么都不缺时更类似。 表2显示了多模态问答工作的排序后果。在这个工作中,咱们也能够看到相似于在商品分类工作中的察看后果。 2 实际(阿里的业务利用成果)1、饿了么新批发导购算法,离线算法AUC晋升0.2%绝对值;在线AB-Test试验,流量5%,5天:CTR均匀进步0.296%,CVR均匀进步5.214%,CTR+CVR均匀进步:5.51%; 2、淘宝主搜找类似服务,离线算法AUC晋升1%,业务方反馈是很大的晋升;目前在线AB测试中; 3、阿里妈妈年货节商品组合算法,在线算法,基于Emedding的试验桶(5.52%)CTR指标相较于另外2个试验桶(5.50%,5.48%)别离进步0.02%、0.04%的点击率,绝对进步别离为0.363%、0.73%; 4、小蜜算法团队低志愿下的类似商品的举荐,整体减少这一路的召回状况下,转化能有2.3%到2.7%左右的晋升,绝对晋升12.5%。之前版本绝对晋升11%。后续扩大到其余场景。 原文链接本文为阿里云原创内容,未经容许不得转载。

October 20, 2021 · 1 min · jiezi

关于知识图谱:开放搜索查询分析服务架构解读

简介: 搜寻行为在后端都会有大量的数据计算和解决才会召回合乎用户需要的搜寻后果,本次分享联合自建搜寻业务中查问剖析服务常见的问题及难点,介绍阿里云凋谢搜寻查问剖析具备的能力及解决方案,并深度解读阿里巴巴查问剖析服务架构和兼容Elasticsearch的架构是如何实现的特邀嘉宾: 项招贵(项公)--阿里巴巴高级技术专家 视频地址:https://yqh.aliyun.com/live/o... 查问剖析介绍查问剖析在搜寻中的作用在搜寻申请的处理过程中能够在工程实现上分为两个阶段,召回和排序。在召回阶段须要尽可能的把用户想要的文档在引擎中找到,在排序阶段须要将最满足需要的文档排在最后面去返回给用户。 通过查问剖析能够疾速进行解决和剖析,比方,往往在理论的生产环境中,用户往往会有一些谬误的输出,须要进行query纠错。 其次咱们须要对query分词并且辨认其中不同词的重要水平,这有助于咱们在召回和排序中去应用。 同时因为理论的环境中存在一词多意,所以要进行同义词的扩大。 其次须要对用户的query进行改写去帮忙引擎更高效的去执行召回。在query解决的阶段,会输入一些信息去以帮忙咱们在排序时候跟文档去算一些文档的相关性、类目相关性、以及通过一些将文本进行向量化去算它的语义相关性等。 查问剖析链路总的来说,查问剖析的作用就是对用户输出的query进行剖析和改写,去晋升咱们零碎的召回的准确率和排序的相关性。 上面通过简略的例子介绍凋谢搜寻的查问剖析的性能。 自建搜寻服务面临的问题须要行业畛域常识一直积攒;短少大量行业样本数据,自研难度大;算法调优、工程开发、日常运维须要继续的人力投入;凋谢搜寻查问剖析特点面向行业提供残缺的查问剖析解决方案针对特定畛域提供算法性能,以及对某些特定的算法性能进行优化。例如,电商行业,凋谢搜寻提供了实体辨认。教育行业,往往不仅是文本,也有可能是副文本或图片,所以对query进行了一个文本向量化的性能。有些性能在不同的行业外面咱们也会针对性的去做优化,像拼写纠错或同义词的开掘等等。 查问剖析每一个性能均可干涉干涉是实时失效的, 蕴含实体辨认、拼写纠错、停用词、词权重,同义词,类目预测等。 轻量化的去定制服务依据客户不同的业务场景去配置他的查问剖析的能力,凋谢搜寻提供这些能力性能的选集,用户能够依据理论需要抉择其中一部分能力在理论生产环境中应用。 其次反对用户应用多种不同类型的查问剖析,或者说是不同的查问剖析的配置。 免运维罢黜用户日常的运维的继续的投入。 查问剖析服务架构算法服务中心算法性能的公布,迭代;用户模型的增删改查;算法模型的训练;算法模型的回流; 干涉性能用户干涉数据的增删改查;实时同步干涉数据到查问剖析服务中; 查问剖析和类目预测服务加载词典、模型、数据、配置;不同行业通过不同的服务链配置来实现;加载用户干涉数据; 查问过程依据用户配置的性能执行对应的查问剖析链;改写的query发给引擎执行查问;DIIRuntime框架反对多种不同类型的索引,满足算法对各种不同类型数据的高效拜访;索引构建、散发、加载、查问对立,升高开发和运维老本;链式服务框架,灵便组链,反对不同场景的性能;算法开发只须要关注算法性能自身逻辑的实现,简略快捷; Elasticsearch兼容架构凋谢搜寻Elasticsearch引擎查问剖析性能根本对齐凋谢搜寻的查问剖析能力; 具备行业分词能力 可干涉 反对扩大分词 具备行业查问剖析能力 可配置 可干涉 实现架构1.创立实例创立凋谢搜寻实例,关联Aliyun Elasticsearch的实例装置插件 2.配置查问剖析Mapping中设置应用响应的分析器 插件性能 提供通用、行业的分词能力 拜访查问剖析服务,获取query改写后果 改写Elasticsearch的查问query 原文链接本文为阿里云原创内容,未经容许不得转载。

October 13, 2021 · 1 min · jiezi

关于知识图谱:企业如何通过图数据库及知识图谱形成业务壁垒

随着业务数据量级猛增、业务数据类型更加多样化、业务复杂程度的激增,传统的关系型数据库早已无奈反映企业业务状况的全貌,对于剖析对象之间的关系洞察也透出了能力瓶颈。在这样的大背景下,企业对图数据库的需要应运而生。 区别于传统的关系型数据库,图数据库以实体为点,点与点的关联关系为边,对数据进行存储。企业开始应用原生图存储的模式存储多样化的数据,是心愿可能应用图的计算模式来对实体间盘根错节的关系疾速造成深刻洞察,从而积淀成企业智慧,进一步晋升业务的智能化程度,升高现有昂扬的人力老本,解决以往的人力决策难以跟上业务数据倒退的问题。 以大数据能力为松软底座 图数据库+TDH计算引擎实现优异的性能体现 目前市面上的开源图数据库较实用于个人用户,对于企业用户而言,图数据个别来源于已有的大数据系统,随着数据量的增长和业务模型逐步简单,开源图数据库既无奈接受大规模图存储和计算,也无奈融入大数据生态,徒增零碎复杂程度。 基于此痛点,星环科技自主研发了分布式图数据库StellarDB,以分布式的计算引擎为能源,可帮忙用户实现任意数据规模的图计算,且计算能力随节点数线性扩大,能够撑持万亿级别图规模存储。除了反对大规模的数据集外,StellarDB还具备深度的图剖析能力,反对10层以上的深度简单图遍历。 星环图数据库StellarDB为大数据平台提供了良好的兼容服务,能够疾速接入已有的大数据平台。 图1 星环科技分布式图数据库StellarDB StellarDB的查问性能和图算法能力曾经达到行业领先水平。本次测试采纳了公开数据集twitter-2010,其点边规模别离为四千万和十四亿。比照图数据库别离为:StellarDB 3.0.12,Neo4j 4.3.3,ArangoDB 3.7.11,以及JanusGraph 0.5.2。本次比拟的内容包含:数据导入测试、多度查问测试、多度最短门路测试,以及图算法测试。 最终后果如图2所示,横坐标示意耗时的倍数,以StellarDB的运行时长为基准,设定为1,柱越长代表查问或导入工作耗时越久,无柱状示意超过2h无后果返回或呈现OOM报错。 咱们首先来看数据导入速度,StellarDB在面对十亿边数据量集的导入速度在15分钟左右,其余开源数据库的导入工夫在近半小时级至半天级不等。咱们接下来对2度及3度查问进行比拟,能够看到在4次查问工作当中,StellarDB均有较好的性能体现:2度街坊查问的性能别离为其余产品的5-20倍不等;2度最短门路查问甚至达到1~40倍不等;3度最短门路查问达到1.4倍;而在3层街坊查问工作中,StellarDB能在亚分钟级查问出4.3亿条后果,而ArangoDB在4项查问工作中均超时。在图算法方面,StellarDB的PageRank后果返回速度也超其余返回后果速度2倍以上。 可见,面对国外厂商Neo4j善于的小数据量短查问场景,StellarDB在大图2度街坊查问中体现出了5倍的较大劣势,并疾速查问出Neo4j无奈返回的3度街坊查问。可见StellarDB对于海量的大图数据集有显著的性能劣势,且随着层数的增大,对多度及最短门路的查问劣势更加显著,而其余图数据库往往会产生报错、无奈返回后果等状况。 图2 StellarDB性能测试耗时比照图 在应用便捷性方面,StellarDB内置了近20种常见的图算法,可满足用户各类图剖析需要,并且反对2D/3D的全景剖析及展示,利用可视化技术帮忙用户疾速获取数据基于关联性的深度洞察。同时,StellarDB能够满足实时图查问和离线算法剖析的需要,无需学习特定的编程语言,只需基于支流的openCypher图形查询语言,即可实现简单的查问工作。在某些金融场景,用户甚至无需输出图形查询语言,应用自然语言即可进行疾速检索。 老本方面,StellarDB采纳了多种数据编码和压缩策略,无效升高海量图数据对于存储资源的需要。相较于开源图数据库,StellarDB可应用更少的节点实现更快的查问。跑在更少的服务器资源上,可极大升高用户的洽购、运维、空间及能耗老本及开销,以满足企业“碳达峰”、“碳中和”的需要。 企业级性能方面,StellarDB具备残缺的企业级性能,为企业客户设计了多维度的权限管制模型,反对图级别、标签级别、属性级别三层权限设置;提供了数据加密和配置掩码规定,保障敏感数据的安全性;提供增量和全量数据备份,以及在线跨集群数据恢复,帮助客户保障集群数据完整性;提供平安认证和访问控制,反对Kerberos和LDAP登陆和受权。 产品资质方面,StellarDB具备自主知识产权,且已取得图数据库根底能力专项测评证书,可与国产的操作系统和硬件平台兼容。 辅以KG等AI驱动的利用开发工具 实现金融风控全链路撑持 基于图数据库,用户能够在下层开发通用或行业常识图谱,将企业的业务规定、决策智慧积淀下来,并赋能搜索引擎、举荐零碎、实时危险预警等利用零碎,实现团体的数字化转型。 以金融监管机构为例,可实现团体派别常识图谱、产业链常识图谱、担保链常识图谱、反洗钱常识图谱等的构建;以银行为例,星环科技能够帮忙用户构建企业治理关系图谱、小微企业危险事件图谱、社交画像常识图谱、供应链常识图谱,从而实现贷后资金穿透治理和危险传递预估;投资图谱方面,星环科技可帮忙证券、基金、期货企业构建智能投研常识图谱、FOF投研常识图谱、大宗商品常识图谱等,可实现舆情事件的实时接入、危险事件的实时预警及危险传导的可视化。 除以上利用外,图数据库及常识图谱技术也大量利用于可疑团伙发现、产品或服务的精准举荐、社交网络分析、疫情溯源与防控等畛域。 图3 星环科技Sophon KG的企业常识图谱界面 星环科技提供用户 从点到线再到面的平面智能剖析能力 星环科技为用户串联起了从底层的关系型数据库、大数据平台到中层的图数据库,再到下层常识图谱利用的全栈产品,实现了从最底层独立的“点”剖析到关系的“线”剖析再到事件的“面”剖析,最终造成行业全面的“体”剖析的全栈智能剖析赋能。从点到面再到体的一站式剖析工具提供,能够搭建严密相扣的工作流链路,对于用户而言,可能大量节俭开发成本和根底算力,显著晋升剖析性能。 开展来讲: (1)“点”:传统数据分析是利用关系型数据库或不含图数据库的OLAP大数据平台,针对单个实体或属性进行统计分析或机器学习建模,它只能解决单个或多个独立“点”的信息。 (2)“线”:而当用户想基于点和点之间的关系进行多层关联关系剖析时,关系型数据库会遇到多表join的挑战而无奈返回后果。此时应用分布式的图数据库即可在疾速返回海量的大图剖析后果,实现对“线”的剖析。 (3)“面”:当盘根错节的线造成一个网络时,咱们须要应用属性图、图建模的技术来对简单网络进行剖析,如提取网络中的特色或模式,并固化这些模式和常识,泛化至业务零碎当中,造成企业的常识资产。 (4)“体”:最初,当遇到多层次、多维度的网络时,有异构图剖析能力的常识图谱能够帮忙企业造成语义网络,比方说将企业上下游、舆情信息等多源异构的网络进行整体剖析,造成对某一标的的价格走势预判,最终实现对“体”的剖析。 图4 星环科技从“点”到“面”的平面智能剖析能力 星环科技从点至面的平面智能剖析计划,其底层除反对TDH极速大数据平台外,利用联邦计算技术可集成多个异构数据源、跨平台的数据领有方,做到在不间接进行数据交换的前提下,取得整体数据的计算结果。此外,基于多模型的大数据技术架构,可通过8种独立的存储引擎反对业界支流的10种存储模型,对于用户来说,可对关系型数据、文本数据、天文空间数据、图数据、时序数据等进行对立的存储、查问计算和交融剖析。 咱们置信,图数据库作为Gartner公布的2021数据分析十大技术之一,将以极大的潜能开掘海量数据的有限价值,并辅以常识图谱等AI驱动的开发工具,从图计算及图模式摸索中一直积淀新的业务规定,实时赋能下层业务。随着图计算和解决技术的一直遍及,企业能通过把握从“点”到“线”至“面”的平面智能剖析能力,一直积攒常识和业务深层法则,最终形成企业松软的业务壁垒。

September 28, 2021 · 1 min · jiezi

关于知识图谱:初学者入门知识图谱必看的能力推理

摘要:本文从常识推理的基本概念登程,通俗易懂得介绍了常识图谱常识推理的利用和办法。本文分享自华为云社区《0根底入门常识图谱的超能力——常识推理》,作者:Cheri Chen。 一、常识推理的概念推理是使用逻辑思维能力,从已有的常识登程,得出未知的、隐性的常识。 具体到常识图谱中,所谓的常识推理,就是利用图谱中现有的常识(三元组),失去一些新的实体间的关系或者实体的属性(三元组)。如下图所示:如果原来的常识图谱中有这样两个三元组,<姚明,妻子,叶莉>和<姚明,女儿,姚沁蕾>,通过常识推理,能够失去<姚明,女儿,姚沁蕾>。 二、常识推理的利用常识补全理论构建的常识图谱,通常存在不齐备的问题,即局部关系或属性会缺失。常识补全呢,就是通过算法,补全常识图谱中缺失的属性或者关系。 如下图所示,以“姚沁蕾的妈妈是谁”为例。有一条常识是 “父亲的妻子是妈妈”,则可根据该常识,推理出姚沁蕾的妈妈是叶莉,进而补全“姚沁蕾”和“叶莉”之间的关系,晋升咱们这个简略的人物关系常识图谱的齐备性。 常识纠错理论构建的常识图谱还可能存在谬误常识。其中,实体的类型、实体间的关系、实体属性值均可能存在谬误。常识图谱的纠错是一个极具挑战的工作。这些谬误会影响常识图谱品质,进而影响基于常识图谱的利用。 咱们能够通过推理进行常识图谱纠错(如下图)。比方,在某个影视常识图谱中,虚线框中的实体《春光璀璨猪八戒》,其类型为“电影“。它的属性有集数,主题曲、片尾曲等。而其余同为”电影“类别的实体,其属性多蕴含上映期间、票房,且大多没有集数这个属性。则推理可知,《春光璀璨猪八戒》这个实体的类型大概率存在谬误,其正确类型应该是电视剧。 推理问答基于常识图谱的推理问答也是常识图谱推理的典型利用。基于常识图谱的问答,个别简称为KBQA。与传统的信息检索式问答相比,KBQA能够具备肯定的推理能力,这是它的劣势。基于常识图谱的推理问答,通常利用于波及多个实体,多个关系,多跳,比拟等绝对简单的问答场景中。 比方,“刘德华主演的电影中豆瓣评分大于8分的有哪些?“这样的问题。须要机器对该问题进行解析、了解,在常识图谱中实现查问、推理、比拟动作,找到《天下无贼》和《无间道》作为答案返回(如下图所示)。 三、常识推理的办法基于本体的推理本体是对畛域中概念和概念之间关系的形容。基于本体的推理是利用本体曾经蕴含的语义和逻辑,来对实体类型以及实体之间的关系进行推理。本体的形容模式是有标准的。RDFS、OWL等是一类满足特定标准和考究的用来表述本体的语言。 以RDFS为例:RDFS定义了一组用于资源形容的词汇:包含class,domain,range等。其自身就蕴含了简略的语义和逻辑。咱们能够利用这些语义和逻辑进行推理。 如下图中左侧的例子,谷歌的类型是一家人工智能公司,而人工智能公司又是高科技公司的子类,那么可推理,谷歌的也是一家高科技公司。右侧例子中,定义了投资这种关系的domain是投资人,range是公司。能够简略的认为,投资这种关系的头节点都是投资人这种类型、尾节点都是公司这种类型。假如当初有一条事实是大卫 切瑞顿 投资 谷歌 。则能够推理出,大卫 切瑞顿的类型是投资人。这两个例子呢,便是利用了RDFS自身蕴含的语义和逻辑,来进行推理。 基于规定的推理基于规定的推理就是说,能够形象出一系列的规定,将这些规定利用于常识图谱中,进行补全纠错。这种思路也是很简略、直观的。基于规定的推理的长处是,推理后果精准,并且具备可解释性。因而规定推理在学术界和工业界都有宽泛的利用。 图中的例子,是人工定义了一些规定,包含“B是A的妻子,则A是B的丈夫”、“B是A的女儿,则A是B的父亲”等等。使用这些规定来进行推理,进而补全常识图谱的缺失关系。咱们能够利用这些规定,推理出“米歇尔的丈夫是奥巴马”、“玛利亚的父亲是奥巴马”等新的常识。 基于示意学习的推理前两种办法:本体推理和规定推理,都是基于离散符号的常识示意来推理的。它们具备强逻辑束缚,准确度高、易于解释等长处。然而不易于扩大。基于示意学习的推理,通过映射函数,将离散符号映射到向量空间进行数值示意,同时捕获实体和关系之间的关联,再在映射后的向量空间中进行推理。 常识图谱是由实体和关系组成,通常采纳三元组的模式示意:head(头实体),relation(实体的关系),tail(尾实体) ,简写为(h,r,t)。常识示意学习工作就是学习h,r,t的向量示意。如下图所示,不同的点示意了不同的常识。咱们能够找到一个适合的映射函数,让间隔较近的点,在语义上也是类似的。 基于示意学习的推理比拟形象和简单,这里举个简略的例子,推理“姚沁蕾的出生地是哪儿”。 假如咱们曾经找到了一个完满的映射函数,能够把常识图谱和一段蕴含相干信息的文本映射到同一向量空间。再对这些向量进行计算,比方把“姚沁蕾”、“在”、“当地医院”、“出世”几个向量简略相加后,达到了“休斯顿”这个向量,则能够推理出姚沁蕾的出生地是休斯顿。 [2021华为云 AI 实战营]——六大实战营课程单元制,随进随学,供大家收费学习。 点击关注,第一工夫理解华为云陈腐技术~

July 29, 2021 · 1 min · jiezi

关于知识图谱:本地生活综合性需求图谱的构建及应用

本地生存综合性需要图谱(GENE: lifestyle GEneral NEeds net),是从用户需要视角登程,深刻开掘本地生存场景下用户多样化的需要,并将其与多行业、多类型的供应造成关联的常识图谱,旨在晋升平台供需匹配效率,助力业务增长。本文介绍了本地生存综合性需要图谱的背景、体系设计和波及的算法实际,并展现了在美团多个业务线的利用落地,心愿给大家带来一些帮忙或启发。一、背景1.1 业务现状以“帮大家吃得更好,生存更好”为使命,美团笼罩了外卖、餐饮、酒店、民宿、游览、门票、电影/上演、休闲/玩乐、丽人、医疗、亲子、教育、结婚、生存服务等数百个行业,满足数以亿计用户的多样化生存服务需要。为了继续减少平台价值,除了推动用户和商户在数量和品质上的一直晋升之外,更高效地匹配用户需要和商户供应也是重要抓手之一。 为了晋升匹配的效率,咱们须要更充沛、深刻地了解用户需要和商户供应,并且尝试从用户视角登程来组织和治理供应。以后,“行业-类目-商户-商品”是一种较为常见的供应组织和治理形式,然而随着业务和行业的疾速倒退,这种组织形式带来的痛点日渐突显,举例来说: 局部指向性不明确的用户需要,较难失去适宜的匹配后果。例如“周末陪宝宝去哪儿玩?”因为平台的匹配后果不现实,用户往往只能在线下实现类目决策,决定带宝宝去农家乐烧烤,再到平台上搜寻相应的农家乐团购。局部需要跨多个类目,匹配过程不够晦涩。例如“周末和敌人去哪里放松一下?”用户在线下实现类目决策后,可选类目包含KTV、酒吧、密室、桌游等,但各类目标承载页面互相独立,用户须要在承载页面间来回切换。在局部指向明确的类目中,用户依然难以找到满足本人需要的供应。例如在医美类目下,因为不足相干常识,用户往往并不理解商户提供的不拘一格的服务项目别离具备什么效用,适宜什么部位,应该应用什么资料,无奈高效地找到适宜本人的服务供应。上述问题的实质起因在于供应的组织形式次要是从行业视角登程,没有充分考虑到用户视角。在以后以满足用户需要为首要指标的市场环境下,咱们须要迭代欠缺现有的供应组织形式。 1.2 问题解析为了解决上述问题,咱们尝试从一个内部视角,联合第一性原理去进行分析。在整个人类社会中,依照马斯洛需要档次[1]的实践,人的需要是能够被演绎及分层的。如果将人类社会看作一个零碎,人类在其中一个称为“市场”的子系统中,通过交易来满足本人的需要。 人类从需要档次登程,在市场中实现交易,最终需要得以满足,那么在市场中交易的过程能够被拆解为“起心动念->思考->抉择评估->交易购买->履约/服务”。并且,经由前三个阶段,用户的需要逐步从粗粒度演变为细粒度,从形象过渡到具象。上面将联合具体的例子来进行解读: 需要档次:在马斯洛需要档次中有一个情感档次,对应了人类丰盛多样的情感需要,蕴含亲情、情谊、恋情等等。作为一个母亲,与本人的宝宝之间往往存在一种强烈的母子情,并且心愿一直去强化这种情感。起心动念:为此,母亲往往都会尽力花较多的工夫去陪伴宝宝。通过减少陪伴形式的维度,变为“陪宝宝玩”;通过减少工夫、空间等维度,变为“周末陪宝宝去哪儿玩?”思考:对于上述问题,母亲会找出很多种计划,比方户外烧烤、农家采摘、主题公园等等。当她决定选用户外烧烤这一计划时,便会转化为具体的商品需要,如购买烤架。评估抉择:母亲于是在可触达的供应范畴中进行抉择。正如人们常说的货比三家,抉择的根据会各不相同,如价格、品质、口碑等等。交易购买:当实现抉择之后,母亲便会进行交易,以换取商品或服务。履约服务:即商品到货、实现服务等等。市场是人类社会的一个子系统,电商平台则是市场中的一个子系统。同时,电商平台是一种线上化的子系统,它提供了搜寻、举荐等模式的供应检索能力。以后的一个现状是:用户往往在线下实现了“起心动念”到“思考”的过程,转化为具体的商品/服务需要,随后进入电商平台实现“抉择评估”到“履约服务”的后续过程(如下图1所示)。而电商平台往往聚焦于后三个阶段的能力晋升,容易疏忽前两个阶段。 因而,用户较难造成在平台上实现“起心动念”和“思考”的心智,而大部分电商平台按“行业-类目-商户-商品”的形式对供应进行组织和治理。最终,用户和电商平台之间造成了一种互相掣肘的关系。 事实上,绝对于“烤架”这种明确的商品需要,用户还有很多形象的、含糊的、不明确的需要,仍然停留在前两个阶段。例如,周末陪宝宝去哪儿玩?周末和敌人去哪里放松一下?结婚前怎样才能让本人变得更美?寒假如何造就孩子的入手能力?同时,这样的需要往往逾越多个类目,或者在同类目下存在多种抉择。 电商平台只有突破既有的掣肘关系,向用户提供前两个阶段(起心动念、思考)的能力,能力进一步满足用户的需要。用户的决策老本进一步升高,决策过程更加连贯,用户体验也能失去相应的晋升,同时用户在市场中的交易过程也可能进一步实现线上化。 以“行业-类目-商户-商品”作为参考,如果电商平台可能辨认出用户在前两个阶段的需要,并且在其和供应之间建设新的关联关系,辅以搜寻、举荐等检索能力,用户便有可能在线上实现前两个阶段。而常识图谱作为一种揭示实体之间关系的语义网络,用以解决上述问题显得尤为适合。 二、解决方案2.1 解决思路连续1.2中的例子,这位母亲将“周末陪宝宝去哪儿玩?”的需要转化为具体的“户外烧烤”需要,延长至更为具体的“烤架”和“农家乐团购”需要。此时,母亲便会别离返回各类实物电商平台以及以美团为代表的生存服务电商平台进行“抉择评估”。两种电商平台别离在实物供应池或服务供应池中采纳搜寻、举荐之类的召排技术定位到具体的商品/服务,并反馈给这位母亲。 对于1.2中的所述,技术团队冀望达成的目标,目前比拟有代表性的参考案例是阿里巴巴电商认知图谱AliCoCo[2]。它根本构建思路是从用户视角登程,先进行各种类型的原子词开掘,再进一步对原子词进行组合和挖掘出相干候选短语,再从中辨认出实在的用户需要,最初关联至相应的供应。它的层次结构如图2所示: 分类层:构建齐备的分类体系,蕴含了的大千世界的各种分类,既有通用的空间、工夫等类别,也有电商中波及的色彩、性能以及最为重要的品类等类别。原子概念层:在分类层诸多类别的根底上进行扩大,蕴含了各种类别下的原子概念(例如空间->户外、事件->烧烤、工夫->圣诞节、色彩->红色、性能->保暖、品类->连衣裙)及原子概念之间的关系。电商概念层:在原子概念层之上,蕴含了由原子概念组成或间接开掘的短语粒度的用户购物需要,即电商概念(例如户外烧烤),从而将用户购物需要显式地用一个合乎自然语言的短语示意。商品层:蕴含了商品与各种原子概念、电商概念之间的关联关系(例如户外烧烤->烤架、黄油、锡纸)。 基于上述图谱,这位母亲能够间接在天猫上表白“户外烧烤”的需要,而非更具体的“烤架”;天猫也会将烤架以外其余和户外烧烤相干的重要商品反馈给这位母亲。从对应关系来看,AliCoCo的电商概念层对应至“思考”阶段,商品层对应至“抉择评估”阶段。显然,因为AliCoCo的存在,天猫可能从“思考”阶段开始染指用户的交易过程。 由此推论,咱们应该能够将图谱构建得更为残缺,以笼罩“起心动念”阶段。在此阶段,人类的需要,按马斯洛需要档次,通过减少一个或多个维度束缚,而被逐步具象化。对于这样的维度束缚,咱们统称为“场景束缚”。因而,咱们将“思考”阶段对应的需要称为“具象需要”;将“起心动念”阶段对应的需要称为“场景需要”。为此,咱们心愿构建一个本地生存综合性需要图谱(GENE:lifestyle GEneral NEeds net),如下图3所示。对于本地生存场景下所波及的数百个综合性行业,咱们认为新的供应组织形式更能贴近用户需要,也是从用户视角去解决供需匹配的问题。 2.2 具体计划连续2.1中的构建思路,咱们尝试构建一套多层次的图谱构造,并将“具象需要”和“场景需要”拆分为独立的档次,既防止了两种类型的需要合在同一层级中而引起混同,又能对用户场景化的需要进行更详尽的拆解、更丰盛的刻画。本地生存综合性需要图谱(GENE),次要由六局部形成,蕴含场景需要层、场景因素层、具象需要层、需要对象层、行业体系层和供应层,如下图4所示: 在场景需要层,咱们用Human-Readable的短句来表征场景化的用户需要,如“国庆节陪3岁宝宝去哪玩”、“结婚前让本人变得更美”、“小学生晋升思维能力”等。一个场景需要的表述中,通常会蕴含人物、目标、工夫、空间、形式等因素,以“国庆节陪3岁宝宝去哪玩”为例,“3岁宝宝”是人物,“陪宝宝玩”是目标,“国庆节”是工夫。 在场景因素层,为了更好地表白场景需要,咱们将这些短句进行拆解,细化成多个细粒度的词汇,用这些词汇对场景需要中的人物、目标、工夫、空间、形式等因素进行残缺的笼罩和零碎的组织,咱们将其称为“场景因素”。 在具象需要层,因为场景需要的表述往往并不显式地指向某个具体的服务/供应,而是隐含了一批潜在的适宜这一场景的服务/供应。例如,在“国庆节陪3岁宝宝去哪玩”这个例子中,户外烧烤、喂羊驼、玩滑梯、骑小马等都是适宜这一场景需要的具体服务。所以咱们须要将所有这些具体的服务通过短语的模式显式的展示进去,这些短语间接反馈了用户具体的服务需要,被称之为“具象需要”。 在需要对象层,为了进一步的了解具象需要,咱们将具象需要分为具体的服务需要所对应的对象,咱们称之为“需要对象”,以及该服务中用户和对象之间的交互行为。例如,对于具象需要喂羊驼,能够分为羊驼(需要对象)和喂(服务交互),因为本地生存服务的多样性,围绕羊驼这一需要对象,除了喂羊驼外,还能够产生触摸羊驼、骑羊驼和看羊驼表演等多种具象需要。这一层除了蕴含需要对象节点外,也会涵盖需要对象的属性信息,以对需要对象进行更详尽地形容。例如对于具象需要户外烧烤,可分为烧烤(需要对象)、户外(需要对象属性)和体验(隐含的服务交互)。 在行业体系层,因为用户的场景需要和具象需要往往会逾越多个传统的服务类目,为了给用户需要确定一个具体的业务范围,咱们还须要构建出各行业波及的类目体系,作为上述各层构建的业务根底。 在供应层,蕴含内容这类虚构供应和商户与商品这类实体供应,这些供应将会和具象需要和场景需要等节点进行关联,从而为用户需要提供绝对应的供应撑持。例如,一个提供户外烧烤的供应将会关联上具象需要“户外烧烤”,并进一步关联上场景需要“国庆节陪3岁宝宝去哪玩”。 综上所述,在本地生存综合性需要图谱中,用户场景化的需要和具体的服务需要被别离表白成短句级别的场景需要和短语级别的具象需要。这两种需要别离通过场景因素和需要对象进行表白。最初,不同类型的供应都会和场景需要和具象需要相关联,从而以用户需要为纽带,晋升供应和用户的匹配效率。 三、实现办法以后,本地生存综合性需要图谱曾经初步涵盖了用户在玩乐、医美和教育三个本地生存相干行业中的多元化需要。咱们在图谱的构建过程中,自底向上依照行业体系层、需要对象层、具象需要层、场景因素层、场景需要层的程序逐层进行构建,并将各层的节点与各种类型的供应建设关联关系。下文将以玩乐行业为例,对图谱每一层的构建细节以及波及的算法进行介绍。 3.1 行业体系层3.1.1 行业类目树的构建在玩乐行业中,行业体系层蕴含了可能提供玩乐服务的类目,类目信息通过一个树形构造来表征。因为玩乐行业体系的构建,对专家常识的要求十分高,并且这部分的设计对后续各层的常识开掘至关重要,因而咱们没有间接进行人工定义,而是以以后咱们成熟的行业类目树为根底,通过对其进行剪枝和决裂来构建。 首先在类目树中筛选出和玩乐相干的一级类目节点,包含“休闲娱乐”、“亲子”、“游览”、“餐饮”等。对于每个一级类目,咱们进一步筛选其和玩乐相干的下一级类目直至叶子类目,并剪去与玩乐无关的类目。此外,咱们还对剪枝后的类目树中能够细分的玩乐相干的叶子类目进行决裂,例如将“洗浴”细分为“私汤”、“洗浴核心”等,最终失去残缺的玩乐行业类目树。 3.1.2 类目标供应关联确定了类目树后,咱们还须要获取实体供应(商户和商品)和虚构供应(内容,例如UGC)与类目标从属关系,从而为后续的一系列开掘提供数据反对。因为商品和内容均可链接到商户,所以咱们只须要获取商户与类目标从属关系即可。玩乐类目树是对咱们已有的类目进行剪枝和决裂失去的,除了决裂出的新类目外,其余类目和商户的关系均可间接继承原有的后果。对于新决裂的类目,咱们则须要从新构建商户和其之间的从属关系。 要判断一个商户属于哪个类目,最直观的根据就是商户名、商品名及商品详情,然而很多商户的商户名和商品蕴含的信息往往较少,减少了类目判断的难度。为了确保商户类目判断的准确性,咱们引入更多的商户信息,包含商户UGC和商户画像,设计了一个多源异构数据交融判断模型,整体模型构造如下图5所示: 其中,不同起源数据的特征提取和解决形式如下: 商户名、商品名及商品详情:均为文本数据,间接通过BERT[3]提取文本特色后输入。商户UGC:因为商户的UGC往往数量十分多,为了对其信息进行无效利用,首先通过Doc2Vec[4]的形式进行Encode失去UGC的特色后,再通过一个Self-Attention[5]模块进行特色解决后输入。商户画像:转成One-Hot特色后,通过全连贯层进行非线性映射后输入。上述三种特色相连接后进行交融,通过全连贯层和softmax层实现最终的类目判断。基于多源数据的交融建模,商户信息失去了充分利用。以洗浴细分类目为例,仅利用商户名、商品名及商品详情数据,基于BERT判断,准确率为92%,而基于多源交融模型判断后,准确率晋升到98%。 3.2 需要对象层在需要对象层,咱们心愿可能挖掘出玩乐行业体系中各类目波及的玩乐对象词作为该层的节点,这些词可能形容出用户在理论玩乐过程中的交互对象,这是用于组成具象玩乐需要的根底。为了确保玩乐对象开掘的全面性,咱们采纳多源多办法的模式。 在数据上,咱们采纳来自商户和用户的相干文本作为开掘语料。在办法上,咱们采纳两种形式来开掘玩乐对象词: 第一种是无监督的裁减,在开始开掘前经营会首先依据教训,提供一些玩乐对象词作为种子输出,咱们提前利用语料构建无监督的Skip-Gram构造的Word2Vec模型,对业务输出的种子词提取词向量,并联合余弦类似度,疾速裁减相干的对象词。第二种是有监督的标注,咱们将其定义序列标注问题,采纳基于BERT+CRF的模型,在语料中自动识别出新的对象词。在实际过程中,为了更高效的开掘,咱们将无监督环节裁减和质检后的对象词在语料中进行文本匹配,并将匹配后果转化为有监督标注环节的训练样本;同时对于有监督标注的后果,通过经营质检后,也会将其作为无监督裁减的输出,通过两个环节相结合,咱们实现玩乐对象的开掘,残缺流程如下图6所示。此外,在经营人工审核玩乐对象词的过程中,对于一些业务已知的外围玩乐对象,也会间接输出业务侧曾经积淀的相干特色作为其属性,进一步欠缺玩乐对象的信息,例如对于“剧本杀”这一玩乐对象,减少相应的“实景”和“桌面”等类型属性。 在获取对象词后,咱们还须要晓得对象词属于哪个类目,以便下一步的具象需要开掘及供应关联,为此咱们构建对象词和类目之间的关系。通过各类目下的语料文本中提及对象词的次数来掂量两者关系,是最直观且准确率最高的办法。因而,咱们间接应用对象词在每个类目下的语料中进行文本匹配,通过词频高下来确定关系。同时,咱们进一步构建对象词之间的上下位和同义关系,以后常见的有通过投影和分类(如BERT句间关系模型)等办法来进行关系判断等有监督办法。在理论过程中,咱们采纳规定辅助人工的形式,基于对象词的统计特色及Pattern共现的后果领导人工疾速实现构建。 3.3 具象需要层3.3.1 具象需要开掘具象需要层能够看成是用户在玩乐行业中的具体服务需要的汇合,每个具象玩乐需要是该层的一个节点,由玩乐对象叠加用户与对象之间的多元化的交互行为及对象形容信息失去,它通过短语的模式表白出用户对于玩乐服务供应的实质诉求。具体玩乐需要开掘的流程流程能够分为两个步骤: 候选短语生成:围绕玩乐对象词,生成大量蕴含玩乐对象的短语,作为具象玩乐需要候选集。短语品质判断:建设一个语义判断模型从候选集中提取实在的具象玩乐需要。候选短语生成 在步骤1中,首先咱们以需要对象词为外围,采纳与玩乐对象开掘雷同的语料,进行候选短语的生成。罕用的短语开掘算法如AutoPhrase[6],是以Ngram来进行短语组合,而这种模式对于有需要对象的短语显得过于冗余,所以咱们思考基于句法结构来进行短语开掘。 为了使生成短语合乎句法的要求,咱们以预设的句法关系为模板进行开掘。在大规模语料中为了更高效地开掘句法关系,咱们基于更轻便的ELECTRA[7]预训练模型获取句子各成分的Embedding后,再利用BiAffine[8]预测其句法关系。通过依存句法分析,咱们在各个类目标语料中挖掘出蕴含相应的玩乐对象且合乎句法关系的短语。此外,需要对象层中对象的属性也会被用作对象形容进行短语生成。最终所有开掘的短语,通过词频等统计特色粗筛后将作为具象玩乐需要的候选集,开掘示例如图7(a)所示。 短语品质判断 在步骤2中,通过步骤1获取的候选集短语尽管合乎预设的句法关系,然而从语义上依然存在大量与用户理论需要不符的表述,通过抽检剖析咱们发现符合要求的短语有余10%。如何从海量的候选短语中挑选出反映实在的用户具象玩乐需要的短语成为亟需解决的问题。 AutoPhrase通过基于短语统计特色的判断模型进行短语打分,然而仅通过统计特色难以辨认语义品质低的短语,为此咱们进一步基于统计和语义特色联结建模,构建一个Wide&Deep[9]构造的判断模型,对候选汇合中的短语是否为具象玩乐需要进行判断,咱们心愿判断模型能过滤掉大量的低质短语,从而为经营节俭大量的人力老本。判断模型的整体构造如图7(b)所示,其中: Wide局部,提取候选短语的全局和上下文的统计特色,通过全连贯层进行非线性映射后输入。Deep局部,提取候选短语的深度语义特色,通过BERT实现相应特色的提取后输入。上述Wide和Deep局部输入的特色相连接后进行交融,优势互补,通过全连贯层和softmax层来实现最终的短语判断。在实际过程中,除了间接应用曾经积攒的短语标签作为正样本外,咱们还通过预设一些常识性的Pattern从候选集中结构正样本,例如参观[动物]、触摸[动物],并对候选集采样结构负样本,实现初版模型的训练,之后联合被动学习,通过多轮迭代,模型最终达到92%的召回率和85%的准确率。通过品质判断后保留的短语则会交由经营人工审核提炼后成为最终的具象玩乐需要。 3.3.2 具象需要的供应关联在具象需要层中,因为具象玩乐需要是由玩乐对象失去的,所以两者之间人造地建设了对应关系。而对于具象玩乐需要之间的上下位和同义关系,则能够基于其对象之间的关系及其句法关系,在人工审核的环节来辅助人工实现构建。除此之外,更重要的是须要将具象玩乐需要与实体供应(商户和商品)及虚构供应(内容,例如UGC)进行关联。 咱们将这个问题形象为一个语义匹配的问题,通过具象玩乐需要与其对应的类目标供应的文本信息进行匹配来实现,其中,商户应用商户名文本信息,商品应用商品名和商品详情文本信息,UGC应用其本身文本信息。因为UGC和商品属于商户的一部分,所以具象玩乐需要与UGC/商品的关系也会退出其与商户关系的构建中。整体匹配流程如下图8所示,咱们首先进行具象玩乐需要与UGC/商品的匹配,在此基础上再联合商户名文本的匹配后果,一起通过规定聚合后关联到商户。 ...

July 19, 2021 · 2 min · jiezi

关于知识图谱:社交软件上你可能认识的人到底是怎么找到你的

摘要:你老死不相往来的EX,早已记不起面貌的初中同学、前共事、甚至你最不想见到的人——你的BOSS,这些人是怎么呈现在你社交软件举荐用户的名单里的呢?这其中关键技术便是:知识库的链接预测,又称为常识图谱补全。众里寻他千百度,蓦然回首,那人却在举荐名单处。 社交软件最牛的中央之一,肯定是用户关系的深度开掘。明明你曾经拉黑了某些人的电话、微信、以及所有社交账号,但TA还是毫不例外地呈现在页面上“你可能意识的人”里。这些人包含你老死不相往来的EX,早已记不起面貌的初中同学、前共事、甚至你最不想见到的人——你的BOSS。 ▲抖音-发现敌人 那么,这些人是怎么呈现在你的名单里的呢? 这其中关键技术便是:知识库的链接预测,又称为常识图谱补全。 一图了解什么是常识图谱?常识图谱是一种将常识写成结构化三元组的多关系图,蕴含了实体、概念和关系。 实体指的是事实世界中的事物比方人名、地名、机构等。概念指的是具备同种个性的实体形成的汇合,如下图中的“运动员”、“金球奖”等。关系则用来表白不同实体之间的某种分割。 常识图谱用实体和关系组成图谱,为真实世界的各个场景直观建模。构建常识图谱的过程实质是建设认知、了解世界的过程。 如何进行常识图谱补全以小明为例,小明就任于位于五道口的新浪,零碎能够揣测出小明在北京工作。并将同样在北京新浪工作的小王举荐给了他。在下图中,蓝色的箭头示意示意已存在的关系,红色箭头为常识图谱补全后的关系。 常识图谱与常识示意学习的关系常识图谱是由实体和关系组成,通常采纳三元组的模式示意——head(头实体),relation(实体的关系),tail(尾实体),简写为(h,r,t)。常识示意学习工作就是学习h,r,t的分布式示意(也被叫做常识图谱的嵌入示意(embedding))。能够这么说,有了常识图谱的Embedding,AI式的常识图谱利用才成为可能。 如何了解嵌入示意Embedding? 简略来说,embedding是对一个对象(词、字、句子、文章…)在多个维度上的形容,相当于通过数据建模的办法来形容一个对象。 举个例子,咱们常常用到的Photoshop里对于色彩的RGB表示法就属于一种非典型的embedding。在这里色彩被拆成三个特色纬度,R(红色强度,取值范畴0-255),G(绿色强度,取值范畴0-255),B(蓝色强度,取值范畴0-255)。RGB(0,0,0)就是彩色。RGB(41,36,33)就是象牙黑。通过这样的办法,咱们能够通过数字来形容色彩。 常识示意学习都有哪些办法常识示意学习的要害是设计正当的得分函数,在给定事实三元组为真的状况下咱们心愿最大化得分函数。它从实现模式上可分为以下两类: 基于构造的办法该类模型的根本思维是从三元组的构造登程学习常识图谱的实体和分割的示意,其中最为经典的算法是TransE模型。该办法的根本想法是头向量示意h与关系向量示意r之和与尾向量示意t越靠近越好,即h+r≈t。这里的“靠近”能够应用L1或L2范数进行掂量。原理图如下: 该类常识示意学习模型还有:TransH, TransR, TransD,TransA等。 基于语义的办法这类模型是从文本语义角度登程学习KG的实体和关系的示意。这类示意办法次要有LFM, DistMult, ComplEx, ANALOGY, ConvE等。 常识示意学习的利用因为基于示意学习,能够将常识图谱的实体和关系进行向量化示意,不便后续上游工作的计算,典型利用有以下几种: 1)类似度计算:利用实体的分布式示意,咱们能够疾速计算实体间的语义类似度,这对于自然语言解决和信息检索的很多工作具备重要意义。 如何进行类似度计算呢?举个例子。 假如"李白"这个词的embedding一共是5维,其值为[0.3, 0.5, 0.7, 0.03, 0.02],其中每个维度代表和某个事物的相关性,这五个数值别离代表[诗人,作家, 文学家,自由职业者,侠士]的含意。 而"王维"=[0.3, 0.55, 0.7, 0.03, 0.02],"牛顿"=[0.01, 0.02, 0.06, 0.4, 0.01],咱们能够用余弦间隔(几何中,夹角余弦可用来掂量两个向量方向的差别;机器学习中,借用这一概念来掂量样本向量之间的差别。)来计算这几个词的间隔,不言而喻李白和王维的间隔更近,和牛顿的间隔更远。 由此能够判断“李白” 和“王维”更为类似。 2)常识图谱补全。构建大规模常识图谱,须要一直补充实体间的关系。利用常识示意学习模型,能够预测2个实体的关系,这个别称为知识库的链接预测,又称为常识图谱补全。上文中“五道口小明”的例子能够很好的解释。 3)其余利用。常识示意学习已被宽泛用于关系抽取、主动问答、实体链接等工作,展现出微小的利用后劲。 主动问答是与常识示意学习深度联合的一大利用。对于智能问答产品来说,后盾设计时,个别分为3层,输出层、表示层、输入层。输出层简而言之就是问题库,这里汇合了所有用户可能会问到的问题。再通过表示层的常识抽取,最终返回后果。 典型的智能问答产品有苹果Siri、微软小冰、百度、阿里小蜜等。这些问答产品的一大特色是,能够使搜寻后果更精准,而不是返回一堆类似的页面让你本人去筛选,达到“所答即所问”。比方,搜寻“王思聪的身价多少”,返回来的后果就是具体的数字。 总结简而言之,社交产品基于常识图谱常识补全技术,通过实体和关系的示意对缺失三元组进行预测,在已知头实体以及头实体间的关系,预测其尾实体。也就是说,它们是依据用户画像来进行敌人举荐的,如果你不想那些“老熟人”呈现在你的举荐名单里,最好的办法是,关掉社交产品上的天文定位、尽可能少地走漏个人信息。 参考资料1、刘知远,孙茂松,林衍凯,谢若冰《常识示意学习研究进展》 点击关注,第一工夫理解华为云陈腐技术~

July 5, 2021 · 1 min · jiezi

关于知识图谱:常识性概念图谱建设以及在美团场景中的应用

常识性概念图谱,是围绕常识性概念建设的实体以及实体之间的关系,同时偏重美团的场景构建的一类常识图谱。本文介绍了美团常识性概念图谱构建的Schema,图谱建设中遇到的挑战以及建设过程中的算法实际,最初介绍了一些目前常识性概念图谱在业务上的利用。一、引言在自然语言解决中,咱们常常思考,怎么样能力做好自然语言的了解工作。对咱们人类来说,了解某一个自然语言的文本信息,通常都是通过以后的信息,关联本人大脑中存储的关联信息,最终了解信息。例如“他不喜爱吃苹果,然而喜爱吃冰淇淋”,人在了解的时候关联出大脑中的认知信息:苹果,甜的,口感有点脆;冰淇淋,比苹果甜,口感软糯、冰凉,夏天能解暑;小孩更喜爱吃甜食和冰淇淋。所以联合这样的常识,会推理出更喜爱冰淇淋的若干起因。然而当初很多自然语言了解的工作还是聚焦在信息的层面,当初的了解工作相似于一个贝叶斯概率,从已知的训练文本中寻找符合条件的最大化文本信息。 在自然语言解决中做到像人一样去了解文本是自然语言解决的终极目标,所以当初越来越多的钻研上,引入了一些额定的常识,帮忙机器做好自然语言文本的了解工作。单纯的文本信息只是内部客观事实的表述,常识则是在文本信息根底之上对外部客观事实的演绎和总结,所以在自然语言解决中退出辅助的常识信息,让自然语言了解的更好。 建设常识体系则是一种间接的形式,可能帮忙自然语言了解得更精确。常识图谱就是围绕这个思维提出,冀望通过给机器显性的常识,让机器可能像人一样进行推理了解。所以在2012年Google 正式提出了常识图谱(Knowledge Graph)的概念,它的初衷是为了优化搜索引擎返回的后果,加强用户的搜寻品质及体验。 二、常识性概念图谱介绍常识性概念图谱就是建设概念与概念之间的关系,帮忙自然语言文本的了解。同时咱们的常识性概念图谱偏重美团场景,帮忙晋升美团场景中的搜寻、举荐、Feeds流等的成果。 依照了解的需要,次要是三个维度的理解能力: 是什么,概念是什么,建设外围概念是什么的关联体系。例如“培修洗衣机”,“培修”是什么,“洗衣机”是什么。什么样,外围概念某一方面的属性,对外围概念某一方面的细化。“带露台的餐厅”、“亲子游乐园”、“水果千层蛋糕”中“带露台”、“亲子”、“水果千层”这些都是外围概念某一个方面的属性,所以须要建设外围概念对应属性以及属性值之间的关联。给什么,解决搜寻概念和承接概念之间的Gap,例如“浏览”、“逛街”、“遛娃”等没有明确对应的供应概念,所以建设搜寻和供应概念之间的关联网络,解决这一类问题。总结下来,涵盖“是什么”的概念Taxonomy体系结构,“什么样”的概念属性关系,“给什么”的概念承接关系。同时POI(Point of Interesting)、SPU(Standard Product Unit)、团单作为美团场景中的实例,须要和图谱中的概念建设连贯。 从建设指标登程,拆解整体常识性概念图谱建设工作,拆分为三类节点和四类关系,具体内容如下。 2.1 图谱三类节点Taxonomy节点:在概念图谱中,了解一个概念须要正当的常识体系,预约义好的Taxonomy常识体系作为了解的根底,在预约义的体系中分为两类节点:第一类在美团场景中能够作为外围品类呈现的,例如,食材、我的项目、场合;另一类是作为对外围品类限定形式呈现的,例如,色彩、形式、格调。这两类的节点的定义都能帮忙搜寻、举荐等的了解。目前预约义的Taxonomy节点如下图所示: 原子概念节点:组成图谱最小语义单元节点,有独立语义的最小粒度词语,例如网红、狗咖、脸部、补水等。定义的原子概念,全副须要挂靠到定义的Taxonomy节点之上。 复合概念节点:由原子概念以及对应属性组合而成的概念节点,例如脸部补水、面部补水等。复合概念须要和其对应的外围词概念建设上下位关系。 2.2 图谱四类关系同义/上下位关系:语义上的同义/上下位关系,例如脸部补水-syn-面部补水等。定义的Taxonomy体系也是一种上下位的关系,所以归并到同义/上下位关系里。 概念属性关系:是典型的CPV(Concept-Property-Value)关系,从各个属性维度来形容和定义概念,例如火锅-口味-不辣,火锅-规格-单人等,示例如下: 概念属性关系蕴含两类。 预约义概念属性:目前咱们预约义典型的概念属性如下: 开放型概念属性:除了咱们本人定义的公共的概念属性外,咱们还从文本中开掘一些特定的属性词,补充一些特定的属性词。例如,姿态、主题、舒适度、口碑等。 概念承接关系:这类关系次要建设用户搜寻概念和美团承接概念之间的链接,例如踏春-场合-植物园,减压-我的项目-拳击等。 概念承接关系以「事件」为外围,定义了「场合」、「物品」、「人群」、「工夫」、「效用」等可能满足用户需要的一类供应概念。以事件“美白”为例,“美白”作为用户的需要,能够有不同的供应概念可能满足,例如美容院、水光针等。目前,定义的几类承接关系如下图所示: POI/SPU-概念关系:POI作为美团场景中的实例,实例-概念的关系作为常识图谱中最初的一站,经常是比拟能施展常识图谱在业务上价值的中央。在搜寻、举荐等业务场景,最终的目标是可能展现出合乎用户需要的POI,所以建设POI/SPU-概念的关系是整个美团场景常识性概念图谱重要的一环,也是比拟有价值的数据。 三、常识性概念图谱构建图谱构建整体框架如下图所示: 3.1 概念开掘常识性概念图谱的各种关系都是围绕概念构建,这些概念的开掘是常识性概念图谱建设的第一环。依照原子概念和复合概念两种类型,别离采取相应的办法进行开掘。 3.1.1 原子概念开掘原子概念候选来自于Query、UGC(User Generated Content)、团单等文本分词后的最小片段,原子概念的判断规范是须要满足流行性、有意义、完整性三个个性的要求。 流行性,一个概念应是某个或某些语料内风行度较高的词,该个性次要通过频率类特色度量,如“桌本杀”这个词搜寻量很低且UGC语料中频率也很低,不满足流行性要求。有意义,一个概念应是一个有意义的词,该个性次要通过语义特色度量,如“阿猫”、“阿狗”通常只表一个单纯的名称而无其余理论含意。完整性,一个概念应是一个残缺的词,该个性次要通过独立检索占比(该词作为Query的搜寻量/蕴含该词的Query的总搜寻量)掂量,如“儿童设”是一个谬误的分词候选,在UGC中频率较高,但独立检索占比低。基于原子概念以上的个性,联合人工标注以及规定主动结构的训练数据训练XGBoost分类模型对原子概念是否正当进行判断。 3.1.2 复合概念开掘复合概念候选来自于原子概念的组合,因为波及组合,复合概念的判断比原子概念判断更为简单。复合概念要求在保障残缺语义的同时,在美团站内也要有肯定的认知。依据问题的类型,采纳Wide&Deep的模型构造,Deep侧负责语义的判断,Wide侧引入站内的信息。 该模型构造有以下两个特点,对复合概念的合理性进行更精确的判断: Wide&Deep模型构造:将离散特色与深度模型联合起来判断复合概念是否正当。Graph Embedding特色:引入词组搭配间的关联信息,如“食品”能够与“人群”、“烹饪形式”、“品质”等进行搭配。3.2 概念上下位关系开掘在获取概念之后,还须要了解一个概念“是什么”,一方面通过人工定义的Taxonomy常识体系中的上下位关系进行了解,另一方面通过概念间的上下位关系进行了解。 3.2.1 概念-Taxonomy间上下位关系概念-Taxonomy间上下位关系是通过人工定义的常识体系了解一个概念是什么,因为Taxonomy类型是人工定义好的类型,能够把这个问题转化成一个分类问题。同时,一个概念在Taxonomy体系中可能会有多个类型,如“青柠鱼”既是一种“动物”,也属于“食材”的领域,所以这里最终把这个问题作为一个Entity Typing的工作来解决,将概念及其对应上下文作为模型输出,并将不同Taxonomy类别放在同一空间中进行判断,具体的模型构造如下图所示: 3.2.2 概念-概念间上下位关系常识体系通过人工定义的类型来了解一个概念是什么,但人工定义的类型始终是无限的,如果上位词不在人工定义的类型中,这样的上下位关系则没方法了解。如能够通过概念-Taxonomy关系了解“西洋乐器”、“乐器”、“二胡”都是一种“物品”,但没方法获取到“西洋乐器”和“乐器”、“二胡”和“乐器”之间的上下位关系。基于以上的问题,对于概念-概念间存在的上下位关系,目前采取如下两种办法进行开掘: 基于词法规定的办法:次要解决原子概念和复合概念间的上下位关系,利用候选关系对在词法上的蕴含关系(如西洋乐器-乐器)开掘上下位关系。 基于上下文判断的办法:词法规定能够解决在词法上存在蕴含关系的上下位关系对的判断。对于不存在词法上的蕴含关系的上下位关系对,如“二胡-乐器”,首先须要进行上下位关系发现,抽取出“二胡-乐器”这样的关系候选,再进行上下位关系判断,判断“二胡-乐器”是一个正当的上下位关系对。思考到人在解释一个对象时会对这个对象的类型进行相干介绍,如在对“二胡”这个概念进行解释时会提到“二胡是一种传统乐器”,从这样的解释性文本中,既能够将“二胡-乐器”这样的关系候选对抽取进去,也能同时实现这个关系候选对是否正当的判断。这里在上下位关系开掘上分为候选关系形容抽取以及上下位关系分类两局部: 候选关系形容抽取:两个概念从属于雷同的Taxonomy类型是一个候选概念对是上下位关系对的必要条件,如“二胡”和“乐器”都属于Taxonomy体系中定义的“物品”,依据概念-Taxonomy上下位关系的后果,对于待开掘上下位关系的概念,找到跟它Taxonomy类型统一的候选概念组成候选关系对,而后在文本中依据候选关系对的共现筛选出用作上下位关系分类的候选关系形容句。上下位关系分类:在获取到候选关系形容句后,须要联合上下文对上下位关系是否正当进行判断,这里将两个概念在文中的起始地位和终止地位用非凡标记标记进去,并以两个概念在文中起始地位标记处的向量拼接起来作为两者关系的示意,依据这个示意对上下位关系进行分类,向量示意应用BERT输入的后果,具体的模型构造如下图所示: 在训练数据结构上,因为上下位关系表述的句子十分稠密,大量共现的句子并没有明确的示意出候选关系对是否具备上下位关系,利用已有上下位关系采取近程监督形式进行训练数据构建不可行,所以间接应用人工标注的训练集对模型进行训练。因为人工标注的数量比拟无限,量级在千级别,这里联合Google的半监督学习算法UDA(Unsupervised Data Augmentation)对模型成果进行晋升,最终Precision能够达到90%+,具体指标见表1: 3.3 概念属性关系开掘概念含有的属性能够依照属性是否通用划分为公共属性和凋谢属性。公共属性是由人工定义的、大多数概念都含有的属性,例如价位、格调、品质等。凋谢属性指某些特定的概念才含有的属性,例如,“植发”、“美睫”和“剧本杀”别离含有凋谢属性“密度”、“翘度”和“逻辑”。凋谢属性的数量远远多于公共属性。针对这两种属性关系,咱们别离采纳以下两种形式进行开掘。 3.3.1 基于复合概念开掘公共属性关系因为公共属性的通用性,公共属性关系(CPV)中的Value通常和Concept以复合概念的模式组合呈现,例如,平价商场、日式操持、红色电影高清。咱们将关系开掘工作转化为依存剖析和细粒度NER工作(可参考《美团搜寻中NER技术的摸索与实际》一文),依存剖析辨认出复合概念中的外围实体和润饰成分,细粒度NER判断出具体属性值。例如,给定复合概念「红色电影高清」,依存剖析辨认出「电影」这个外围概念,「红色」、「高清」是「电影」的属性,细粒度NER预测出属性值别离为「格调(Style)」、「品质评估(高清)」。 依存剖析和细粒度NER有能够相互利用的信息,例如“毕业公仔”,「工夫(Time)」和「产品(Product))」的实体类型,与「公仔」是外围词的依存信息,能够相互促进训练,因而将两个工作联结学习。然而因为两个工作之间的关联水平并不明确,存在较大噪声,应用Meta-LSTM,将Feature-Level的联结学习优化为Function-Level的联结学习,将硬共享变为动静共享,升高两个工作之间噪声影响。 模型的整体架构如下所示: ...

June 28, 2021 · 4 min · jiezi

关于知识图谱:如何高效地存储与检索大规模的图谱数据

摘要:本文简要介绍常识图谱的存储与检索相干的常识。本文分享自华为云社区《常识图谱的存储与检索》,原文作者:JuTzungKuei 。 1、概述背景:随着互联网的倒退与遍及,一个万物互联的世界正在成型。与此同时,数据呈现出爆炸式的指数级增长,咱们正处于一个数字洪流波澜壮阔的新时代。 咱们每天产生多少数据?据统计每天: 发送 5 亿条推文博客;发送 2940 亿封邮件;全世界每天有 50 亿次在线搜寻;一辆联网汽车会产生 4TB 的数据;Facebook 每天产生 4PB 的数据,其中蕴含 3.5 亿的照片以及 1 亿小时的视频。常识越来越多,目前常见的常识图谱都是以三元组的数据模式形成。 DBpedia 有近 8 千万条三元组;YAGO 有超过 1.2 亿三元组;Wikidata 有近 4.1 亿三元组;Freebase 有超过 30 亿三元组;中文百科有约 1.4 亿三元组。 所以,咱们该如何高效地存储与检索大规模的图谱数据??? 常识图谱是一个有向图构造,形容了事实世界中存在的实体、事件或者概念以及它们之间的关系。其中,有向图中的节点示意实体、事件或者概念,图中的边示意相邻节点之间的关系。 图中展现了对于刘德华的常识图谱部分示意图。图中红色字体示意概念,矩形框示意实体,蓝色字体示意属性,椭圆示意属性值,橙色字体示意关系。 概念:人物、国家、电影等实体:刘德华、朱丽倩、中国、天下无贼等属性:身高、体重、性别、首都、简称、上映工夫、豆瓣评分等关系:妻子、女儿、国籍、主演等2、常识图谱的存储常识图谱中的常识是通过 RDF 构造进行示意的,其根本形成单元是事实。 每个事实是一个三元组:<主语 S, 谓语 P, 宾语 O>,其中: 主语 S:能够是实体、事件、概念谓语 P:能够是关系、属性宾语 O:能够是实体、事件、概念、一般值上面展现了常识图谱中常识示意的三元组列表。 <S, P, O> <刘德华, 生日, 1961 年 9 月 27 日> <刘德华, 血型, AB 型> <刘德华, 妻子, 朱丽倩> ...

May 12, 2021 · 2 min · jiezi

关于知识图谱:知识图谱内容调研

常识图谱内容调研是什么 常识图谱的实质是揭示实体之间关系的语义网络。利用实体和关系来表白主观世界的对象以及不同对象之间存在的关系,提供了组织、治理和了解海量非结构化信息的能力,且对信息的刻画形式更靠近于人类认知世界的模式。例如,实体“《静夜思》”和实体“李白”之间存在关系“创作者”,其结点代表实体(Entity)或者概念(Concept),边代表实体或概念之间的各种语义关系。 解决什么问题 因为互联网数据存在着多元异构性和高度动态性,并且内容丰盛波及范围广,不同的数据之间存在简单的关联性。因而传统的数据存储、治理和查问模式曾经无奈满足当今人们对常识的需要。开发者心愿可能从海量互联网数据中获取并治理无效的信息,同时让计算机主动了解并剖析网络数据中的内容,从而精确、高效的开掘数据资源中所蕴含的价值信息。常识图谱技术的提出为更好地组织、治理和了解互联网中的海量信息提供了一种卓有成效的解决方案,其常识表白的办法也更靠近人类认知世界的模式。 现有的视频指标信息开掘次要还是人工操作,大部分摄像头所录制的视频只有通过人眼查看能力发现视频中的无效监控信息,面对海量的视频,无限的人力很难防止脱漏视频中的一些重要信息,且消耗了大量的人力,没有展现出很好的智能性。如何基于海量的视频,构建一套自动化办法,对视频进行信息提取,开掘视频中潜在的无效信息,是当今智能化时代的趋势。 基于视频知识库的构建是一个创新性的办法,可能对大量的视频自动化地提取无效信息,常识图谱是基于文本的知识库的构建,视频图谱在监控视频上构建语义信息。视频图谱有很高的理论利用价值,比方在公安畛域,通过构建视频图谱,可能挖掘出频繁同行的犯罪团伙;在住宅小区或者工厂等小型区域,能够区别常驻人员和外来人员。视频图谱的构建和开掘钻研大大降低了人力老本,系统性地构建了监控视频中的行人、车辆、物品等关系模型,可用于疾速信息检索等方面。因而,钻研一种基于监控视频的视频图谱构建和开掘办法具备很高的价值。 钻研现状及发展趋势常识图谱构建利用实际 在常识图谱倒退的晚期阶段,常识的起源次要依赖于各种百科全书、网络词典文集和百科网站等结构化数据,并且通过人工合作的形式构建实现,期间具备代表性的工作包含YAGO,DBpedia和Freebase等知识库。因为常识图谱技术的疾速遍及与利用,大量的结构化数据已无奈满足人们的需要,因而现阶段常识图谱中的数据起源次要是互联网海量纯文本等非结构化信息,并采纳凋谢域信息抽取技术主动构建,代表性成绩包含谷歌公司的KnowledgeVault和卡耐基梅隆大学的NELL(Never-EndingLanguageLearning)我的项目等,相干成绩如下图 国外在常识图谱的构建方面取得的重要停顿次要为谷歌公司所开发的Knowledgevault,将维基百科作为根底的Freebase以及DBpedia,其中Freebase将维基百科作为数据起源,并从中抽提结构化数据,借助人工编制的模式实现了2000余万条实体的结构,逐步成为了Google常识图谱重要形成内容。DBpedia则是由莱比锡大学与曼海姆大学共同开发的跨语言知识库,同样将维基百科作为根本数据起源,应用固定模式将结构化信息抽提进去,采纳关联的模式公布信息。DBpedia具备了4000余万条实体和5亿件事实信息。国内以后所公布常识图谱产品蕴含了百度知心、搜狗知立方以及清华大学所开发的XLore、上海交大开发的Zhishi.me等。 以上这些知识库都是基于网页中的文本数据构建而成的,只可能答复对于文本中的一些相干问题。一些学者也尝试为图像构建知识库,如斯坦福大学李菲菲团队构建的VisualGenome知识库,其应用“众包”形式对108249个图像进行解析,提取了420万个区域描述、170万个可视问答、210万个对象实例、180万个属性和180万个关系。基于该知识库,构建一系列的智能检索和剖析利用,如基于场景图(SceneGraph)的图像检索、可视主动问答。和图像题目主动生成等。 现有的知识库次要面向文本数据,面向图像的只有VisualGenome,而面向监控视频数据的知识库依然空缺。知识库是对原始数据进行语义了解和剖析之后的两头后果,相对来说,面向文本的知识库构建更为容易,而图像和视频数据的知识库构建难度更大。鉴于监控视频大数据的数据量之大,很难像VisualGenome一样用“众包”形式构建,因此须要用自动化形式对监控视频进行解析。此外,知识库是为下层智能剖析和查问服务,因而面向监控视频大数据的知识库须要紧扣监控视频剖析利用需要。 常识图谱构建技术目前常识图谱的构建技术钻研根本还是针对文本信息,自然语言的钻研。 命名实体辨认技术 在进行文本处理之前,须要进行命名实体辨认,此时要用到命名实体辨认技术,这是自然语言解决的前置工作。随同着大数据技术以及人工智能技术的继续倒退,研究者对于命名实体辨认工作所发展的钻研工作日益增多,相干技术取得了继续倒退,并获得了突出成绩。在利用不断深入的背景下,命名实体辨认缓缓成为情感剖析、语义检索、主动问答以及机器翻译等钻研工作的前提和根底。比方如何从大量非结构化语料文本中自主、准确的将命名实体抽提进去,曾经成为了国内外学术界关注的焦点。国外在很早之前就开始了对命名实体辨认的钻研,并不断深入。目前,国外学者所发展的钻研工作更加偏向于采纳监督、半监督机械学习办法辨认用英文语料文本,针对规定、办法所发展的钻研工作曾经十分少见。在英文语料文本的辨认中常常采纳的模型、办法包含了最大熵模型、隐马尔可夫模型、决策树、条件随机等。不同于英文语料文本,中文辨认难度较大,国内学者从国外研究成果中抽提出了无效的办法,联合中文的理论状况,对其开展了无效地摸索。常常应用的办法通常是人工从语料当中抽提出特色,联合数学模型对其命名实体辨认。从研究成果上看,俞鸿魁等人创造性的给出层叠隐马尔可夫模型,把多种实体类型辨认融入到了具体的数学模型中,最终结果表明其可能更加容易的发现未登录实体,同时对于复合实体的辨认也有肯定的促进作用。周俊生将中文实体前后缀作为特色,将条件随机场办法作为根底,对人民日报语料开展了剖析,并取得了良好的后果。随着钻研的不断深入,更多试验结果表明,条件随机场也可能用于辨认中文命名实体,把条件随机场作为前提与根底的命名实体辨认技术开始受到了学术界的广泛必定。 关系抽提技术 在上世纪九十年代,MUC-7率先颁布了实体关系抽提相干钻研工作,其被看做是信息抽取子工作。随同着MUC停办,ACE会议齐全接替了MUC内容,持续钻研以意料文本作为根本内容的主动抽取办法。ACE工作外围为信息抽取,在理论工作的发展过程中须要一直地拓展工作牵涉到的各个领域及不同的语言。这两个会议对于自然语言解决工作中信息抽提的进一步倒退有着踊跃的推动作用。在人工智能、大数据等相干技术的倒退背景下,人们将更多的关注点集中在信息抽提技术层面,并且将其看做是信息抽取工作的前置工作,关系抽取也开始失去了诸多学者的宽泛关注,他们为了欠缺与健全关系抽取实践而源源不断地投入精力,独特推动抽提技术的有序倒退,在理论利用中广泛应用关系抽取研究成果。关系抽取的对象为非结构化语料文本,目前钻研办法蕴含了基于模型匹配、机器语言以及语义网络等诸多内容。ChinatsuAone等人借助模式匹配思维构建了关系抽提零碎,通过人工编写关系抽取规定,保障了文本和抽取规定之间的匹配度,失去了实体关系实例。该零碎采纳了绝对灵便的架构模块,利用规定、模块一直地批改、欠缺该零碎。RomanY结构了Proteus零碎,其是一种基于样本泛化的关系抽取模式,用户能够对存在特定类型关系demo开展剖析,总结关系特色,并且把关系特色形象为特定的模型,该零碎能够取得良好试验成果。 现有计划调研基于常识图谱的视觉指标关系建模的利用 一、针对于罪犯的常识图谱构建与利用关键词:开掘视觉指标潜在语义关联,建设多元化的指标关系图谱,基于常识图谱实现对指标的更高效了解与表白。 1.涉案实体辨认 先将监控视频中辨认到的罪犯主体的信息标注为词汇,将监控图像中的罪犯信息细分为人名、机构名、地名、工夫、日期、货币、交通工具和武器等实体。实体辨认分人工辨认和自动识别。人工辨认绝对精确,但效率低,仅实用大量样本的解决。自动识别分为两大类:基于规定的实体辨认和基于机器学习的实体辨认,机器学习辨认又分为基于特色和基于神经网络。基于规定的办法实用于英文环境,国外晚期零碎均采纳此法。基于词典办法依附匹配规定简略无效,对中文反对较好,但构建词典耗时耗力。机器学习办法则利用已标注的语料库训练模型,应用特定字或词命名实体整体或局部。其后,基于LSTMCRF的深度学习被用于实体辨认。因为工作和需要不同,实体辨认的粒度也不同。实体辨认粒度越小则难度和开销越大,但指导意义更大。以后,困扰实体辨认的因素包含实体命名模式多变、语言环境简单和实体存在歧义等。 2.实体消歧 因为模式和语义简单,实体辨认后需进行一致性校验,即实体消歧。其起因在于:同一实体可能有不同的称呼,同一名称可能示意不同的实体。消歧的个别办法为有监督的机器学习。分类办法通过构建正负实例、指称-实体对等模式通过有监督形式进行学习,获取二元分类模型以实现实体消歧。机器学习排序办法分三类,PointWise应用近似回归模型计算候选匹配实体的得分并排序,得分越高则越偏向为同一实体;PairWise将候选项匹配成对,利用项与项间的绝对地位关系构建训练样本,采纳分类办法训练排序感知机实现消歧;ListWise则将査询后果排序列表视为训练实例,利用ListNet算法训练排序模型进行消歧。基于图的办法将情报中的实体指称及其候选实体形成图构造,利用两者的关联实现协同消歧。混合模型综合使用多种模型取得各自消歧后果,最初通过比拟失去最优后果,成果好于单模型。实体消歧过程要防止实体的脱漏和散失,免得数据失真。 3.实体关联提取 实体关联是构建立功常识图谱的外围环节,将监控信息从画面和文字层面回升到内容层面。在立功情报方面,实体关系次要体现人(组织)、物或事为核心的两方或多方关联,须要时还可退出工夫或地点。其难点在于同一关系表述不同、关系波及实体多、同一词汇标注表白不同关系和存在隐性关联等。基于模板的办法是关系抽取的传统办法,依据实体指称的画面上下文关系参照模板提取关系。基于机器学习的办法分为有监督学习和弱监督学习两类。有监督学习办法通过分类算法学习人工标注的实体指称关联样本进行模型训练,造成语义关系分类器用于关系提取。基于弱监督学习办法以间隔监督为假如,对人工标注的局部图谱三元组样本进行学习以造成分类器,进而主动实现其余内容的关系抽取。Hasegawa等提出基于无监督技术的关系抽取,按实体特色进行全连通聚类,通过关系相似性确定实体关系的类型。视频、图片、语言等类型的情报信息间接进行关系抽取将是今后的倒退方向。 4.利用常识图谱剖析开掘立功情报基于图谱的立功信息搜寻传统的信息检索通过关键字匹配形式实现查找,未思考关键字的语义和上下文关系,检索品质不高。基于常识图谱的实体检索同时思考语义相似性和构造相似性,计算每个实体相干的三元组与用户查问之间的相关度,排序后失去候选实体。此外,常识图谱作为一种存在逻辑构造的有向连通图,可通过图模型进行建模检索,用检索对象的特色建设子图并构建图谱的图索引,通过子图筛选技术实现立功信息检索。当检索指标较简单时可综合多个图谱进行搜寻,基于图谱的问答技术用于进步搜寻成果。基于词典-文法的语义解析办法通过剖析问句,构建由节点、边和操作符组成的语义图,视其为图谱子图并映射到图谱中,通过图匹配实现检索。目前,基于常识图谱的简略问题检索根本成熟,但深层开掘问题、大规模搜寻和长尾问题等仍待钻研。基于图谱的案件推理常识图谱的结构化模式是其强于数据库的最大劣势,反对信息推理,可用于情报的补齐、质检和开掘,辅助研判。常识图谱推理着眼实体和关系,进行演绎推理和基于演绎的推理,由已有信息推断未知信息。归纳推理用于推理具体事实,利用逻辑规定取得某个事件的过程;演绎推理则着重提取常识图谱中的逻辑规定。演绎推理包含基于谓词逻辑的关系推理、基于概率逻辑的规定提取和基于随机游走的规定开掘等。归纳推理包含基于相信规定推理的关系预测,基于门路的关系推理等。常识图谱推理技术可辅助事件法则开掘、人员画像构建、特定群体发现、人物关系梳理等立功情报分析。二、基于监控视频的视频图谱构建与开掘1.视频图谱的设计与实现 常识图谱构建过程蕴含信息抽取、常识交融、常识加工。信息抽取从非结构化和半结构化数据中抽取实体、关系、实体属性,常识交融和常识加工对已有的信息进行语义消歧和常识推理等。视频图谱的构建与常识图谱相似,也是一个迭代的过程,采纳自底向上的构建形式,为了实现摄像头下的行人人脸特色的疾速提取,采纳深度卷积神经网络,对提取后的特色进行聚类,就能失去每个行人惟一的身份。为了存储主动提取的信息,须要设计一个联合图数据库的存储形式,采纳图数据库Neo4j进行实体、属性和关系数据的存储。节点作为实体,示意行人或者摄像头,边作为关系,示意行人之间、行人与摄像头之间的关系,属性作为实体的属性信息。 (1)图谱整体框架 视频图谱蕴含三个基本要素:节点、边和属性,其中节点能够示意对象(如视频文档、视频中的人、车和物品),边示意对象间的关系,节点和边均能够有多个属性。以行人为例,行人能够通过多个摄像头,对行人呈现的工夫、行人的特色信息进行记录,能够开掘行人之间的共现关系。视频图谱整体框架如下图所示。 视频图谱由多个视频对象组成,也能够用摄像头示意,示意一段监控视频或者一个摄像头。视频中呈现的行人、车辆等信息通过自动化提取办法提取进去,并且极记录行人、车辆的相干信息,例如行人编号信息、呈现的工夫信息,作为行人的属性信息示意在图谱中。通过共现关系剖析,找到图谱中具备共现关系的行人,也能够进而通过关系的连贯,找出对应的团伙。 (2)图谱构建的实现 基于监控视频的视频图谱的构建总体流程如下图所示。总共分为以下几个模块:人脸检测及特征提取、人脸聚类、实体关系存储、共现关系发现、图谱展现。 (1)人脸检测及特征提取模块包含:应用深度学习的办法检测摄像头视频流中的行人,提取行人的人脸特色等; (2)人脸聚类模块包含:应用基于密度的DBSCAN算法将检测到的人脸聚成不同的类别,调配不同的cluster_id等; (3)数据存储模块包含:应用图数据库Neo4j存储监控视频中呈现行人实体的信息,以及和摄像头之间的呈现关系等; (4)共现关系发现模块包含:计算给定摄像头范畴、给定工夫阈值条件下的行人之间的共现关系等; (5)图谱展现模块包含:应用前端展现框架展现视频图谱的样貌,提供交互式检索框等。 (3)行人人脸特征提取和聚类 视频图谱的自动化构建的根底是行人人脸检测和人脸特征提取,对于海量监控视频,将视频中呈现的行人自动检测并提取进去,作为视频图谱的行人实体。如下图所示,从监控摄像头中读取视频流并提取视频的关键帧,只关注关键帧是为了防止不必要的检测,可能视频中缩小人脸检测的次数,进步零碎的运行效率,距离几帧进行人脸检测即可。人脸检测和对齐应用MTCNN网络,网络的输出是视频帧,输入为蕴含人脸框和人脸关键点的图像。应用MTCNN网络检测人脸包含图像金字塔、P网络、R网络、O网络四个步骤。图像金字塔的作用是失去不同尺寸的输出图像,剩下的三个网络顺次串联,上一个网络的输入作为下一个网络的输出。对于检测后的人脸应用残差网络模型提取人脸的深度特色,残差网络的输出为上一步失去的对齐后人脸图像,输入为高维人脸特色。最初对特色进行聚类,将同一个人的不同人脸样本聚到雷同的类,聚类办法采纳基于密度的DBSCAN办法,类外部的间隔较为严密,类之间间隔较远,同一个类中的人脸示意同一个身份的行人的不同工夫被抓拍到的快照,不同类示意不同身份的行人,对每一个聚类进行编号,用来示意监控视频中行人的身份。 (4)实体与关系的存储 节点贮存,图数据库中节点示意实体,在视频图谱中,实体有行人、摄像头等。所以节点分为:行人节点和摄像头节点。基于Neo4j的标签规定,指定行人节点的标签为Person,摄像头节点的标签为Camera。标签是Neo4j数据库的分类信息,通过标签能够不便疾速进行匹配。 关系存储,图数据库中关系示意分割,视频图谱中,实体之间的分割是要害信息。关系建设在两个已知节点的根底上,关系分为单向关系和双向关系。在视频图谱中,有多种关系,例如行人和摄像头的关系,为呈现关系,能够指定为单向关系,开始节点为摄像头节点,完结节点为行人节点;摄像头之间的关系为连通关系,指定为双向关系。 属性存储,图数据库中不仅实体蕴含属性,关系也有属性信息。属性既存在于节点中,也存在于关系中。Person节点中能够存储行人呈现的工夫、行人的快照、行人的人脸特色等信息,Camera节点中能够存储摄像头的一些动态信息,例如摄像头的编号、地位形容、经纬度等信息;对于关系,以行人和摄像头之间的关系为例,一个关系对应于行人呈现在摄像头下的一次状况,存储工夫、快照等信息。 2.视频图谱的数据挖掘(1)共现关系的发现 在文献计量钻研畛域中,独特呈现的特色项之间存在着某种关联,关联水平能够应用共现频次来评估。例如,通过剖析一篇文章,要找到文章中两个人物之间的关系,个别认为,在同一篇文章中呈现的两个人物的名字有肯定的关联,统计全文呈现的关联次数,能够结构任何两个人物之间的共现关系。视频图谱中,共现关系与上述形容相似,场景和实体有所不同,在多个理论场景中,肯定范畴的时间跨度内,不同行人被摄像头一起抓拍到,则认为他们之间有肯定的分割。如下图所示,两人行人别离在工夫上被雷同的摄像头拍摄到,那么认为他们之间存在共现关系。 (2)共现关系的预测 关联规定剖析的目标是找出数据集之间各项之间的分割,常被称为购物篮剖析。在监控视频图谱的场景中,如果依据大量的历史数据,剖析出某个立功嫌疑人呈现的状况下,其余立功同伙呈现的概率,那么将施展出视频图谱更深层次的作用,基于共现关系发现算法,进一步采纳关联规定算法预测某一个行人呈现的条件下,与之有关联的人呈现的概率。关联规定剖析的后果是规定的预测,规定是“如果…那么…”的模式,“如果”是条件,“那么”是后果。 关联规定剖析首先被提出就是为了解决购物篮的问题,旨在找出大量商品购物之间的关联,起初被广泛应用与信息畛域,而在现在的应用情境下,依据监控视频图谱的环境,应用关联规定的外围思路,找出实用于此环境的关联规定剖析后果。Apriori算法作为关联规定剖析的经典算法被宽泛探讨,也是最早应用的关联规定算法;FP-Growth算法基于Apriori做了优化解决,通过构建一个FP-Tree来生成频繁项集,缩小了磁盘的IO次数,晋升算法的性能;当数据一直增长时,应用单机解决容易达到瓶颈,应用基于分布式的FP-Growth算法是天经地义的抉择。 三、基于常识图谱的预测案例一、城市交通拥堵区域预测钻研 智能交通系统是一种先进的应用程序,指将各种先进的技术如大数据,信息通信技术,电子控制技术等各种集成到整个运输管理系统中,旨在提供与不同交通形式和交通管理相干的翻新服务。随着电子器件、大数据和人工智能的倒退,通过智能化技术来缓解交通拥堵状况曾经是交通管理的趋势,同时传感器技术的提高产生了更高精度且可实时获取的交通数据,为交通状况的剖析与预测提供了海量的数据反对。因而,如何针对多源异构的交通大数据,摸索更加先进的办法对钻研城市交通拥堵预测具备重要意义。 交通拥堵预测钻研现状 Ryo提出了一种基于信息科学中的频繁模式开掘算法,从交通传感器数据中列举交通拥堵模式的办法,来理解城市以后的交通拥堵状况。该办法改良了频繁模式开掘算法从而无效地开掘时空相干的拥挤模式并预测拥挤。 Li提出了一种自适应数据驱动的实时拥挤预测办法。该办法包含基于自适应K均值聚类的交通模式识别算法,二维速度预测模型和自适应阈值校准办法。在主成分剖析之后,进行自适应K均值聚类算法以取得不同的流量模式。利用自适应阈值校准办法实现拥挤辨认,而后依据不同的流量模式提出拥挤预测。OnievaTM提出了一个试验钻研,将机器学习办法利用于预测路线的拥挤水平。该钻研旨在找出相干论断以及产生蕴含一组规定的模型,同时思考清晰和含糊变体。所应用的办法显示出良好的性能,模型可能精确批示出拥挤的水平。 Wan设计了一种基于深度学习实践的拥挤预测模型来预测交通拥堵,剖析了不同迭代次数和学习率对模型预测精度的影响。文章在现有钻研的根底上,提取了交通拥堵的影响因素,如交通流量,天气和光线,并构建状态矩阵来示意交通流的状态,提出了基于CNN预测的交通拥堵模型,应用状态矩阵作为输出变量。 在国内钻研方面,姚智胜和邵春福使用状态空间模型将拥挤问题转化为多点工夫序列预测,构建多维自回归模型,模型参数应用EM算法预计,将路线多点的交通状态作为钻研对象,并利用卡尔曼滤波进一步预测零碎状态,在疾速路上6个采样点的实在数据进行验证,自回归模型预测成果比卡尔曼滤波单点预测办法更好。 ...

March 3, 2021 · 1 min · jiezi

关于知识图谱:知识图谱描边12NERCRF数据标注

named_entity_recognition命名实体辨认公司实操——具体步骤(raw数据+标注+数据集解决+crf)我的项目的github地址 工作指标从一些工厂、单位的日常查看日志中,辨认出隐患设施实体和地点实体,如下表: 隐患日志隐患地点隐患设施1轧钢部一轧反吹压力表未校验轧钢部反吹压力表2铸管4.0施工现场多处气瓶间距不符合要求铸管、4.0施工现场气瓶 ………………121煤气职业危害告知牌检测数据未更新 煤气职业危害告知牌ps:上表的程序仅是实例展现,不代表selected_data.xlsx中的真实情况。 试验步骤: 1、将每一句话用BIO标注形式标注 2、写dataloader3、应用crf模型训练 上面咱们介绍具体的标注工具及步骤 数据标注:想要的训练数据集展现如下:善其事而先利其器,采纳YEDAA这个python开源工具包来标注,运行后界面长这样: 应用时几点留神:1、操作方法是用英文写的,根本能涵盖你的应用要求,花几分钟工夫建一个txt文件练练就会了; 2、目前YEDDA(2020.11)只反对Python2,我用conda创立了一个py2环境;3、反对间接导入文件(open按钮),我应用的是txt格局; 4、反对导出模式设置,标注实现后点击Export按钮即可输入,咱们会失去一个.anns文件; 5、可设置快捷键命令,一键标注光标内文本 6、荧光笔标记的标签如果挨着,肯定要防止重叠,一个字符的重叠都不能够,否则会呈现如下谬误: 数据集解决数据分析:数据量只有121句,划分为10:1(110对train数据。11对val数据,也就是用来测试的。 流程:①把121个sentence和tag对以(s,t)的模式加载到内存(load_dataset)②用固定的随机种子打乱程序③划分列表,再别离存储为train.txt和val.txt CRF模型

January 6, 2021 · 1 min · jiezi

关于知识图谱:京东推荐系统中的兴趣拓展如何驱动业务持续增长

如何基于商品常识图谱做趣味召回? 本篇文章是来自京东举荐广告的彭长平所做的分享,次要向大家介绍一些过来一两年在京东举荐零碎里做的一些算法的翻新。 内容次要分三局部: 第一局部是简略形容一下电商的举荐与一般的、大家熟知的其余举荐零碎的一些差别。 第二局部会从几个维度讲一下在京东举荐零碎上做的一些翻新,尤其是在用户趣味拓展这个维度上。因为就电商场景来说,所有的电商举荐零碎都是分成捕获用户趣味和满足用户趣味,而后也包含趣味的拓展。在电商角度来说,用户趣味的拓展绝对他类型的举荐零碎可能会更重要一些,实际上,在京东举荐零碎外面,用户趣味拓展这部分的曝光占比超过了一半以上。 第三局部会简略介绍一下,咱们当初正在做的一些绝对前沿的技术方向。 举荐零碎大家应该都比拟相熟了,从 PC 时代开始,国内外所有的互联网公司,尤其是平台型的互联网公司,随着 Iterm 候选的增多,曾经远远超过了人脑可能解决的范畴,所以它必然要通过算法去刻画人的趣味,以及 Item 的属性,去满足人和 Item 的匹配。 国内外大家可能看到的一些报道,像 Netflex、Amazon、Facebook、国内的 BAT,尤其是挪动时代开始之后,手机屏幕这种手指和屏幕天然的交互方式,自然而然使得举荐零碎简直成为每一家挪动互联网公司的标配。举荐零碎是公司破费十分多的人力和财力去打造的一个零碎,同时这个零碎也为各个企业带来了十分大的商业价值。 在传统的举荐零碎里,其实最次要是记录人的行为,因为最传统的举荐零碎的算法就是协同过滤,后盾的思维就是——物以类聚,人以群分。那么,相似的行为,或者商品属性相似的货色,就能够去做拓展。所以它最根底的一个逻辑,就是可能去记录用户的行为,基于这个行为去辨认他的趣味,去举荐和他趣味相干属性的商品,或者是其余的一些 Item。 电商举荐零碎分成两类,第一类是你辨认他的趣味,而后去举荐跟他的趣味相匹配的一些商品。第二类,就是你要找到一些他没有明确表达出来的趣味,咱们用算法去猜想他有这方面的趣味,而后去帮他做拓展。 趣味的拓展,其实对于各种举荐零碎都很重要,但对于电商来说尤其重要。因为对于电商来说,你须要疏导他去买,在你的平台高低单,如果你只是满足了他买的这个商品,其实也就意味着你的零碎的下限是无限的,不论是对于用户也好,或者对于你平台上的商家也好,那么其成长空间是无限的。所以拓展用户趣味以及基于拓展进去的趣味帮他做举荐,对于电商零碎来说尤其重要。但这个事件对于电商零碎来说,又是个特地难的事件。咱们从用户和商品两个纬度讲一下: 从用户纬度思考,第一,如果说你去跟资讯类的、信息流这种举荐零碎相比,那么它的用户行为是绝对少的,因为用户不可能每天花 60 分钟、70 分钟,甚至更长时间在你的零碎上。第二个艰难还是从用户角度来看,对于资讯类平台的举荐零碎来说,用户生产你的内容就是在线上,你可能残缺地记录到这个用户观看或生产平台内容的过程。然而,对于电商零碎来说,它只是交易的过程产生在线上,用户为什么要买这个商品?以及买完商品之后的所有的生产过程,都是在线下的,难以数字化的。第三个艰难跟后面两个点是也相干的,就是大多用户买完商品之后,在短期内不会再来买这个商品,不会再来买同类的商品,也就是说他的需要和趣味会产生转移,这也就是为什么说,在电商的举荐零碎里,仅仅捕获用户的趣味,基于捕捉到的趣味去做举荐是不够的,这是从用户纬度来讲咱们面临的挑战。 从商品的维度来讲,第一、商品的规模是特地大的,咱们失常看到的大部分平台的举荐零碎所举荐的 Item 汇合可能是几十万,几百万这个量级的,然而对于 电商零碎 来说,它后盾真正的侯选级都是数十亿 SKU 的侯选,也是因为当初这个时代,曾经进入了一个供过于求的状态,所以它更依赖于这些中长尾的商品,更依赖于举荐零碎,去找到适合的用户。第二个特点,从电商平台角度来说,大量的热点是随着一些节日或者平台本人做的一些临时性的流动带来的用户,那么从逻辑上来说,这些商品其实它们的前续的用户行为一段时间内也是不足的,所有的这些点都表明:第一、趣味拓展对于电商举荐零碎来说特地重要。第二、它依赖于传统的协同过滤,依赖于用户行为的这种形式是不够的,所以前面我次要是介绍一些,咱们在这方面做的一些尝试性的翻新。我次要会介绍一些理念性的货色,讲得会绝对粗略一些,每个方面介绍几个办法,不会讲特地简单的推理过程,就是心愿咱们解决这个问题的一些思路对大家有些启发。 大家能看到下图中的三个环节,右边是形容传统的、咱们记录下来的用户的行为,包含他的浏览、购买、加购等所有电商平台可能在线记录下来的行为,失常的举荐零碎都是分为几个环节: 第一个环节是要从刚刚所说的数十亿的 SKU 汇合里,召回进去大略数千级别的侯选 SKU;第二个环节是要对召回进去的数千级别的 SKU 去做 CTR,去做点击率或者转化率的预估,就是对每一个候选的商品,给用户打一个预估的 CTR 的分,或者预估的转化率的分;第三个环节是拿到打完分的这一千个侯选之后,怎么推出来最初返回给用户看到的那几条,或者几十条的侯选的过程。那么最初,出现给用户的商品包含两部局部:第一局部,其实曾经晓得它对这些商品是感兴趣的。第二局部是去帮他探测,或者说把他感兴趣的、摸索过的商品举荐进去。简直工业界的零碎都是这种漏斗型的环节,我方才讲的那三个环节都是漏斗型的,所以咱们在每一个环节都须要去解决摸索进去的商品怎么进去的这个问题。其实你曾经辨认出了用户的趣味,而后基于趣味打分,这个技术绝对成熟的。然而如何去召回 CTR 预估,以及最初的排序环节,如何保障咱们摸索进去的货色可能进来而且有一个正当的排序,每个环节都会有对应的一些解决方案。我这里次要介绍三个点的翻新,第一个点就是基于商品常识图谱的召回。第二个环节是 CTR 预估的环节,第三个点是在 Rerank,在最终的排序环节,怎么去做一个全局的建模。 上面咱们来具体阐明下各个环节。第一个环节是讲基于商品常识图谱的趣味召回,就是刚刚提到的,咱们不论是从用户纬度来说,还是从商品纬度来说,存在大量的用户行为缺失,商品也短少对应的行为。它依赖于传统行为的这种办法,不论是 CF 也好,还是基于用户行为去训练各种向量模型,或者其余的各种模型化的召回办法,在行为缺失的时候都生效了。 电商里有几个典型的场景,是商品行为特地缺失的,而这些场景在电商当中又特地重要: 第一个就是新品的上架,比方小米 10 公布了,华为 10 或者 P40 公布了,或者 iPhone12 公布了,这些新品上来的时候,其实是齐全没有用户行为的,这个时候你依赖于行为的模式去召回,都会面临商品原本很热,然而如果你依赖行为,它是推不进来的; ...

October 30, 2020 · 2 min · jiezi

关于知识图谱:华为云专家讲述知识图谱构建流程及方法

摘要:随着AI技术的倒退和遍及,当今社会曾经进入了智能化时代。与以往不同的是,在这一波浪潮中,企业不仅是向数字化转型,更是向知识化转型。那么,如何助力企业破解智能化常识开掘和治理难题,实现知识化转型?华为云自然语言解决技术专家郑毅在《企业级常识计算平台的技术解读和案例实际》分享中,讲述了华为云常识计算平台及相干技术、常识图谱构建流程及办法,以及常识计算行业案例。本文次要讲述“常识图谱构建流程及办法”,让咱们先睹为快。 一、 什么是常识图谱?常识图谱是由实体、关系和属性组成的一种数据结构。以下图为例,“刘德华“是一个人物类型的实体,“刘德华”有本人的身高、国籍等信息,这些信息便称之为实体的属性。 同样,“无间道”是一个电影类型的实体。咱们晓得“刘德华”是“无间道”这部电影的主演,所以“刘德华”与“无间道”之间有“主演”关系。通过实体、关系、属性,就可能把咱们人能够了解的常识无效地组织起来。常识图谱的构建与利用波及数据库、自然语言解决(NLP)和语义网络等技术。 图1 常识图谱示例 通用常识图谱or行业常识图谱? 依照常识图谱的用处,常识图谱可分为通用常识图谱和行业常识图谱。通用常识图谱偏重构建常识性的常识,并用于搜索引擎和举荐零碎等。行业常识图谱(也可称企业常识图谱)次要面向企业业务,通过构建不同行业、企业的常识图谱,对企业外部提供知识化服务。华为云常识图谱服务可用于以上两类常识图谱的构建、治理和服务,更偏重面向企业常识图谱。 二、 如何构建常识图谱?常识图谱构建次要分为自顶向下(top-down)与自底向上(bottom-up)两种构建形式。自顶向下构建形式须要先定义好本体(Ontology或称为Schema),再基于输出数据实现信息抽取到图谱构建的过程。该办法更实用于专业知识方面图谱的构建,比方企业常识图谱,面向畛域业余用户应用。自底向上构建形式则是从凋谢的Open Linked Data中抽取置信度高的常识,或从非结构化文本中抽取常识,实现常识图谱的构建。该形式更实用于常识性的常识,比方人名、机构名等通用常识图谱的构建。本文偏重介绍自顶向下构建形式的相干流程和技术,并用于构建企业常识图谱。 目前业界暂无常识图谱云服务,也没有统一标准的自顶向下构建流程。以后业界支流的常识图谱构建形式是基于企业外部数据、公开数据,图谱服务商以解决方案模式帮忙客户定制构建常识图谱。这样的形式无疑老本十分高并且效率很低,通常须要很长的周期能力实现。同时,企业没有参与感,图谱构建也可能存在很大偏差,难以用于理论业务中。 站在用户角度,咱们通过形象常识图谱构建流程及相干技术,推出华为云常识图谱云服务(图2),为不同行业、不同企业提供疾速构建常识图谱能力的平台,赋能大中小型企业构建属于本人的常识图谱。 图2 华为云常识图谱云服务 华为云常识图谱云服务提供流水线式图谱构建能力,将图谱构建形象为如下根本流程:本体构建、数据源配置、信息抽取、常识映射以及常识交融。 图3 常识图谱构建根本流程 进一步通过将每一个流程模块形象成插件模式,并通过组合配置生成图谱构建工作。面向不同的行业和畛域,只须要批改插件配置即可实现企业常识图谱的构建。同时,基于流水线设计,常识图谱云服务能够在只批改数据源的前提下实现常识图谱的更新操作,十分实用于须要频繁更新的常识图谱。 2.1 如何构建常识图谱的本体?常识图谱构建的第一步须要实现图谱本体(Ontology)的设计和构建。本体是图谱的模型,是对形成图谱的数据的一种模式束缚。对于企业常识图谱的构建,个别是由垂直畛域的行业专家和常识图谱专家单干实现。 本体的构建和设计对于常识图谱的构建至关重要。能够通过梳理畛域常识、术语词典、专家的人工教训等作为本体构建的根底,联合常识图谱的利用场景来欠缺图谱的构建,最终取得实体类别、类别之间的关系、实体蕴含的属性定义。华为云常识图谱云服务提供图形化本体设计工具,能够通过拖拽编辑灵便实现企业常识图谱本体的构建。 图4 华为云常识图谱云服务-本体设计界面 2.2 如何配置数据源?须要做哪些筹备在配置数据源之前,须要将不同类型、不同格局的数据进行初步的整顿。比方:针对本地非电子化文档,须要先进行扫描电子化,联合OCR等技术将扫描件转换成文本文档。再比方:针对本地电子化文档,须要将本地文档按文档类型、格局进行归档解析整顿成标准的格局,或者针对网络资源,须要依据网站特点,开发相应的爬虫,对数据进行爬取,并存储到本地数据库等等。还有一些第三方资源,须要获取相应的数据拜访接口,并通过接口获取相应数据。 整顿好的数据上传到华为云OBS对象存储服务后,常识图谱云服务就能够进行数据源的配置,包含指定格局的针对结构化数据和非结构化文本的配置等。 2.3 什么是信息抽取?怎么抽取?信息抽取的目标是依据不同的数据源、不同的数据格式,实现实体、属性、关系这种常识的抽取。这是常识图谱构建流程中十分要害的一环,信息抽取的品质决定了常识图谱的品质。实体之间的关系以及实体的属性值,都能够用三元组(主语、谓词、宾语)来示意,所以信息抽取又能够简略叫做三元组抽取。 华为云常识图谱云服务反对结构化Key-Value格局和非结构化文本的三元组抽取。针对结构化数据,能够通过配置预置函数的组合,实现字段的解决。与之对应的,针对非结构化文本,云服务提供算法模型抽取能力,反对业界前沿的基于机器浏览了解(Machine Reading Comprehension,MRC)的三元组抽取办法,通过应用多轮对话的思维进行三元组抽取,先抽取主语(Subject),而后依据抽取后果和候选谓词对应的模板结构问句抽取宾语(Object),最终组成(主语,谓词,宾语)三元组。该框架模型成果能够达到以后业界最好程度(state-of-the-art)。华为云常识图谱服务反对基于该算法的模型训练、预测以及治理性能,同时以插件模式实现流水线中信息抽取局部。 图5 基于机器浏览了解(MRC)的三元组抽取办法 信息抽取中模型训练推理性能是基于华为云-ModelArts AI计算平台实现的,该平台提供高效的AI计算、模型训练、推理及部署能力,同时为了不便训练三元组抽取模型,额定提供三元组标注工具,用户能够基于该工具疾速取得训练数据,实现信息抽取以及常识图谱构建工作。 图6 三元组标注工具示例 2.4 常识交融是如何实现的?所谓常识交融,就是对多个数据源进行常识抽取后的大量三元组数据进行对齐合并。举个例子:百度百科有明星刘德华,互动百科有明星刘德华,咱们构建的常识图谱不能有两个明星刘德华吧?这时候就须要把他们辨认进去放在一起,而后合并成一个实体,这就是实体的对齐以及常识的交融。 这其中要害的问题是怎么高效的实现实体对齐,技术路线根本能够分为两类:基于实体属性类似度的框架、基于联结表征的深度学习框架。思考到基于联结表征的深度学习框架依赖大量标注数据,并且模型与行业及数据强相干,无奈提供很好的通用化能力,因而,华为云常识图谱服务以后反对基于实体属性类似度的框架,能够通过定义类似度度量及组合,实现实体对齐以及常识交融。 除此之外,华为云常识图谱云服务还提供图谱可视化服务,能够直观地察看剖析实体及关系。 图7 病毒蛋白常识图谱可视化示例 三、 常识图谱须要怎么的存储形式?通过常识图谱构建,咱们当初曾经有了大量的三元组常识。那么要怎么来存储这些三元组常识呢? 最间接的形式是应用表格局的存储形式,如关系型数据表,三元组以三列数据或多列数据的模式存储。这种办法在图谱规模比拟小的时候是可行的,然而如果图谱规模变大了,是否仍然可行呢?举个例子,倘若咱们有了娱乐明星+电影这样一个娱乐图谱,其中包含了大量的明星人物、电影以及他们之间的关系。如果想查问“刘德华和梁朝伟独特演过的电影中,年龄最大的导演是谁?“,就须要对关系型数据库中常识图谱后果表做2-3次自连贯操作,如果三元组的数量是千万、亿、十亿规模的话,不言而喻,这样的查问效率极低,根本不可行。 华为云常识图谱服务采纳的是业界支流的图数据库形式存储常识图谱,间接把数据或常识图谱以图的模式存储,能够十分高效地实现多跳关系、属性的查问。具体的,咱们应用华为云图引擎服务,包含图存储、图计算一体的架构设计,不仅能够提供高效的查问性能,同时也能够提供多种预置的图深度学习算法,应用起来十分不便,欢送大家前来试用。 图8 华为云图引擎服务产品劣势 四、 华为云常识计算案例介绍中国石油基于华为云常识计算服务的常识建模、油气图谱构建、图谱存储、自然语言解决、机器学习等能力构建了业界首个油气常识计算平台。以油气勘探开发数据为根底,通过常识计算技术的利用,为油气勘探开发增储上产、降本增效提供智能辅助和决策。 图9 油气常识计算的价值和意义 华为常识计算解决方案提供丰盛的常识利用,从解决企业痛点、晋升企业效率、提供知识化服务的角度全面赋能企业,体现了常识计算在各行业中的智能化价值,让各行业的企业能够疾速、低成本、高效率地治理,通过利用企业常识、实现知识化转型,开释知识化带来的红利,全面晋升企业在智能化时代的竞争力。 点击关注,第一工夫理解华为云陈腐技术~ ...

October 12, 2020 · 1 min · jiezi

搜索场景下的智能推荐演变之路

摘要:传统的推荐手段主要还是深度挖掘用户行为和内容本身相似性的价值,包括但不限于协同过滤,内容表征+向量召回,以及各式各样的点击率预估模型,然后这样的推荐行为缺乏内在的逻辑性和可解释性,有一种知其然,不知所以然的体感。本文中,阿里巴巴高级算法专家王悦就为大家分享了搜索场景下的智能推荐演变之路。以下内容根据演讲视频以及PPT整理而成。 点击查看阿里巴巴AI智能专场直播 演讲嘉宾简介:王跃(跃神),阿里巴巴高级算法专家。浙江大学硕士毕业,阿里巴巴高级算法专家,加入阿里巴巴以来一直致力于研究搜索推荐相关技术,相关工作包括自然语言处理,查询词分析技术研究,知识图谱数据构建,实体推荐等多个不同方向。当前是夸克浏览器智能推荐业务业务负责人,致力于推动推荐从传统的用户行为推荐向知识化推荐的升级,从而提升用户信息获取信息的边界,加快信息决策的效率。 本次分享将首先介绍神马搜索在推荐领域有哪些应用场景,之后为大家分享在神马搜索的推荐系统中所做的召回和排序相关的工作。 一、概览场景介绍首先为大家介绍神马搜索的推荐场景有哪些,比如大家在向搜索框输入内容之前,搜索框就会提供一些预置的搜索词,这属于没有搜索Query的推荐。其次,如果大家点击网页之后返回结果,神马搜索会在URL下面提供一些相关的Query,这是与URL本身相关的推荐。再次,还有Query推荐和相关搜索,这中推荐的主要目的是引流,国内的搜索引擎基本上都是商业化的产品,因此通过这样的推荐方法就能够很好地吸引一些流量进来。此外,还有体感比较好的实体推荐,以及在内容消费页面所做的相关推荐。 推荐大致可以分为三个阶段,首先在输入之前,神马搜索引擎会基于用户画像以及其他的一些相关推荐技术将一些内容推荐给用户;第二个阶段就是在搜索的结果页进行推荐;最后一个阶段就是在内容页面上做一些相关推荐。从另外一个维度上来看,推荐也可以分为三个部分,分别为没有Query的推荐、有Query的推荐以及基于URL的推荐。 技术大图正如下图所展示的,推荐的业务应用场景非常多,因此无论是从横向还是纵向上进行划分,都可以将推荐划分为多个视角。而如果对于每种推荐都从头到尾搭建一套系统,那么成本将会非常高,而UC团队有一套比较通用的技术体系来支撑如下图所示的推荐相关业务。搜索场景下智能推荐的技术大图可以大致分为三个部分,最底层是数据以及数据相关的梳理;其上层就是通过召回以及排序等手段对于数据进行一定的处理;最上面一层就是使用处理好的数据来支撑业务。 对于上层大部分的推荐场景而言,所采用的召回方法基本都是相同的,而所采用的排序方法往往不同。比如对于预置词这种业务而言,它是没有Query的,因此在做模型设计的时候就无法利用这些信息。 二、召回接下来为大家整体地介绍一下推荐系统中的召回体系,在本次分享中只会涉及其中比较通用的4种召回方法,但实际上召回体系远远不止这4种,一些比较通用的召回方法没有在本文中列出。 用户行为召回在召回部分介绍的第一种方法就是用户行为召回,也就是去深挖用户行为的价值。用户行为的挖掘是搜索引擎推荐的重要环节,这部分会针对于用户行为做两件事情。第一件事情就是从Session的角度来分析哪些Query经常会出现在一起,这样分析也会遇到一些问题,比如首先要去区分Session里面不同的Query类型,在搜索引擎里面可以自己主动地发起一次搜索,也可以自己去点击一些推荐结果。但是这两种行为存在一定的区别,比如主动搜索和被动通过推荐来搜索是不同的,主动搜索行为往往会获得较高的分数,如果在比较靠后的位置点击了推荐结果和在相对比较靠前的位置点击了推荐结果的行为也是不同的。因此,在这里需要对于不同类型的行为做一些权重计算,同时做一些比较机器化的规则,比如在某一个Session里面,某一个Query是用户最后一次搜索,此时就需要去考虑这个Query是不是已经满足了用户需求,因此会对于这些Query加一定的权重。 第二个问题就是时效性优化问题,对于一些头部的Query而言,可能一天之内就能达到几万甚至十万的量级。对于这样的Query,通常的做法就是拉一个时间窗口去看所有Session里面Query的情况如何。但实际上对于这些头部的Query没有任何意义,因为其一天的数据就足够分析了,因此在这种情况下会做一些采样;对于一些长尾的Query则会做一些时间窗口的拉长操作。第三个问题是稀疏优化,对于前面所提到的基于URL的推荐而言,通常的做法就是收集用户点击了URL之后又搜索了哪些Query的行为,但是这种情况下点击的URL往往是很稀疏的,因此会使用URL下面本身的一些与Title相似的Doc共享推荐的List实现基于文本的泛化,或者通过相似Query共享推荐List实现基于行为的泛化,这样一来推荐的效果和覆盖率都会有极大的提升。 行为分析下图展示的是协同过滤算法,但是经典的协同过滤算法往往存在一些问题,比如同一个Item权重的分配而言,在行为非常丰富的用户和行为较少的用户之间,可能更加倾向于前者。 但是这样的做法并不一定合理,因此我们复用了集团的一些成果,做了两点主要的改进,第一个就是尽量地降低行为特别丰富的用户的比重,使得其相对比较平滑。第二个就是构建如上图所示的菱形结构,进而达到闭环的效果,使得推荐的理由更加强烈一些。综上所述,可以从入度出度、行为丰富度不同等闭环的结构上面做优化,来提升整体协同过滤类算法的效果。 标签召回基于标签的召回与基于用户画像的召回非常类似,对于用户画像而言,现在业界比较传统的做法就是在用户身上打上各种各样的标签,比如性别、年龄以及爱好等。因此,这里将基于标签的召回和基于用户画像的召回合在一起讲解。这里列举了一个例子就是在做APP推荐时如何去分析偏长尾的标签,比如搜索“什么软件拍照带耳朵?”时能够发现非常丰富的问答数据,并且发现Faceu这款APP在答案里面。而如果其他的问答网站里面反馈出了其他的APP,就能计算出Faceu和其他拍照APP之间存在非常强大的相关性,这样一来可以做一些关联的推荐,并且可以标注出其推荐者。 标签召回主要包括两个步骤,第一步就是建立比较完整的标签体系,将标签归纳到比较稀疏的链路下面去。在定义好这些链路体系之后,第二步就可以分门别类地去进行挖掘,这里的挖掘相对而言还是比较传统的,比如先分取一些Query,然后去判断有哪些数据,并对于已有的数据进行一些标注,做一些标签的识别,之后进一步扩大。当我们累积到一定量之后,就可以尝试借助有监督的方法实现进一步的泛化。 知识图谱召回基于知识图谱的召回是最近一段时间内在学术界比较火的方法。UC团队在基于知识图谱的召回方面也做了大量的尝试,大致分析了一下有这样几类算法,比如文本建模算法DLA和Doc2vec,知识表示算法tranE、transH、transD以及transR,网络关系算法DeepWalk、Node2Vec以及SNDE等。文本建模算法基本上都是无监督学习,因此没有办法很好地利用关系网络,主要是利用文本信息;知识表示算法对于关系的稠密度要求非常高,如果关系稠密度没有达到要求,那么采样效果就会非常差;基于深度学习的网络关系算法即可以结合文本信息也可以融合关系网络。综上所述,基于深度学习的网络关系算法相对而言比较中庸一点,能够同时利用文本和网络信息,整体效果也会相对好一些。 UC团队主要针对Node2vec的基础版本做了一些优化。之所以优化Node2vec是因为其具有深度优先和广度优先的机制,能够使得其整个训练过程和方向变得可控。Node2vec的过程主要可以分为3部分,主要就是以知识图谱这个图关系网络为基础做随机游走,并且控制随机游走需要深度优先还是广度优先,深度优先会更加关注全局信息,而广度优先则会更加关注Doc信息。UC团队在Node2vec上面主要做了两方面优化,一个是数据增广,也就是增加了用户行为数据以及百科数据和超链接数据,将这些数据抽取出来实现层级化,这样就能够在一定程度上解决网络稀疏的问题。第二个优化点就是利用深度学习中一个比较好的方法,也就是利用文本信息做embedding,比如在知识图谱里面某一个人物有相应的描述,可以对于这些描述信息进行切词并embedding到网络中来。 向量召回基于向量的召回也是最近几年在学术界和工业界中比较热门的方法。向量召回的出发点就是分析输入的Query或者用户与候选的推荐Query之间的文本语义匹配问题。这个模型是YouTube在2016年发的一篇论文中提出的,UC团队在此基础上进行了改进,比如对于Query以不同的粒度进行切词。此外,Query还会有一些文本特征,比如检索切词、语义切词等,还会将用户画像的特征以及实时信息特征一起训练来提升模型的性能。 下图所展示的是向量召回的效果图,左边的第一列是训练的特征,第二列是召回的数据,第三列是真实的搜索Query。对于向量召回方法而言,有一些优化的方法,比如线上存在真实的排序情况,那么可以将线上真实情况和线下召回的情况做一个比较,从而大致了解向量召回的优势情况以及准确率如何。 三、排序基础相关性在排序部分首先介绍基础相关性。下图中展示了一个Query例子“泰勒级数展开公式”。在线上首先会对于这个Query做切词,切词完成之后,每个Token都会召回一系列的候选Doc,此时会出现一系列的问题,因为已经将Query切成Token了,所以极有可能产生的Doc结果和原始的Query是不相关的,因为切分之后无法得到足够的Query信息。此时,需要借助相关性模型大致地控制所获取的文本与原始Query的相关性,将相关性特别低的候选Doc在这一步过滤掉。在模型设计时也会考虑一些应用的场景,比如在做实体推荐时就会将Query里面实体的信息引入进来,进而实现共享网络。 如果将Query分类信息引入进来就能很好地解决一些歧义的问题。 CTR预估UC团队在两年前做了CTR预估的相关工作,那个时候其他的一些方法还没有成熟,因此这部分做的相对比较简单,主要的工作集中在样本的选择以及特征的选择上面。对于样本选择而言,通常会在一个推荐序列里面将点击过的结果作为正样本,将没有被点击过的结果作为负样本。在模型设计方面,比较重要的是CTR类特征,如果这个特征不佳就会使得整个模型的特征打一个比较大的折扣。而UC团队所实现的CTR预估模型能够达到小时级更新,保证线上的效果。 MABMAB的意思就是“多臂老虎机”,比如一个老虎机有多种可以玩的方法,我们一开始不知道哪种方法才能获胜,因此需要逐个实验每种玩法获胜的几率是多少,最终去确定应该以什么顺序来玩。这和排序是非常相关的,因为在推荐时如果直接使用CTR排序可能导致一些比较好的潜在的推荐Item因为刚刚出来,没有被很多用户点击过,就会导致其永远无法排在前面。此时就需要借助一个探索机制来缓解这样的问题,也就是当使用CTR排序完成之后,并不完全按照CTR去提供排序结果,而是使得所有的推荐候选项都有一定的概率被选中。如果经常性地进行探测,那么推荐结果也会逐渐地收敛。 小结这里简单做一个总结,在本文中已经介绍了大部分的推荐算法。对于召回而言,从精准到泛化基本上可以分为基于检索的召回、基于标签的召回、协同过滤、基于知识图谱的召回以及基于向量的召回。对于排序而言,也介绍了基础相关性、语义相关性以及CTR预估和MAB。 本文作者:游客be77vkb76molw阅读原文 本文为云栖社区原创内容,未经允许不得转载。

September 6, 2019 · 1 min · jiezi

11知识图谱是什么

知识图谱是什么?一起先看看知识图谱的发展、定义和相关示例吧。 知识图谱的发展:知识图谱自上世纪60年代从语义网络发展起来以后,分别经历了1980年代的专家系统、1990年代的贝叶斯网络、2000年代的OWL和语义WEB,以及2010年以后的谷歌的知识图谱。2012年Google知识图谱一出激起千层浪:微软必应、搜狗、百度等搜索引擎公司在短短一年内纷纷宣布了各自的“知识图谱”产品,如百度“知心”、搜狗“知立方(现更名为‘立知’)”等。谷歌目前的知识图谱已经包含了数亿个条目,并广泛应用于搜索、推荐等领域。知识图谱的定义:在维基百科的官方词条中:知识图谱是Google用于增强其搜索引擎功能的知识库。本质上,知识图谱是一种揭示实体之间关系的语义网络,可以对现实世界的事物及其相互关系进行形式化地描述。详细的说,知识图谱是基于图的数据结构,以图的方式存储知识并向用户返回经过加工和推理的知识。它由“节点”和“边”组成,节点表示现实世界中的“实体”,边表示实体之间的“关系”。现在的知识图谱已被用来泛指各种大规模的知识库。知识图谱的一些示例:1、基础三元组表示![基础三元组表示]() 2、知识图谱在Neo4j中的可视化![知识图谱在Neo4j中的可视化]() 3、知识图谱在金融领域的使用![知识图谱在金融领域的使用]() 知识图谱技术研究内容包括:1、知识表示:研究客观世界知识的建模,以方便机器识别和理解,既要考虑知识的表示与存储,又要考虑知识的使用和计算;2、知识图谱构建:解决如何建立计算机算法从客观世界或者互联网的各种数据资源中获取客观世界的知识,主要研究使用何种数据和方法抽取何种知识;3、知识图谱应用:主要研究如何利用知识图谱建立基于知识的智能服务系统,更好地解决实际应用问题。相关资料知识图谱的技术与应用(18版)知识图谱初探

June 8, 2019 · 1 min · jiezi

12知识图谱有什么用

知识图谱经过几年的发展已经得到广泛的应用。当知识图谱遇上人工智能,更加突显出了它的优势和价值。 最先应用于搜索![用Google搜索泰姬陵]() 最典型的就是在谷歌搜索引擎里面应用。谷歌是在2012年率先提出来知识图谱的概念,提出这个概念的最主要的目的就是用于改善它的搜索引擎的体验。我们从这个图就可以看到,用户搜索的是泰姬陵,泰姬陵是印度的非常著名的,也是世界八大奇迹之一的景点。这里面不一样的地方是它在搜索引擎的右侧,会以知识卡片的形式来呈现跟泰姬陵相关的结构化的信息,包括泰姬陵的地图、图片、景点的描述、开放时间门票等等,甚至在下面会列出跟泰姬陵相类似或者相关联的景点,比如中国的万里长城同样是世界的几大奇迹,包括金字塔等等。这样的知识点,可以非常好的把知识组织和关联起来。现已广泛应用于金融风控![借款人身份信息]() 反欺诈是风控中非常重要的一道环节,也是知识图谱适合应用的场景。反欺诈的核心是人,这就要求把与借款人相关的数据源打通,然后抽取该借款人的特征标签,从而将相关的信息整合成结构化的知识图谱。其中,不仅可以处理记录借款人的基本信息,还可以把借款人日常生活中的消费记录、行为记录、关系信息、网上浏览记录等整合到知识图谱里。在此基础上,对该借款人的借贷风险进行分析和评估。 反欺诈的应用不仅体现在贷前阶段,还可以应用在贷中阶段,通过构建已知的主要欺诈要素(如手机、设备、账号和地域等)的关系图谱,全方位了解借款人风险数据的统计分析,对潜在的欺诈行为作出及时的反应。当然,这要求能够获得借款人全方位的各种类型的信息,并且利用机器学习和自然语言处理技术从数据中提取出符合图谱规格的数据。相比虚假身份的识别,组团欺诈的发现难度更大。一般来说,团体欺诈往往隐藏在非常复杂的关系网络里,很难识别。只有把其中隐含的关系网络梳理清楚,才有可能去分析出其中潜在的风险。知识图谱,因为天生用来描述关系网络,因而具备了分析组团欺诈的便捷手段。 电商营销方面大显身手![电商网站推荐商品]() 基于知识图谱的精准营销,能够知道你的客户的非常详细的信息,包括名字,住址,经常和什么样的人进行互动,还认识其它什么样的人,网上的行为习惯、行为方式是什么样子。这样就可以知识图谱挖掘出更多的用户的属性标签和兴趣标签,以及社会的属性标签,基于知识图谱就可以进行个性化的商品核心活动的推送能够实现,从而实现精准的营销。还可以借助商品知识图谱,通过用户已经购买的商品,推荐相关联的潜在需求商品。行业预测上的应用不容小觑![企业信息知识图谱]() 基于多维度的数据,从而建立起客户、企业和行业间的知识图谱,从行业关联的角度预测行业或企业面临的风险。例如,通过对行业进行细分,根据贷款信息、行业信息建立行业间的关系模型;通过机器学习,可发现各个行业间的关联度,如果某一行业发生了行业风险或高风险事件,根据关联关系可以及时预测有潜在风险的其他行业。从而可以帮助金融机构做出预判,尽早地规避风险。除此以外,通过知识图谱,也可以将行业和企业之间数据进行连接,借助对行业的潜在风险的预测,能够及时发现与该行业风险或系统性风险相关联的企业客户。例如,某地区某行业连续出现了多笔逾期贷款,通过对行业和客户的知识图谱进行分析,可以及时发现该地区相关行业存在潜在风险的客户。 还有知识搜索、智能问答方面![智能问答系统知识图谱]() 基于知识图谱,我们也可以提供智能搜索和数据可视化服务。智能搜索的功能指的是,知识图谱能够在语义上扩展用户的搜索关键词,从而返回更丰富、更全面的信息。比如,搜索某个人的身份证号,可以返回与这个人相关的所有历史借款记录、联系人关系和其他相关的标签(如黑名单等)。这些结果可以用图形网络的方式展示,从而把复杂的信息以直观明了的图像呈现出来,让使用者对隐藏信息的来龙去脉一目了然。问答系统可分为面向任务、面向知识和面向聊天三类,从关键技术上分,还可以把其分成基于搜索技术的问答系统、基于协同的问答系统、基于知识库的问答系统。面向知识的问答系统可用于闭域和开放域,通常使用以数据为驱动的信息检索模型。该类方法基于从问答知识库中查找与提问问题最匹配的知识。一份最新的研究工作尝试使用基于神经网络的方法实现问题间的匹配。最常用的一种方法是基于知识图谱与信息检索相结合的方法,检索知识图谱可给出高准确率的问答,并以信息检索为补充。目前国内有代表性的企业应用搜索方面的应用:像百度“知心”,搜狗“知立方”等智能问答方面的应用:百度度秘,阿里小蜜,搜狗汪仔等行业应用:脉脉,天眼查,企信宝,出门问问等相关资料为什么知识图谱终于火了?知识图谱正在改变金融?深度解剖知识图谱的四大应用

June 8, 2019 · 1 min · jiezi

13知识图谱怎么去做

知识图谱怎么去做,这当然不是几句话说得清楚的。首先肯定要先基于自身的业务进行思考,这里整理一些知识图谱构建的主要路径。 构建的逻辑思路1、梳理业务,构建本体:是否需要用知识图谱?成本怎么样,能达到怎么的效果?是否有能力构建知识图谱?数据、团队等情况是否能支撑?如果有必要,如何根据业务梳理一套本体框架?2、编辑本体,给出业务知识表示框架:可以利用Protege进行本体编辑,获得一个用OWL表示的知识表示文件。3、给本体补充实例数据:先找一些示例数据,便于理解。构建的不同方式自顶向下的构建方式:先定义本体和数据模式,再将实体加入知识库。利用一些现有的结构化知识库作为其基础知识库。自底向上的构建方式:从一些开放链接数据中提取出实体,选择其中置信度较高的加入到知识库,再构建顶层的本体模式。构建过程中的关键技术大体包含五个方面:知识抽取、知识表示、知识融合、知识加工、知识评估通过知识提取技术,可以从一些公开的半结构化、非结构化和第三方结构化数据库的数据中提取出实体、关系、属性等知识要素。知识表示则通过一定有效手段对知识要素表示,便于进一步处理使用。分布式的知识表示形成的综合向量对知识库的构建、推理、融合以及应用均具有重要的意义。然后通过知识融合,可消除实体、关系、属性等指称项与事实对象之间的歧义,形成高质量的知识库。知识加工则是在已有的知识库基础上进一步挖掘隐含的知识,构建新本体,补全关系,从而丰富、扩展知识库。知识评估可以对知识的可信度进行量化,保留置信度较高的,舍弃置信度较低的,有效确保知识的质量。除此之外,大规模知识图谱构建,还需要多种技术的支持:分布式存储和计算、图数据库、图推理、内存数据库等。数据的存储数据库选择知识图谱的存储和查询语言也经历了历史的洗涤,从RDF到OWL以及SPARQL查询,都逐渐因为使用上的不便及高昂的成本,而被工业界主流所遗弃。图数据库逐步成为目前主要的知识图谱存储方式。 目前应用比较广泛的图数据库包括Neo4j、graphsql、sparkgraphx(包含图计算引擎)、基于hbase的Titan、BlazeGraph等,各家的存储语言和查询语言也不尽相同。实际应用场景下,OrientDB和postgresql也有很多的应用,主要原因是其相对低廉的实现成本和性能优势。 应用推理和知识自学习在知识图谱构建过程中,还存在很多关系补全问题。虽然一个普通的知识图谱可能存在数百万的实体和数亿的关系事实,但相距补全还差很远。知识图谱的补全是通过现有知识图谱来预测实体之间的关系,是对关系抽取的重要补充。 传统方法TransE和TransH通过把关系作为从实体A到实体B的翻译来建立实体和关系嵌入,但是这些模型仅仅简单地假设实体和关系处于相同的语义空间。而事实上,一个实体是由多种属性组成的综合体,不同关系关注实体的不同属性,所以仅仅在一个空间内对他们进行建模是不够的。 相关资料大规模知识图谱的构建、推理及应用肖仰华 | 大规模知识图谱构建与应用

June 8, 2019 · 1 min · jiezi

11知识图谱是什么

知识图谱是什么?一起先看看知识图谱的发展、定义和相关示例吧。 知识图谱的发展:知识图谱自上世纪60年代从语义网络发展起来以后,分别经历了1980年代的专家系统、1990年代的贝叶斯网络、2000年代的OWL和语义WEB,以及2010年以后的谷歌的知识图谱。2012年Google知识图谱一出激起千层浪:微软必应、搜狗、百度等搜索引擎公司在短短一年内纷纷宣布了各自的“知识图谱”产品,如百度“知心”、搜狗“知立方(现更名为‘立知’)”等。谷歌目前的知识图谱已经包含了数亿个条目,并广泛应用于搜索、推荐等领域。知识图谱的定义:在维基百科的官方词条中:知识图谱是Google用于增强其搜索引擎功能的知识库。本质上,知识图谱是一种揭示实体之间关系的语义网络,可以对现实世界的事物及其相互关系进行形式化地描述。详细的说,知识图谱是基于图的数据结构,以图的方式存储知识并向用户返回经过加工和推理的知识。它由“节点”和“边”组成,节点表示现实世界中的“实体”,边表示实体之间的“关系”。现在的知识图谱已被用来泛指各种大规模的知识库。知识图谱的一些示例:1、基础三元组表示![基础三元组表示]() 2、知识图谱在Neo4j中的可视化![知识图谱在Neo4j中的可视化]() 3、知识图谱在金融领域的使用![知识图谱在金融领域的使用]() 知识图谱技术研究内容包括:1、知识表示:研究客观世界知识的建模,以方便机器识别和理解,既要考虑知识的表示与存储,又要考虑知识的使用和计算;2、知识图谱构建:解决如何建立计算机算法从客观世界或者互联网的各种数据资源中获取客观世界的知识,主要研究使用何种数据和方法抽取何种知识;3、知识图谱应用:主要研究如何利用知识图谱建立基于知识的智能服务系统,更好地解决实际应用问题。相关资料知识图谱的技术与应用(18版)知识图谱初探

June 7, 2019 · 1 min · jiezi

当你打开天猫的那一刻推荐系统做了哪些工作

阿里妹导读:当年打开天猫的那一刻,它为你完成了华丽的变身,成为世上独一无二的“天猫”,这就是智能推荐的力量。今天,来自阿里巴巴搜索推荐事业部的算法工程师陈启伟为你介绍天猫如何玩转首页个性化推荐,揭开搜索推荐的神秘面纱。天猫首页作为用户打开手机天猫App的第一印象,所推荐的商品极大地决定了用户接下来的行为,对用户流量的承接与分发、提升用户购物体验和呈现天猫货品的性价比、品质感及品牌力起到至关重要的作用,成为提升天猫用户体验的关键环节之一。 1、场景介绍天猫首页的场景主要包括大促会场入口和日常频道两大类,如图1所示。其中左图为大促会场入口,包括主会场入口和行业会场入口;主会场入口通过为用户推荐7个商品(3个在中间动态轮播)给大促主会场进行引流,引流 UV 达数千万以上;行业会场入口通过为用户推荐4个个性化会场和商品为数万的会场引流。右图为日常频道,包括限时抢购、天猫好物、聚划算、天猫闪降和精选频道;首页通过个性化推荐商品为各个特色的频道引流,通过各个频道来培养用户心智,让用户在天猫逛起来。 过去的首页推荐更多的是在相关性推荐的单一数据目标上进行优化,如今天猫首页的推荐系统不仅仅考虑推荐结果的相关性,还在推荐结果的发现性、多样性等方面上做了更深度的优化,"效率和体验并重"成为天猫首页新的优化目标。Graph Embedding、Transformer、深度学习、知识图谱等新的技术已先后在天猫首页的推荐系统成功落地,为场景带来了两位数的点击率提升和两位数的疲劳度下降。 2、推荐框架天猫首页的个性化推荐系统可以分为召回、排序和机制三个模块。其中,召回模块主要是从全量的商品素材中检索出用户感兴趣的 TopK 个候选商品,排序模块专注于用户对商品的 CTR 预估,机制模块负责后期的流量调控、体验优化、策略调控等和最终的商品排序。整个推荐系统采用 Graph Embedding、Transformer、深度学习、知识图谱、用户体验建模等新的技术构建起来,后面章节将介绍这个推荐系统的关键技术点。 3、召回3.1 Ranki2i Item-CF 是目前应用最广泛的召回算法,其原理是根据两个商品被同时点击的频率来计算两个商品之间的相似度 simScore,得到 i2i 表;然后通过用户的 trigger 去查询 i2i 表,扩展用户感兴趣的商品。Item-CF 的基本算法虽然简单,但是要获得更好的效果,往往需要根据实际的业务场景进行调优。清除爬虫、刷单等噪声数据,合理选择计算商品之间相似度的数据的时间窗口,引入时间衰减,只考虑同一个类目下商品对,归一化、截断、打散等策略对优化 Item-CF 的效果都有很大的帮助。 Ranki2i 是一种改进的 Item-CF 算法,其在 item-CF 得到的两个商品之间的相似度 simScore 的基础上再乘以该 trigger item 所召回的该 target item 在过去一段时间内的 ctr (注意 ctr 的计算需要进行适当的平滑),对 i2i 的 simScore 进行修正,使得 i2i 表不仅考虑了两个商品的点击共现性,还考虑了召回商品的点击率。 我们基于全网的点击数据和天猫首页场景内的日志来计算 Ranki2i 表,并部署在检索系统 Basic Engine 上,对每个访问天猫首页的用户,从基础特征服务系统 ABFS 中获取用户的 trigger,并以此查询 Ranki2i 表来召回用户感兴趣的商品。 经典 Item-CF 类算法直接根据两个商品被同时点击的频率来计算两个商品之间的相似度,在寻找用户点击商品的相似、相关以及搭配商品上都有很大的优势,且其具有简单、性能高等特点,已成为目前应用使用最为广泛的召回算法。然而由于经典 Item-CF 类算法的召回结果的候选集限定在用户的历史行为类目中,并且算法难以结合商品的 Side Information,导致其推荐结果存在发现性弱、对长尾商品的效果差等问题,容易导致推荐系统出现“越推越窄”的问题,从而制约了推荐系统的可持续发展。为了跟精准地给用户推荐心仪的商品,同时维护推荐系统的可持续发展,解决推荐系统的发现性推荐和长尾推荐等问题,我们团队提出了 S3Graph Embeeding 算法和 MIND 算法。 ...

June 3, 2019 · 2 min · jiezi

SPARQL入门二使用Java操作ARQ

在文章SPARQL入门(一)SPARQL简介与简单使用中,我们了解了RDF、SPARQL以及基于Java编写的SPARQL处理器ARQ。在本文中,笔者将会如何使用Java来操作ARQ。 注意到在Jena的官网http://jena.apache.org/download/index.cgi 说明中,有关于Maven的使用方法介绍: 因此可以使用Maven,然后再用Java来操作ARQ,Javadoc的网址为:http://jena.apache.org/documentation/javadoc/arq/ 。 在本文中我们使用另一种项目构建工具——Gradle,项目工程截图如下: 我们需要修改的文件为build.gradle, ex002.ttl以及ARQ_TEST.java。其中build.gradle可以加载jena的jar,具体内容如下: plugins { id 'java'}group 'com.kg.learn'version '1.0-SNAPSHOT'sourceCompatibility = 1.8repositories { mavenCentral()}dependencies { testCompile group: 'junit', name: 'junit', version: '4.12' // https://mvnrepository.com/artifact/org.apache.jena/jena-arq compile group: 'org.apache.jena', name: 'jena-arq', version: '3.11.0' // https://mvnrepository.com/artifact/org.slf4j/slf4j-api compile group: 'org.slf4j', name: 'slf4j-api', version: '1.7.26' // https://mvnrepository.com/artifact/org.slf4j/slf4j-simple compile group: 'org.slf4j', name: 'slf4j-simple', version: '1.7.26'} ex002.ttl为RDF文档,储存了我们的示例三元组,内容如下: # filename: ex002.ttl@prefix ab: <http://learningsparql.com/ns/addressbook#> .ab:richard ab:homeTel "(229) 276-5135" . ab:richard ab:email "richard49@hotmail.com" . ab:cindy ab:homeTel "(245) 646-5488" . ab:cindy ab:email "cindym@gmail.com" . ab:craig ab:homeTel "(194) 966-1505" . ab:craig ab:email "craigellis@yahoo.com" . ab:craig ab:email "c.ellis@usairwaysgroup.com" . 接着就是我们的项目主角ARQ_TETS.java,代码如下: ...

May 15, 2019 · 2 min · jiezi

SPARQL入门一SPARQL简介与简单使用

知识图谱(Knowledge Graph)是当前互联网最炙手可热的技术之一,它的典型应用场景就是搜索引擎,比如Google搜索,百度搜索。我们在百度搜索中输入问题“中国银行的总部在哪”,搜索的结果如下: 这便是知识图谱的典型应用,能够直接输出问题的答案。借助知识图谱,能够让搜索引擎更加高效,搜索结果更加精准,给用户带来更好的搜索体验和乐趣。 关于知识图谱的知识点和工具数不胜数,我们在学习时常常会感到无从下手,一片茫然。本文将尝试着介绍知识图谱的几个知识点——RDF、URI、URL和SPARQL,希望能以此为切入点,让读者对SPARQL有些感性的认识,至于知识图谱,则是更大更深的范围了,不是本文所能概括的。 什么是SPARQL? SPARQL的英文全称为SPARQL Protocol and RDF Query Language,是为RDF开发的一种查询语言和数据获取协议,它是为W3C所开发的RDF数据模型所定义,但是可以用于任何可以用RDF来表示的信息资源。它于2008年1月15日正式成为一项W3C推荐标准,于2013年3月发布SPARQL1.1。 既然SPARQL是为是为RDF开发的一种查询语言,那么什么是RDF呢? 什么是RDF? 首先,RDF不是一种数据格式。 RDF的英语全称为Resource Description Framework,中文名称为资源描述框架。RDF是一种描述数据文件储存的数据模型,该数据模型通常描述由三个部分组成的事实,被称为三元组(triples)。三元组由主语(subject)、谓语(predicate)和宾语(object)组成,看上去很像一个简单的句子。比如: subjectpredicateobjectrichardhomeTel(229)276-5135cindyemailcindym@gmail.com 以下为Turtle RDF格式的RDF文件,文件名为ex002.ttl, # filename: ex002.ttl@prefix ab: <http://learningsparql.com/ns/addressbook#> .ab:richard ab:homeTel "(229) 276-5135" . ab:richard ab:email "richard49@hotmail.com" . ab:cindy ab:homeTel "(245) 646-5488" . ab:cindy ab:email "cindym@gmail.com" . ab:craig ab:homeTel "(194) 966-1505" . ab:craig ab:email "craigellis@yahoo.com" . ab:craig ab:email "c.ellis@usairwaysgroup.com" .#表示注释,@prefix行为前缀行,即为<http://learningsparql.com/ns/...>取一个前缀ab:,也就是别名,避免每次命名时都要写这个长长的字符,句子最后的.可写可不写,写上后便于阅读。另外,<http://learningsparql.com/ns/...>是URI,这个后面会介绍。 之后的每一行,都是一个三元组,分别是主语、谓语和宾语,带有前缀ab:。 URI和URL URI和URL是两个相近的概念,但URL只是URI的一种。 URL就是我们常说的网址,英文全称为Uniform Resource Locators,是统一资源定位符,对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。 URI的英语全称为Uniform Resource Identifier,是统一资源标识符。在RDF三元组中,主语、谓语必须属于某个特定的命名空间,避免相似的名字发生混淆,因此需要使用URI。 ...

May 15, 2019 · 1 min · jiezi

windows10下,零基础学习VUE(8)-- 小练习,知识图谱可视化(ltp抽取文本关系,echarts展示图谱)

新坑!echarts的引入graph的设置data.nodesdata.linksltp安装文本解析及节点和关系的json格式生成图谱展示

April 17, 2019 · 1 min · jiezi

藏经阁计划发布一年,阿里知识引擎有哪些技术突破?

阿里妹导读:2018年4月阿里巴巴业务平台事业部——知识图谱团队联合清华大学、浙江大学、中科院自动化所、中科院软件所、苏州大学等五家机构,联合发布藏经阁(知识引擎)研究计划。藏经阁计划依赖阿里强大的计算能力(例如Igraph图数据库),和先进的机器学习算法(例如PAI平台)。计划发布一年以来,阿里知识图谱团队有哪些技术突破?今天一起来了解。背景藏经阁计划发布一年以来,我们对知识引擎技术进行了重新定义,将其定义成五大技术模块:知识获取、知识建模、知识推理、知识融合、知识服务,并将其开发落地。其中知识建模的任务是定义通用/特定领域知识描述的概念、事件、规则及其相互关系的知识表示方法,建立通用/特定领域知识图谱的概念模型;知识获取是对知识建模定义的知识要素进行实例化的获取过程,将非结构化数据结构化为图谱里的知识;而知识融合是对异构和碎片化知识进行语义集成的过程,通过发现碎片化以及异构知识之间的关联,获得更完整的知识描述和知识之间的关联关系,实现知识互补和融合;知识推理是根据知识图谱提供知识计算和推理模型,发现知识图谱中的相关知识和隐含知识的过程。知识服务则是通过构建好的知识图谱提供以知识为核心的知识智能服务,提升应用系统的智能化服务能力。经过一年的工作,在知识建模模块我们开发了Ontology自动搭建、属性自动发现等算法,搭建了知识图谱Ontology构建的工具;在知识获取模块我们研发了新实体识别、紧凑型事件识别,关系抽取等算法,达到了业界最高水平;在知识融合模块,我们设计了实体对齐和属性对齐的深度学习算法,使之可以在不同知识库上达到更好的扩展性,大大丰富了知识图谱里的知识;在知识推理模块,我们提出了基于Character Embedding的知识图谱表示学习模型CharTransE、可解释的知识图谱学习表示模型XTransE,并开发出了强大的推理引擎。基于上面的这些技术模块,我们开发了通用的知识引擎产品,目前已经在全阿里经济体的淘宝、天猫、盒马鲜生、飞猪、天猫精灵等几十种产品上取得了成功应用,每天有8000多万次在线调用,日均离线输出9亿条知识。目前在知识引擎产品上,已经构建成功并运行着商品、旅游、新制造等5个垂直领域图谱的服务。在每个模块的构建过程中,我们陆续攻克了一系列的技术问题。本文将选取其中的两项工作来介绍给大家:1、在众包数据上进行对抗学习的命名实体识别方法知识获取模块包含实体识别、实体链接、新实体发现、关系抽取、事件挖掘等基本任务,而实体识别(NER)又是其中最核心的任务。目前学术界最好的命名实体识别算法主要是基于有监督学习的。构建高性能NER系统的关键是获取高质量标注语料。但是高质量标注数据通常需要专家进行标注,代价高并且速度较慢,因此目前工业界比较流行的方案是依赖众包来标注数据,但是由于众包人员素质参差不齐,对问题理解也千差万别,所以用其训练的算法效果会受到影响。基于此问题,我们提出了针对众包标注数据,设计对抗网络来学习众包标注员之间的共性,消除噪音,提高中文NER的性能的方法。这项工作的具体网络框架如图3所示:标注员ID:对于各个标注员ID信息,我们使用一个Looking-up表,表内存储着每个WorkerID的向量表示。向量的初始值通过随机数进行初始化。在模型训练过程中,ID向量的所有数值作为模型的参数,在迭代过程中随同其他参数一起优化。在训练时每个标注样例的标注员,我们直接通过查表获取对应的ID向量表示。在测试时,由于缺乏标注员信息,我们使用所有向量的平均值作为ID向量输入。对抗学习(WorkerAdversarial):众包数据作为训练语料,存在一定数量的标注错误,即“噪音”。这些标注不当或标注错误都是由标注员带来的。不同标注员对于规范的理解和背景认识是不同的。对抗学习的各LSTM模块如下:私有信息的LSTM称为“private”,它的学习目标是拟合各位标注员的独立分布;而共有信息的LSTM称为“common”,它的输入是句子,它的作用是学习标注结果之间的共有特征,。标注信息的LSTM称为“label”,以训练样例的标注结果序列为输入,再通过标注员分类器把label和common的LSTM特征合并,输入给CNN层进行特征组合提取,最终对标注员进行分类。要注意的是,我们希望标注员分类器最终失去判断能力,也就是学习到特征对标注员没有区分能力,也就是共性特征。所以在训练参数优化时,它要反向更新。在实际的实体识别任务中,我们把common和private的LSTM特征和标注员ID向量合并,作为实体标注部分的输入,最后用CRF层解码完成标注任务。实验结果如图4所示,我们的算法在商品Title和用户搜索Query的两个数据集上均取得最好的性能:2、基于规则与graph embedding迭代学习的知识图谱推理算法知识图谱推理计算是补充和校验图谱关系及属性的必不可少的技术手段。规则和嵌入(Embedding)是两种不同的知识图谱推理的方式,并各有优劣,规则本身精确且人可理解,但大部分规则学习方法在大规模知识图谱上面临效率问题,而嵌入(Embedding)表示本身具有很强的特征捕捉能力,也能够应用到大规模复杂的知识图谱上,但好的嵌入表示依赖于训练信息的丰富程度,所以对稀疏的实体很难学到很好的嵌入表示。我们提出了一种迭代学习规则和嵌入的思路,在这项工作中我们利用表示学习来学习规则,并利用规则对稀疏的实体进行潜在三元组的预测,并将预测的三元组添加到嵌入表示的学习过程中,然后不断进行迭代学习。工作的整体框架如图5所示:嵌入学习优化的目标函数是:其中:lsro表示三元组的标记,表示三元组的评分函数,vs表示图谱三元组中主语(subject)的映射,Mr表示图谱中两个实体间关系的映射,vo表示图谱三元组中宾语(object)的映射。基于学习到的规则(axiom),就可以进行推理执行了。通过一种迭代策略,先使用嵌入(Embedding)的方法从图谱中学习到规则,再将规则推理执行,将新增的关系再加入到图谱中,通过这种不断学习迭代的算法,能够将图谱中的关系预测做的越来越准。最终我们的算法取得了非常优秀的性能:除了上述两项工作以外,在知识引擎技术的研发上我们还有一系列的前沿工作,取得了领先业界的效果,研究成果发表在AAAI、WWW、EMNLP、WSDM等会议上。之后阿里巴巴知识图谱团队会持续推进藏经阁计划,构建通用可迁移的知识图谱算法,并将知识图谱里的数据输出到阿里巴巴内外部的各项应用之中,为这些应用插上AI的翅膀,成为阿里巴巴经济体乃至全社会的基础设施。本文作者:阿里知识图谱团队 阅读原文本文来自云栖社区合作伙伴“ 阿里技术”,如需转载请联系原作者。

April 1, 2019 · 1 min · jiezi

图(关系网络)数据分析及阿里应用

摘要:2019年1月18日,由阿里巴巴MaxCompute开发者社区和阿里云栖社区联合主办的“阿里云栖开发者沙龙大数据技术专场”走近北京联合大学,本次技术沙龙上,阿里巴巴资深技术专家钱正平为大家分享了大数据技术背景下图数据的应用前景,以及阿里巴巴在图数据的建模、查询和系统优化等方面做出的初步探索。以下内容根据演讲视频以及PPT整理而成。一、什么是图数据?下面的关系网络展示了一个点和边构成的数据模型,点表示实体,边表示两个实体间的关系。关系网络极具灵活性,能够在统一视图里展示异构信息,其中的边可能来自不同表。比如,下图中的边表示了两个明星间的关系,可能由若干张表通过join操作形成。如今,机器学习的数据分析pipeline可应用于各行各业各个门类的数据,来帮助企业更好地决策。图数据的价值在于它能够显式地表达出数据间的复杂关联结构,以辅助机器学习的数据分析过程,帮助机器学习算法更好地挖掘出数据背后的结构特征,提供更精准更可靠的决策支持。图数据的这种能力对一些领域格外重要。Google早期使用的搜索算法pageRank就利用了图数据的这种能力,它利用网页间的相互链接信息来决定网页的重要程度。具体来说,被越多网页链接的网页越重要,被越重要的网页链接的网页也越重要。Google利用图数据重新定义了搜索,取得了非常卓越的成功。图数据对阿里巴巴同样意义重大。以阿里巴巴的应用生态为例,天猫包含了用户的在线交易信息,高德地图包含了用户的出行信息,优酷土豆等包含了用户的观影信息,以人为维度将这些信息关联起来可以得到关于某用户的完整信息,以理解用户偏好。图数据模型能够将许多分散的图场景整合起来,形成一个庞大的图结构。阿里巴巴的图结构包含几十亿个点,成百上千亿条边,同时阿里应用巨大的日交易量也使得图结构千变万化,这些都为图数据的计算带来了严峻的挑战。图应用与具体场景相关,阿里巴巴针对不同的应用场景设计了不同的图数据处理算法。以一个很长的数字序列为例,对其进行数据分析的第一步是“看”,即观察该序列可能存在的特征,此外,可能使用特征统计分析该序列包含某数字的个数。更进一步,模式匹配可以探寻该序列中可能存在的模式子串。最后,机器学习算法比如神经网络能帮助挖掘数字序列背后的规律。对该序列进行数据分析能够帮助在线预测相关信息,比如数字序列的下一位数字等。图数据分析方法能帮助洞察图数据,阿里巴巴在图数据方面的应用包括五类。第一类是“看”,下图展示了经敏感信息处理后的阿里巴巴内部使用的可视化平台。真实环境中,商业问题可能存在多方面因素,研判业务问题非常困难。将图结构应用于可视化平台能够整合多维度数据,动态地将多维度数据关联起来,以帮助用户更好地决策。第二类图数据应用是图算法。比如,pageRank算法利用图结构计算每个节点的权重值、连通分支等。连通分支可用于计算具有不同ID的实体,比如手机号、e-mail以及浏览器cookie等是否同属于一个自然人,从而提高企业的广告投放准确率。举例来说,淘宝用户使用浏览器购买商品后,浏览器将记录用户的cookie,下一次用户浏览新浪时,新浪可以根据该cookie获取用户的淘宝ID,从而获取用户的偏好以投放相关广告。连通分支将用户在不同应用的相关信息关联起来,从而更好地了解用户偏好,实现个性化应用。第三类图数据应用是模式,比如基于子图模式的异常检测。图结构将不同表数据关联起来,从而暴露出日志信息无法表露出来的问题。比如,左图揭示了各个用户转账行为间的关联,第二幅图揭示了三个用户与四个商品间频繁的交易模式,这些信息仅依赖系统文本文件中的日志都无法获得。据报道,仅有百分之一的安全漏洞问题能通过日志分析检测出来,日志的单规则信息是不全面的,利用图结构信息关联不同数据非常必要。左图展示了简单的淘宝刷单模式,刷单人为商家刷单后,商家通过支付宝即时支付刷单费用,形成了图结构中的“环”,阿里巴巴通过检测“环”以检测简单的刷单行为。提供刷单服务的公司,大多运营大量的虚假账号来满足刷单请求,每个虚假账号可能同时为多个商品提供刷单服务。阿里巴巴使用图结构来表示用户与商品间的购买行为,k1个用户在一定较短时间内与v2个商品发生完全购买的行为,意味着k1个用户中可能存在大量虚假账号。图结构增强了系统对用户行为的捕捉能力。第四类图数据应用是机器学习,比如利用基于图的机器学习应用实现淘宝推荐。为了计算某个用户对某个商品的兴趣度,阿里巴巴利用商品的重要属性比如标签等计算商品间的相似度,同时对用户的重要属性建模。也就是说,通过用户对相似商品的感兴趣程度预测用户对当前商品的兴趣度,从而实现商品推荐。这些信息无法单纯依赖某张表得到。比如,某用户喜欢夏季羽绒服,同时喜欢某品牌,单纯依赖表信息的商品推荐不会给该用户推荐相关品牌的冬季羽绒服,而连接了两方面信息的图结构则可能推荐该商品,提高了商品推荐的准确度。图结构信息还有利于解决冷启动及结果可解释性等难题。第五类图数据应用是知识图谱,比如基于知识图谱实现在线推理,提供在线智能服务。左边的例子展示了双11期间淘宝的凑单应用,即为用户推荐凑单商品以帮助用户获得满减折扣。阿里巴巴利用商品相似性图,能够方便地计算商品A的所有相似商品,从而实现相似商品推荐。当然,相似商品往往具有相同功能,而已经购买了某商品的用户很可能不愿意重复购买类似商品。因此,阿里巴巴又引入了随机游走机制,通过在商品相似图中以一定概率随机游走来选择推荐商品,平衡商品的相似性和多样性。应用图结构构建知识图谱的另一个例子是天猫精灵。天猫精灵通过构建多种类型的知识图谱来回答用户提出的各种问题,比如娱乐图谱能够展示电影的导演、演员,以及他们的其他电影作品等信息。“李未央”是某电视剧的角色名,假设用户提问“李未央还演了什么电影”,天猫精灵将通过分词得到“李未央”,知识图谱算法允许从“李未央”出发探究相关演员,从而进一步探究相关电影,这是普通的问答系统无法做到的。相比谷歌、微软等公司基于互联网数据构建知识图谱,阿里巴巴利用自身结构化数据来源的高数据质量优点,能够构建出更优质的图谱以实现在线推理。二、大数据系统趋势与挑战早期,大数据技术采用IOE模式,依赖单点运行的Oracle机器等高成本硬件。2009年,MaxCompute使用更低成本的机器集群来解决相同规模的计算问题,提高软件的容灾能力。2012年,实时风控、大屏、视频分析等应用向大数据技术提出了更高的计算时延要求。如今,更丰富的数据使用场景需求使得机器学习与异构信息网络图技术比如关联分析、MaxGraph等得到了发展。不断演化的需求加速了大数据技术的发展。关联分析背后的逻辑架构依赖于一个从一系列数据源构建得到的图模型(Graph model),数据科学家基于该图模型完成离线的数据挖掘任务,业务操作员基于该图模型实现在线推理、提供在线服务,此外,该图模型还根据系统事件实时更新。总的来说,关联分析需要满足多维度的需求。下图展示了基于图结构的开源解决方案。第一幅图展示了图的遍历,用于查询图中各项内容。第二幅图展示了图算法,包括pageRank等。第三幅图展示了模式匹配,第四幅图展示了机器学习。图结构解决方案的开源化追求可扩展性,以处理大规模数据计算任务。构建图应用要求组合多个系统的能力,比如图数据的存储、离线计算引擎以及在线计算服务器等,构建复杂度和运维难度都极高。MaxGraph产品通过实时或离线方式构建关系数据并存储为图结构,从而利用统一的分布式“瞬时计算”引擎来支持辨别、计算、匹配与机器学习等功能。基于MaxGraph提供的功能,一些上层图应用以及智能应用包括关系网络分析等才得以实现。三、图建模与存储下图展示了一个图模型,由点和边构成,并且允许点和边都携带属性。图建模时需要关注数据间的关联。以“电子邮件通信中的异常检测系统”为例,该系统要求在若干个相互发送e-mail的用户行为中检测风险。最直观的图建模方式是将用户建模成图的点,用户间相互发送的e-mail建模成图的边,但这样建模的问题在于图模型中没有体现e-mail这个实体,无法表达“用户自己给自己发送e-mail”等行为。正确的图建模方式应是将e-mail建模成图的点,同时实现e-mail与该e-mail发送者、收件人间的关联。在表达“用户自己给自己发送e-mail”时,将e-mail建模成一点,该点关联的发送者和收件人都指向相同用户。好的建模方式能够在系统规模、问题复杂性提升的情况下依然很好地捕获所有关键信息,满足用户需求。使用这样的建模方式来表达“对回复邮件的回复”行为时,“回复邮件”与“回复邮件的回复”都是e-mail,都应该被建模为图的点,“回复邮件”与相关的“回复邮件的回复”存在回复与被回复关系,应建模为边。判断图建模合理与否的关键在于判断图模型能否表达相关需求,比如,本示例中的图模型能否表达“热烈的邮件讨论”行为等。阿里巴巴采用分布式图存储来存储图模型的相关数据。四、图查询语言简介寻找具有某特点的“点集合”或者“边集合”是图数据查询的常见应用。图查询语言“Gremlin”可用于遍历图,寻找相关“点集合”或“边集合”,并基于获得的集合进行“groupby”等操作来构造最终查询结果。阿里巴巴优化了图查询语言,使得系统可以快速地实现复杂数据结构的查询。最新的竞品分析显示,“Gremlin”图查询语言具有数据加载快、可扩展与低延迟德等优点。五、全图计算与分析-高层语言除了图查询,全图计算与分析也是图应用的难点,阿里巴巴提供了类似SQL的抽象语言FLASH来降低全图计算的难度。阿里巴巴的抽象语言FLASH引入了循环语句,具有比SQL更强大的表达能力,将FLASH应用于连通分支算法,仅需几行代码就可以实现该算法功能。相比之下,使用C++语言实现连通分支算法所需要的代码量更大。下图展示了目前已验证的FLASH抽象语言可表达的所有算法。另外,阿里还使用Flink评估了FLASH语言的表达能力。左表第二列是使用Gelly语言实现相关算法使用的代码行数,第三列是使用FLASH语言实现相同算法所用的代码行数。总的来说,FLASH语言实现相同算法所需要的代码行数仅为Gelly语言的1/10甚至1/20,但两种实现语言带来的系统开销是几乎一致的。六、场景示例阿里云网络安全引入图结构以构建知识图谱,包括域名、主机IP、域名服务器等信息。引入图结构有利于在海量信息中及时发现网络中的隐藏模式,从而发现漏洞和威胁。相关实验显示,将海量数据预先构建成图再实时查询仅需500毫秒,相反,不预先将海量数据构建成图而采用SQL查询所需的时间高达80分钟,图结构能为查询带来数量级的性能提升,从而给业务带来质的变化。图技术在美国同样引起了广泛关注。最新数据显示,76%的FORTUNE 100语言都采用了图技术,排名前25的金融企业中有20家都利用图技术呈现交易信息。总的来说,图计算是大数据计算的有效工具,图数据能够提供更精准、更可靠的信息,以增强大数据分析能力,图计算将变得越来越重要。成功的图应用离不开建模、查询和系统优化等多个方面,大规模的动态图计算还存在许多问题尚未解决,未来阿里巴巴将致力于在这些方面做出贡献,为图应用开发者们带来福音。阿里巴巴发展图计算依赖于“横向”和“纵向”两个方面的合作,一方面,“横向”需要和阿里巴巴内部的硬件、网络等团队合作,以利用现有技术优化图计算的性能,从而给业务带来质的突破。另一方面,“纵向”需要和行业内领域专家紧密合作,利用图结构解决企业真实问题,使技术为业务赋能、创造更多价值。本文作者:晋恒阅读原文本文为云栖社区原创内容,未经允许不得转载。

February 18, 2019 · 1 min · jiezi

美团餐饮娱乐知识图谱——美团大脑揭秘

前言“ I’m sorry. I can’t do that, Dave.” 这是经典科幻电影《2001: A Space Odyssey》里HAL 9000机器人说的一句话,浓缩了人类对终极人工智能的憧憬。让机器学会说这样简单一句话,需要机器具备情感认知、自我认识以及对世界的认识,来辅助机器处理接收到的各种信息,了解信息背后的意思,从而生成自己的决策。而这些认知模块的基础,都需要机器具备知识学习组织推理的能力,知识图谱就是为实现这些目标而生。今年5月,美团NLP中心开始构建大规模的餐饮娱乐知识图谱——美团大脑,它将充分挖掘关联各个场景数据,用AI技术让机器“阅读”用户评论数据,理解用户在菜品、价格、服务、环境等方面的喜好,挖掘人、店、商品、标签之间的知识关联,从而构建出一个“知识大脑”。美团大脑已经在公司多个业务中初步落地,例如智能搜索推荐、智能金融、智能商户运营等。此前,《美团大脑:知识图谱的建模方法及其应用》一文,介绍了知识图谱的分类及其具体应用,尤其是常识性知识图谱及百科全书式知识图谱分别是如何使用的。之后我们收到非常多的反馈,希望能进一步了解“美团大脑”的细节。为了让大家更系统地了解美团大脑,NLP中心会在接下来一段时间,陆续分享一系列技术文章,包括知识图谱相关的技术,美团大脑背后的算法能力,千亿级别图引擎建设以及不同应用场景的业务效果等等,本文是美团大脑系列的第一篇文章。迈向认知智能海量数据和大规模分布式计算力,催生了以深度学习为代表的第三次(1993-目前)人工智能高潮。Web 2.0产生的海量数据给机器学习和深度学习技术提供了大量标注数据,而GPU和云计算的发展为深度学习的复杂数值计算提供了必要算力条件。深度学习技术在语音、图像领域均取得了突破性的进展,这表示学习技术成果使得机器首次在感知能力上达到甚至超越了人类的水平,人工智能已经进入感知智能阶段。然而,随着深度学习被广泛应用,其局限性也愈发明显。缺乏可解释性:神经网络端到端学习的“黑箱”特性使得很多模型不具有可解释性,导致很多需要人去参与决策,在这些应用场景中机器结果无法完全置信而需要谨慎的使用,比如医学的疾病诊断、金融的智能投顾等等。这些场景属于低容错高风险场景,必须需要显示的证据去支持模型结果,从而辅助人去做决策。常识(Common Sense)缺失:人的日常活动需要大量的常识背景知识支持,数据驱动的机器学习和深度学习,它们学习到的是样本空间的特征、表征,而大量的背景常识是隐式且模糊的,很难在样本数据中进行体现。比如下雨要打伞,但打伞不一定都是下雨天。这些特征数据背后的关联逻辑隐藏在我们的文化背景中。缺乏语义理解。模型并不理解数据中的语义知识,缺乏推理和抽象能力,对于未见数据模型泛化能力差。依赖大量样本数据:机器学习和深度学习需要大量标注样本数据去训练模型,而数据标注的成本很高,很多场景缺乏标注数据来进行冷启动。图1 数据知识驱动AI能力对比从人工智能整体发展来说,综上的局限性也是机器从感知智能向认知智能的迁跃的过程中必须解决的问题。认知智能需要机器具备推理和抽象能力,需要模型能够利用先验知识,总结出人可理解、模型可复用的知识。机器计算能力整体上需要从数据计算转向知识计算,知识图谱就显得必不可少。知识图谱可以组织现实世界中的知识,描述客观概念、实体、关系。这种基于符号语义的计算模型,一方面可以促成人和机器的有效沟通,另一方面可以为深度学习模型提供先验知识,将机器学习结果转化为可复用的符号知识累积起来。知识究竟是什么呢?知识就是有结构的信息。人从数据中提取有效信息,从信息中提炼有用知识,信息组织成了结构就有了知识。知识工程,作为代表人工智能发展的主要研究领域之一,就是机器仿照人处理信息积累知识运用知识的过程。而知识图谱就是知识工程这一领域数十年来的代表性研究方向。在数据还是稀有资源的早期,知识图谱的研究重点偏向语义模型和逻辑推理,知识建模多是自顶向下的设计模式,语义模型非常复杂。其中典型工作,是在1956年人工智能学科奠基之会——达特茅斯会议上公布的“逻辑理论家”(Logic Theorist)定理证明程序,该程序可以证明《数学原理》中的部分定理。伴随着Web带来前所未有的数据之后,知识图谱技术的重心从严谨语义模型转向海量事实实例构建,图谱中知识被组织成<主,谓,宾>三元组的形式,来表征客观世界中的实体和实体之间的关系。比如像名人的维基百科词条页面中,Infobox卡片都会描述该名人的国籍信息,其结构就是<人,国籍,国家>这样的三元组。图2 互联网公司知识图谱布局目前,知识图谱已被广泛应用在问答、搜索、推荐等系统,已涉及金融、医疗、电商等商业领域,图谱技术成为“兵家必争”之地。微软于2010年开始构建Satori知识图谱来增强Bing搜索;Google在2012年提出 Knowledge Graph概念,用图谱来增强自己的搜索引擎;2013年Facebook发布Open Graph应用于社交网络智能搜索;2015年阿里巴巴开始构建自己的电商领域知识图谱;2016年Amazon也开始构建知识图谱。图3 美团大脑2018年5月,美团点评NLP中心开始构建大规模的餐饮娱乐知识图谱——美团大脑。美团点评作为中国最大的在线本地生活服务平台,覆盖了餐饮娱乐领域的众多生活场景,连接了数亿用户和数千万商户,积累了宝贵的业务数据,蕴含着丰富的日常生活相关知识。在建的美团大脑知识图谱目前有数十类概念,数十亿实体和数百亿三元组,美团大脑的知识关联数量预计在未来一年内将上涨到数千亿的规模。美团大脑将充分挖掘关联各个场景数据,用AI技术让机器“阅读”用户评论和行为数据,理解用户在菜品、价格、服务、环境等方面的喜好,构建人、店、商品、场景之间的知识关联,从而形成一个“知识大脑”。相比于深度学习的“黑盒子”,知识图谱具有很强的可解释性,在美团跨场景的多个业务中应用性非常强,目前已经在搜索、金融等场景中初步验证了知识图谱的有效性。近年来,深度学习和知识图谱技术都有很大的发展,并且存在一种互相融合的趋势,在美团大脑知识构建过程中,我们也会使用深度学习技术,把数据背后的知识挖掘出来,从而赋能业务,实现智能化的本地生活服务,帮助每个人“Eat Better, Live Better”。知识图谱技术链图4 知识图谱技术链知识图谱的源数据来自多个维度。通常来说,结构化数据处理简单、准确率高,其自有的数据结构设计,对数据模型的构建也有一定指导意义,是初期构建图谱的首要选择。世界知名的高质量的大规模开放知识库如Wikidata、DBPedia、Yago是构建通用领域多语言知识图谱的首选,国内有OpenKG提供了诸多中文知识库的Dump文件或API。工业界往往基于自有的海量结构化数据,进行图谱的设计与构建,并同时利用实体识别、关系抽取等方式处理非结构化数据,增加更多丰富的信息。知识图谱通常以实体为节点形成一个大的网络,图谱的Schema相当于数据模型,描述了领域下包含的类型(Type),与类型下描述实体的属性(Property),Property中实体与实体之间的关系为边(Relation),实体自带信息为属性(Attribute)。除此之外Schema也会描述它们的约束关系。美团大脑围绕用户打造吃喝玩乐全方面的知识图谱,从实际业务需求出发,在现有数据表之上抽象出数据模型,以商户、商品、用户等为主要实体,其基本信息作为属性,商户与商品、与用户的关联为边,将多领域的信息关联起来,同时利用评论数据、互联网数据等,结合知识获取方法,填充图谱信息,从而提供更加多元化的知识。知识获取知识获取是指从不同来源、不同结构数据中,抽取相关实体、属性、关系、事件等知识。从数据结构划分可以分为结构化数据、半结构化数据和纯文本数据。结构化数据指的关系型数据库表示和存储的的二维形式数据,这类数据可以直接通过Schema融合、实体对齐等技术将数据提取到知识图谱中。半结构化数据主要指有相关标记用来分隔语义元素,但又不存在数据库形式的强定义数据,如网页中的表格数据、维基百科中的Infobox等等。这类数据通过爬虫、网页解析等技术可以将其转换为结构化数据。现实中结构化、半结构化数据都比较有限,大量的知识往往存在于文本中,这也和人获取知识的方式一致。对应纯文本数据获取知识,主要包括实体识别、实体分类、关系抽取、实体链接等技术。实体作为知识图谱的核心单位,从文本中抽取实体是知识获取的一个关键技术。文本中识别实体,一般可以作为一个序列标注问题来进行解决。传统的实体识别方法以统计模型如HMM、CRF等为主导,随着深度学习的兴起,BiLSTM+CRF[1]模型备受青睐,该模型避免了传统CRF的特征模版构建工作,同时双向LSTM能更好地利用前后的语义信息,能够明显提高识别效果。在美团点评-美食图谱子领域的建设中,每个店家下的推荐菜(简称店菜)是图谱中的重要实体之一,评论中用户对店菜的评价,能很好地反映用户偏好与店菜的实际特征,利用知识获取方法,从评论中提取出店菜实体、用户对店菜的评价内容与评价情感,对补充实体信息、分析用户偏好、指导店家进行改善有着非常重要的意义。图5 BiLSTM+CRF模型实体分类则是对抽取出的实体进行归类。当从文本中发现一个新的实体,给实体相应的Type是实体概念化的基本目标。比如用该实体的上下文特征与其他Type下的实体特征进行对比,将新实体归入最相似的Type中。此外,在Schema不完善的情况下,对大量实体进行聚类,进而抽象出每个簇对应的Type,是自底向上构建图谱的一个常用方法,在补充Type层的同时,也顺便完成了实体归类。关系抽取,是从文本中自动抽取实体与实体之间的特定的语义关系,以补充图谱中缺失的关系,例如,从“干酪鱼原来是奶酪做的”中抽取出<干酪鱼,食材,奶酪>。关系抽取可以通过定义规则模版来获取,如匹配某种表达句式、利用文法语义特征等,但规则类方法消耗大量人力,杂质较多。基于Bootstrap Learning的方法利用少量种子实例或模版抽取新的关系,再利用新的结果生成更多模版,如此迭代,KnowItAll[2]、TextRunner[3]基于这类思想;远程监督(Distant Supervision)方法[4]把现有的三元组信息作为种子,在文本中匹配同时含有主语和宾语的信息,作为关系的标注数据。这两种方法解决了人力耗费问题,但准确率还有待提高。近期的深度学习方法则基于联合模型思想,利用神经网络的端对端模型,同时实现实体识别和关系抽取5,从而避免前期实体识别的结果对关系抽取造成的误差累积影响。知识校验知识校验贯穿整个知识图谱的构建过程。在初期的Schema设计过程中,需要严格定义Type下的Property,Property关联的是属性信息还是实体,以及实体所属的Type等等。Schema若不够规范,会导致错误传达到数据层且不易纠错。在数据层,通过源数据获取或者通过算法抽取的知识或多或少都包含着杂质,可以在Schema层面上,添加人工校验方法与验证约束规则,保证导入数据的规范性,比如对于<店A,包含,店菜B>关系,严格要求主语A的Type是POI,宾语B的Type是Dish。而对于实体间关系的准确性,如上下位关系是否正确、实例的类型是否正确,实例之间的关系是否准确等,可以利用实体的信息与图谱中的结构化信息计算一个关系的置信度,或看作关系对错与否的二分类问题,比如<店A, 适合, 情侣约会>,对于“情侣约会”标签,利用店A的信息去计算一个权重会使得数据更有说服力。此外,如果涉及到其他来源的数据,在数据融合的同时进行交叉验证,保留验证通过的知识。当图谱数据初步成型,在知识应用过程中,通过模型结果倒推出的错误,也有助于净化图谱中的杂质,比如知识推理时出现的矛盾,必然存在知识有误的情况。知识融合知识融合主要解决多源异构数据整合问题,即从不同来源、不同结构但表达统一实体或概念的数据融合为一个实体或概念。融入来自多源数据的知识,必然会涉及知识融合工作,实体融合主要涉及Schema融合、实体对齐、实体链接等技术。Schema是知识图谱的模型,其融合等价于Type层的合并和Property的合并。在特定领域的图谱中,Type与Property数量有限,可以通过人工进行合并。对于实例的对齐,可以看作一个寻找Top匹配的实例的排序问题,或者是否匹配的二分类问题,其特征可以基于实体属性信息、Schema结构化信息、语义信息等来获取。实体对齐是多源数据融合中的重要过程。当数据来自于不同的知识库体系,需要分辨其描述的是同一个实体,将相关信息融合,最终生成该知识库中唯一的实体。这通常是一个求最相似问题或判断两个实体是否是同一个的二分类问题,实体名称、实体携带属性以及其结构化信息,都可以作为有用特征。同时,通过Type或规则限制,缩小匹配的实体范围。一旦图谱构建完成,如何从文本中准确匹配上图谱中相应的实体,进而延伸出相关的背景知识,则是一个实体链接问题。实体链接[7] 主要依赖于实体Entity与所有Mention(文本文档中实体的目标文本)的一个多对多的映射关系表, 如 “小龙虾”这个Mention在图谱中实际对应的实体Entity可能是“麻辣小龙虾”的菜,也可能是“十三香小龙虾”的菜。对于从文本中识别出的Mention,利用上下文等信息,对其候选Entity进行排序,找出最可能的Entity。实体链接可以正确地定位用户所提实体,理解用户真实的表达意图,从而进一步挖掘用户行为,了解用户偏好。图6 实体链接(Entity Linking)美团大脑也参考并融入了多源的数据信息,知识融合是构建图谱的一个重要步骤。以美食领域子图谱为例,该图谱是由结构化数据和文本挖掘出来的知识融合而成,首要任务是将图谱中已构建的菜品通过菜名、口味、食材等方面的相似度将菜品与文本挖掘出来的菜品知识进行关联,其次还要对无法关联的菜品知识聚类抽象成一个菜品实体。知识的融合很大程度上增加了菜品的数量,丰富了菜品信息,同时为实体链接的映射关系表提供了候选对,有助于我们在搜索过程中,支持更多维度(如口味、食材)的查询。知识表示知识表示是对知识数据的一种描述和约定,目的是让计算机可以像人一样去理解知识,从而可以让计算机进一步的推理、计算。大多数知识图谱是以符号化的方法表示,其中RDF是最常用的符号语义表示模型,其一条边对于一个三元组<主语Subject,谓语Predicate,宾语Object>,表达一个客观事实,该方法直观易懂,具备可解释性,支持推理。而随着深度学习的发展,基于向量表示的Embedding算法逐渐兴起,其为每个实体与关系训练一个可表征的向量,该方法易于进行算法学习,可表征隐形知识并进一步发掘隐形知识。常用的Embedding模型有Word2Vec与Trans系列8,将会在之后的系列文章里进一步讲解。美团大脑参考Freebase的建模思想,以< Subject,Predicate,Object>的三元组形式将海量知识存储在分布式数据仓库中,并以CVT(Compound Value Type)设计承载多元数据,即抽象一个CVT的实例来携带多元信息,图为一个知识表示的例子。与此同时,美团大脑基于上亿节点计算Graph Embedding的表征,并将结果应用到搜索领域中。图7 美团大脑知识表示知识推理基于知识图谱的推理工作,旨在依据现有的知识信息推导出新知识,包括实体关系、属性等,或者识别出错误关系。可以分为基于符号的推理与基于统计的推理,前者一般根据经典逻辑创建新的实体关系的规则,或者判断现有关系的矛盾之处,后者则是通过统计规律从图谱中学到新的实体关系。利用实体之间的关系可以推导出一些场景,辅助进行决策判断。美团大脑金融子图谱利用用户行为、用户关系、地理位置去挖掘金融领域诈骗团伙。团伙通常会存在较多关联及相似特性,图谱中的关系可以帮助人工识别出多层、多维度关联的欺诈团伙,再利用规则等方式,识别出批量具有相似行为的客户,辅助人工优化调查,同时可以优化策略。图8 知识推理在金融场景应用知识赋能知识图谱含有丰富的语义信息,对文本有基于语义的更为深入的理解,在推荐、搜索、问答等领域能提供更加直接与精确的查询结果,使得服务更加智能化。个性化推荐通过实体与实体之间的关系,利用用户感兴趣的实体,进一步扩展用户偏好的相似的实体,提供可解释性的推荐内容。一方面,图谱提供了实体在多个维度的特征信息,另一方面,表示学习向量带有一定的语义信息,使得寻找推荐实体更接近目标实体或更偏向用户喜好。语义搜索,是指搜索引擎对Query的处理不再拘泥于字面本身,而是抽象出其中的实体、查询意图,通过知识图谱直接提供用户需要的答案,而不只是提供网页排序结果,更精准的满足用户的需求。当前Google、百度、神马搜索都已经将基于知识图谱的语义搜索融入到搜索引擎中,对于一些知识性内容的查找,能智能地直接显示结果信息。美团大脑的业务应用依托深度学习模型,美团大脑充分挖掘、关联美团点评各个业务场景公开数据(如用户评价、菜品、标签等),正在构建餐饮娱乐“知识大脑”,并且已经开始在美团不同业务中进行落地,利用人工智能技术全面提升用户的生活体验。智能搜索:帮助用户做决策知识图谱可以从多维度精准地刻画商家,已经在美食搜索和旅游搜索中应用,为用户搜索出更适合Ta的店。基于知识图谱的搜索结果,不仅具有精准性,还具有多样性,例如:当用户在美食类目下搜索关键词“鱼”,通过图谱可以认知到用户的搜索词是“鱼”这种“食材”。因此搜索的结果不仅有“糖醋鱼”、“清蒸鱼”这样的精准结果,还有“赛螃蟹”这样以鱼肉作为主食材的菜品,大大增加了搜索结果的多样性,提升用户的搜索体验。并且对于每一个推荐的商家,能够基于知识图谱找到用户最关心的因素,从而生成“千人千面”的推荐理由,例如在浏览到大董烤鸭店的时候,偏好“无肉不欢”的用户A看到的推荐理由是“大董的烤鸭名不虚传”,而偏好“环境优雅”的用户B,看到的推荐理由就是“环境小资,有舞台表演”,不仅让搜索结果更具有解释性,同时也能吸引不同偏好的用户进入商家。图9 知识图谱在点评搜索中应用对于场景化搜索,知识图谱也具有很强的优势,以七夕节为例,通过知识图谱中的七夕特色化标签,如约会圣地、环境私密、菜品新颖、音乐餐厅、别墅餐厅等等,结合商家评论中的细粒度情感分析,为美团搜索提供了更多适合情侣过七夕节的商户数据,用于七夕场景化搜索的结果召回与展示,极大的提升了用户体验和用户点击转化。在NLP中心以及大众点评搜索智能中心两个团队的紧密合作下,依赖知识图谱技术和深度学习技术对搜索架构进行了整体的升级。经过5个月时间,点评搜索核心指标在高位基础上,仍然有非常明显的提升。ToB商户赋能:商业大脑指导店老板决策美团大脑正在应用于SaaS收银系统专业版,通过机器智能阅读每个商家的每一条评论,可以充分理解每个用户对于商家的感受,针对每个商家将大量的用户评价进行归纳总结,从而可以发现商家在市场上的竞争优势/劣势、用户对于商家的总体印象趋势、商家的菜品的受欢迎程度变化。进一步,通过细粒度用户评论全方位分析,可以细致刻画商家服务现状,以及对商家提供前瞻性经营方向。这些智能经营建议将通过美团SaaS收银系统专业版定期触达到各个商家,智能化指导商家精准优化经营模式。传统给店老板提供商业分析服务中主要聚焦于单店的现金流、客源分析。美团大脑充分挖掘了商户及顾客之间的关联关系,可以提供围绕商户到顾客,商户到所在商圈的更多维度商业分析,在商户营业前、营业中以及将来经营方向,均可以提供细粒度运营指导。在商家服务能力分析上,通过图谱中关于商家评论所挖掘的主观、客观标签,例如“服务热情”、“上菜快”、“停车免费”等等,同时结合用户在这些标签所在维度上的Aspect细粒度情感分析,告诉商家在哪些方面做的不错,是目前的竞争优势;在哪些方面做的还不够,需要尽快改进。因而可以更准确地指导商家进行经营活动。更加智能的是,美团大脑还可以推理出顾客对商家的认可程度,是高于还是低于其所在商圈的平均情感值,让店老板一目了然地了解自己的实际竞争力。在消费用户群体分析上,美团大脑不仅能够告诉店老板来消费的顾客的年龄层、性别分布,还可以推理出顾客的消费水平,对于就餐环境的偏好,适合他们的推荐菜,让店老板有针对性的调整价格、更新菜品、优化就餐环境。金融风险管理和反欺诈:从用户行为建立征信体系知识图谱的推理能力和可解释性,在金融场景中具有天然的优势,NLP中心和美团金融共建的金融好用户扩散以及用户反欺诈,就是利用知识图谱中的社区发现、标签传播等方法来对用户进行风险管理,能够更准确的识别逾期客户以及用户的不良行为,从而大大提升信用风险管理能力。在反欺诈场景中,知识图谱已经帮助金融团队在案件调查中发现并确认多个欺诈案件。由于团伙通常会存在较多关联及相似特性,关系图可以帮助识别出多层、多维度关联的欺诈团伙,能通过用户和用户、用户和设备、设备和设备之间四度、五度甚至更深度的关联关系,发现共用设备、共用Wi-Fi来识别欺诈团伙,还可在已有的反欺诈规则上进行推理预测可疑设备、可疑用户来进行预警,从而成为案件调查的有力助手。未来的挑战知识图谱建设过程是美团第一次摸索基于图的构建/挖掘/存储/应用过程,也遇到了很多挑战,主要的挑战和应对思路如下: (1)数据生成与导入难点:Schema构建和更新;数据源多,数据不一致问题;数据质检。应对思路:通过针对不同的数据进行特定清洗,元数据约束校验、业务逻辑正确性校验等,设置了严格的数据接入和更新规范。(2)知识挖掘难点:知识的融合、表征、推理和验证。应对思路:通过借鉴文本中的词向量表征,为知识建立统一的语义空间表征,使得语义可计算,基于深度学习和知识表示的算法进行推理。(3)百亿图存储及查询引擎难点:数据的存储、查询和同步,数据量极大,没有成熟开源引擎直接使用。应对思路:构建分层增量系统,实时增量、离线增量、全量图三层Merge查询,减少图更新影响范围。同时建设完整的容灾容错、灰度、子图回滚机制。基于LBS等业务特点合理切分子图View,构建分布式图查询索引层。(4)知识图谱应用挑战难点:算法设计,系统实现难和实时应用。应对思路:知识图谱的应用算法则需要有效融合数据驱动和知识引导,才能提升算法效果和提供更好的解释性,属于研究前沿领域。百亿甚至千亿关系规模下,需要设计和实现分布式的图应用算法,这对算法和系统都有重大的挑战。总而言之,为打造越来越强大的美团大脑,NLP中心一方面利用业界前沿的算法模型来挖掘关联以及应用知识,另一方面,也在逐步建立国内领先的商业化分布式图引擎系统,支撑千亿级别知识图谱的实时图查询、图推理和图计算。在未来的系列文章中,NLP中心将一一揭秘这背后的创新性技术,敬请期待。参考文献[1] Huang, Zhiheng, Wei Xu, and Kai Yu. “Bidirectional LSTM-CRF models for sequence tagging.” arXiv preprint arXiv:1508.01991 (2015).[2] Etzioni, Oren, et al. “Unsupervised named-entity extraction from the web: An experimental study.” Artificial intelligence165.1 (2005): 91-134.[3] Banko, Michele, et al. “Open information extraction from the web.” IJCAI. Vol. 7. 2007.[4] Mintz, Mike, et al. “Distant supervision for relation extraction without labeled data.” Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP: Volume 2-Volume 2. Association for Computational Linguistics, 2009.[5] Zheng, Suncong, et al. “Joint entity and relation extraction based on a hybrid neural network.” Neurocomputing 257 (2017): 59-66.[6] Zheng, Suncong, et al. “Joint extraction of entities and relations based on a novel tagging scheme.” arXiv preprint arXiv:1706.05075 (2017).[7] Shen, Wei, Jianyong Wang, and Jiawei Han. “Entity linking with a knowledge base: Issues, techniques, and solutions.” IEEE Transactions on Knowledge and Data Engineering 27.2 (2015): 443-460.[8] Bordes, Antoine, et al. “Translating embeddings for modeling multi-relational data.” Advances in neural information processing systems. 2013.[9] Wang, Zhen, et al. “Knowledge Graph Embedding by Translating on Hyperplanes.” AAAI. Vol. 14. 2014.作者简介仲远,博士,美团AI平台部NLP中心负责人,点评搜索智能中心负责人。在国际顶级学术会议发表论文30余篇,获得ICDE 2015最佳论文奖,并是ACL 2016 Tutorial “Understanding Short Texts”主讲人,出版学术专著3部,获得美国专利5项。此前,博士曾担任微软亚洲研究院主管研究员,以及美国Facebook公司Research Scientist。曾负责微软研究院知识图谱、对话机器人项目和Facebook产品级NLP Service。富峥,博士,美团AI平台NLP中心研究员,目前主要负责美团大脑项目。在此之前,博士在微软亚洲研究院社会计算组担任研究员,并在相关领域的顶级会议和期刊上发表30余篇论文,曾获ICDM2013最佳论文大奖,出版学术专著1部。 张富峥博士曾担任ASONAM的工业界主席,IJCAI、WSDM、SIGIR等国际会议和TKDE、TOIS、TIST等国际期刊的评审委员。王珺,博士,美团AI平台NLP中心产品和数据负责人。在此之前,王珺在阿里云负责智能顾问多产品线,推动建立了阿里云智能服务体系。明洋,硕士,美团AI平台NLP中心知识图谱算法工程师。2016年毕业于清华大学计算机系知识工程实验室。思睿,硕士,美团AI平台NLP中心知识图谱算法专家。此前在百度AIG知识图谱部负责知识图谱、NLP相关算法研究,参与了百度知识图谱整个构建及落地过程。一飞,负责AI平台NLP中心知识图谱产品。目前主要负责美团大脑以及知识图谱落地项目。梦迪,美团AI平台NLP中心知识图谱算法工程师,此前在金融科技公司文因互联任高级工程师及开放数据负责人,前清华大学知识工程实验室研究助理,中文开放知识图谱联盟OpenKG联合发起人。招聘信息美团点评 NLP 团队招聘各类算法人才,Base 北京上海均可。NLP 中心使命是打造世界一流的自然语言处理核心技术和服务能力,依托 NLP(自然语言处理)、Deep Learning(深度学习)、Knowledge Graph(知识图谱)等技术,处理美团点评海量文本数据,打通餐饮、旅行、休闲娱乐等各个场景数据,构建美团点评知识图谱,搭建通用 NLP Service,为美团点评各项业务提供智能的文本语义理解服务。我们的团队既注重AI技术的落地,也开展中长期的NLP及知识图谱基础研究。目前项目及业务包括美团点评知识图谱、智能客服、语音语义搜索、文章评论语义理解、美团点评智能助理等。真正助力于“帮大家吃得更好,生活更好”企业使命的实现,优化用户的生活体验,改善和提升消费者的生活品质。欢迎各位朋友推荐或自荐至 hr.ai@meituan.com。算法岗:NLP算法工程师/专家/研究员 、知识图谱算法工程师/专家/研究员工程岗:C++/Java研发专家/工程师 、AI平台研发工程师/专家产品岗:AI产品经理/专家(NLP、数据方向) ...

November 23, 2018 · 2 min · jiezi

美团大脑:知识图谱的建模方法及其应用

作为人工智能时代最重要的知识表示方式之一,知识图谱能够打破不同场景下的数据隔离,为搜索、推荐、问答、解释与决策等应用提供基础支撑。美团大脑围绕吃喝玩乐等多种场景,构建了生活娱乐领域超大规模的知识图谱,为用户和商家建立起全方位的链接。我们美团希望能够通过对应用场景下的用户偏好和商家定位进行更为深度的理解,进而为大众提供更好的智能化服务,帮大家吃得更好,生活更好。近日,美团 AI 平台部 NLP 中心负责人、大众点评搜索智能中心负责人王仲远博士受邀在 AI 科技大本营做了一期线上分享,为大家讲解了美团大脑的设计思路、构建过程、目前面临的挑战,以及在美团点评中的具体应用与实践,其内容整理如下:知识图谱的重要性近年来,人工智能正在快速地改变人们的生活,可以看到各家科技公司都纷纷推出人工智能产品或者系统,比如说在 2016 年,谷歌推出的 AlphaGo ,一问世便横扫整个围棋界,完胜了人类冠军。又比如亚马逊推出的 Amazon Go 无人超市,用户只需下载一个 App,走进这家超市,就可以直接拿走商品,无需排队结账便可离开,这是人工智能时代的“新零售”体验。又比如微软推出的 Skype Translator,它能够帮助使用不同语言的人群进行实时的、无障碍的交流。再比如说苹果推出的 Siri 智能助理,它让每一个用苹果手机的用户都能够非常便捷地完成各项任务。所有这些人工智能产品的出现都依赖于背后各个领域技术突飞猛进的进展,包括机器学习、计算机视觉、语音识别、自然语言处理等等。作为全球领先的生活服务电子商务平台,美团点评在人工智能领域也在积极地进行布局。今年 2 月份,AI 平台部 NLP 中心正式成立,我们的愿景是用人工智能帮大家吃得更好,生活更好。语言是人类智慧的结晶,而自然语言处理是人工智能中最为困难的问题之一,其核心是让机器能像人类一样理解和使用语言。我们希望在不久的将来,当用户发表一条评价的时候,能够让机器阅读这条评价,充分理解用户的喜怒哀乐。当用户进入大众点评的一个商家页面时,面对成千上万条用户评论,我们希望机器能够代替用户快速地阅读这些评论,总结商家的情况,供用户进行参考。未来,当用户有任何餐饮、娱乐方面的决策需求的时候,美团点评能够提供人工智能助理服务,帮助用户快速的进行决策。所有这一切,都依赖于人工智能背后两大技术驱动力:深度学习和知识图谱。我们可以将这两个技术进行一个简单的比较:我们将深度学习归纳为隐性的模型,它通常是面向某一个具体任务,比如说下围棋、识别猫、人脸识别、语音识别等等。通常而言,在很多任务上它能够取得非常优秀的结果,同时它也有非常多的局限性,比如说它需要海量的训练数据,以及非常强大的计算能力,难以进行任务上的迁移,而且可解释性比较差。另一方面,知识图谱是人工智能的另外一大技术驱动力,它能够广泛地适用于不同的任务。相比深度学习,知识图谱中的知识可以沉淀,可解释性非常强,类似于人类的思考。我们可以通过上面的例子,来观察深度学习技术和人类是如何识别猫的,以及它们的过程有哪些区别。2012 年,Google X 实验室宣布使用深度学习技术,让机器成功识别了图片中的猫。它们使用了 1000 台服务器,16000 个处理器,连接成一个 10 亿节点的人工智能大脑。这个系统阅读了 1000 万张从 YouTube 上抽取的图片,最终成功识别出这个图片中有没有猫。我们再来看看人类是如何做的。对于一个 3 岁的小朋友,我们只需要给他看几张猫的图片,他就能够很快识别出不同图片中的猫,而这背后其实就是大脑对于这些知识的推理。2011 年,Science 上有一篇非常出名的论文叫《How to Grow a Mind》。这篇论文的作者来自于 MIT、CMU、UC Berkeley、Stanford 等美国名校的教授。在这篇论文里,最重要的一个结论就是:如果我们的思维能够跳出给定的数据,那么必须有 Another Source Of Information 来 Make Up The Difference。这里的知识语言是什么?对于人类来讲,其实就是我们从小到大接受的学校教育,报纸上、电视上看到的信息,通过社交媒体,通过与其他人交流,不断积累起来的知识。近年来,不管是学术界还是工业界都纷纷构建自家的知识图谱,有面向全领域的知识图谱,也有面向垂直领域的知识图谱。其实早在文艺复兴时期,培根就提出了“知识就是力量”,在当今人工智能时代,各大科技公司更是纷纷提出:知识图谱就是人工智能的基础。 全球的互联网公司都在积极布局知识图谱。早在 2010 年微软就开始构建知识图谱,包括 Satori 和 Probase。2012 年,Google 正式发布了 Google Knowledge Graph,现在规模已经达到 700 亿左右。目前微软和 Google 拥有全世界最大的通用知识图谱,Facebook 拥有全世界最大的社交知识图谱,而阿里巴巴和亚马逊则分别构建了商品知识图谱。如果按照人类理解问题和回答问题这一过程来进行区分,我们可以将知识图谱分成两类。我们来看这样一个例子,如果用户看到这样一个问题,“Who was the U.S. President when the Angels won the World Series?”相信所有的用户都能够理解这个问题,也就是当 Angels 队赢了 World Series 的时候,谁是美国的总统?这是一个问题理解的过程,它所需要的知识通常我们称之为 Common Sense Knowledge(常识性知识)。另外一方面,很多网友可能回答不出这个问题,因为它需要另外一个百科全书式的知识。因此,我们将知识图谱分成两大类,一类叫 Common Sense Knowledge Graph(常识知识图谱),另外一类叫 Encyclopedia Knowledge Graph(百科全书知识图谱)。这两类知识图谱有很明显的区别。针对 Common Sense Knowledge Graph,通常而言,我们会挖掘这些词之间的 Linguistic Knowledge;对于 Encyclopedia Knowledge Graph,我们通常会在乎它的 Entities 和这些 Entities 之间的 Facts。对于 Common Sense Knowledge Graph,一般而言我们比较在乎的 Relation 包括 isA Relation、isPropertyOf Relation。对于 Encyclopedia Knowledge Graph,通常我们会预定义一些谓词,比如说 DayOfbirth、LocatedIn、SpouseOf 等等。对于 Common Sense Knowledge Graph 通常带有一定的概率,但是 Encyclopedia Knowledge Graph 通常就是“非黑即白”,那么构建这种知识图谱时,我们在乎的就是 Precision(准确率)。Common Sense Knowledge Graph 比较有代表性的工作包括 WordNet、KnowItAll、NELL 以及 Microsoft Concept Graph。而 Encyclopedia Knowledge Graph 则有 Freepase、Yago、Google Knowledge Graph 以及正在构建中的“美团大脑”。这里跟大家介绍两个代表性工作:1)Common Sense Knowledge Graph:Probase;2)Encyclopedia Knowledge Graph:美团大脑。常识性知识图谱(Common Sense Knowledge Graph)Microsoft Concept Graph 于 2016 年 11 月正式发布,但是它早在 2010 年就已经开始进行研究,是一个非常大的图谱。在这个图谱里面有上百万个 Nodes(节点),这些 Nodes 有Concepts(概念),比如说 Spanish Artists(西班牙艺术家);有 Entities(实体),比如说 Picasso(毕加索);有 Attributes(属性),比如 Birthday(生日);有 Verbs(动词),有 Adjectives(形容词),比如说 Eat、Sweet。也有很多很多的边,最重要的边,是这种 isA 边,比如说 Picasso,还有 isPropertyOf 边。对于其他的 Relation,我们会统称为 Co-occurance。这是我们在微软亚洲研究院期间对 Common Sense Knowledge Graph 的 Research Roadmap(研究路线图)。当我们构建出 Common Sense Knowledge Graph 之后,重要的是在上面构建各种各样的模型。我们提出了一些模型叫 Conceptualization(概念化模型),它能够支持 Term Similarity、Short Text Similarity 以及 Head-Modifier Detection,最终支持各种应用,比如 NER、文本标注、Ads、Query Recommendation、Text Understanding 等等。到底什么是 Short Text Understanding?常识怎么用在 Text Understanding 中?下面我们可以看一些具体的例子:当大家看到上面中间的文本时,相信所有人都能够认出这应该是一个日期,但是大家没办法知道这个日期代表什么含义。但如果我们再多给一些上下文信息,比如 Picasso、Spanish等等,大家对这个日期就会有一些常识性的推理。我们会猜测这个日期很可能是 Picasso 的出生日期,或者是去世日期,这就是常识。比如说当我们给定 China 和 India 这两个 Entity 的时候,我们的大脑就会做出一些常识性的推理,我们会认为这两个 Entity 在描述 Country。如果再多给一个 Entity:Brazil,这时候我们通常会想到 Emerging Market。如果再加上 Russia,大家可能就会想到“金砖四国”或者“金砖五国”。所有这一切就是常识性的推理。再比如,当我们看到 Engineer 和 Apple 的时候,我们会对 Apple 做一些推理,认为它就是一个 IT Company,但是如果再多给一些上下文信息,在这个句子里面由于 eating 的出现,我相信大家的大脑也会一样地做出常识推理,认为这个 Apple 不再是代表 Company,而是代表 Fruit。所以,这就是我们提出来的 Conceptualization Model,它是一个 Explicit Representation。我们希望它能够将 Text,尤其是 Short Text,映射到 Millions Concepts,这样的 Representation 能够比较容易让用户进行理解,同时能够应用到不同场景当中。在这一页 PPT 中,我们展示了 Conceptualization 的结果。当输入是 Pear 和 Apple 的时候,那么我们会将这个 Apple 映射到 Fruit。但是如果是 iPad Apple 的时候,我们会将它映射到 Company,同时大家注意这并不是唯一的结果,我们实际上是会被映射到一个 Concept Vector。这个 Concept Vector 有多大?它是百万级维度的 Vector,同时也是一个非常 Sparse 的一个 Vector。 通过这样的一个 Conceptualization Model,我们能够解决什么样的文本理解问题?我们可以看这样一个例子。比如说给定一个非常短的一个文本 Python,它只是一个 Single Instance,那么我们会希望将它映射到至少两大类的 Concept 上,一种可能是 Programming Language,另外一种是 Snake。当它有一些 Context,比如说 Python Tutorial 的时候,那么这个时候 Python 指的应该是 Programming Language,如果当它有其他的 Adjective、Verb,比如有 Dangerous 时,这时候我们就会将 Python 理解为 Snake。同时如果在一个文本里面包含了多个的 Entity,比如说 DNN Tool、Python,那么我们希望能够检测出在这个文本里面哪一个是比较重要的 Entity,哪一个是用来做限制的 Entity。下面我们将简单地介绍一下,具体应该怎么去做。当我们在 Google 里搜一个 Single Instance 的时候,通常在右侧会出现这个 Knowledge Panel。对于 Microsoft 这样一个 Instance,我们可以看到这个红色框所框出来的 Concept,Microsoft 指向的是 Technology Company,这背后是怎么实现的? 我们可以看到,Microsoft 实际上会指向非常非常多的 Concept,比如说 Company,Software Company,Technology Leader 等等。我们将它映射到哪一个 Concept 上最合适?如果将它映射到 Company 这个 Concept 上,很显然它是对的,但是我们却没办法将 Microsoft 和 KFC、BMW 这样其他类型的产品区分开来。另外一方面,如果我们将 Microsoft 映射到 Largest Desktop OS Vendor 上,那么这是一个非常 Specific 的 Concept,这样也不太好,为什么?因为这个 Concept 太 Specific,太 Detail,它可能只包含了 Microsoft 这样一个 Entity,那么它就失去了 Concept 的这种抽象能力。所以我们希望将 Microsoft 映射到一个既不是特别 General(抽象),又不是一个特别 Specific(具体)的 Concept 上。在语言学上,我们将这种映射称之为 Basic-level,我们将整个映射过程命名为 Basic-level Conceptualization。我们提出了一种计算 Basic-level Conceptualization 的方法,其实它非常简单而且非常有效。就是将两种的 Typicality 做了一些融合,同时我们也证明了它们跟 PMI 和 Commute Time 之间的一些关联。并且在一个大规模的数据集上,我们通过 Precision 和 NDCG 对它们进行了评价。最后证明,我们所提出来的 Scoring 方法,它在 NDCG 和 Precision 上都能达到比较好的结果。最重要的是,它在理论上是能够对 Basic-Level 进行很好的解释。下面我们来看一下,当 Instance 有了一些 Context 之后,我们应该怎么去进行处理。我们通过一个例子,来简单地解释一下这背后最主要的思想。比如说 iPad、Apple,其中 iPad 基本上是没有歧异的,它会映射到 Device、Product。但是对于 Apple 而言,它可能会映射到至少两类的 Concept 上,比如说 Fruit、Company。那么我们怎么用 iPad 对 Apple 做消歧呢?方法其实也挺直观的。我们会通过大量的统计去发现像 iPad 这样的 Entity,通常会跟 Company、Product 共同出现。比如说 iPad 有可能会跟三星共同出现,有可能会跟 Google 共同出现,那么我们就发现它会经常跟 Brand、Company、Product共同出现。于是我们就利用新挖掘出来的 Knowledge 对 Apple 做消歧,这就是背后最主要的思想。除了刚才这样一个 General Context 以外,在很多时候这些 Text 可能还会包含很多一些特殊的类型,比如说 Verb、Adjective。具体而言,我们希望在看到 Watch Harry Potter 时,能够知道 Harry Potter 是 Movie,当我们看到 Read Harry Potter 时,能够知道 Harry Potter 是 Book。同样的,Harry Potter 还有可能是一个角色名称,或者是一个游戏名称。那么我们来看一看应该怎样去解决这样一件事情。当我们看到 Watch Harry Potter 时,我们首先要知道,Harry Potter 有可能是一本 Book,也有可能是一部 Movie。我们可以算出一个先验概率,这通常要通过大规模的统计。同时我们要知道,Watch 它有可能是一个名词,同时它也有可能是一个动词,并且我们还需要去挖掘,当 Watch 作为动词的时候,它和 Movie 有非常紧密的关联。所以我们本质上是要去做一些概率上的推理,不仅要将条件概率做非常细粒度的分解,最后还要做概率计算。通过概率计算的方法,我们实际上就可以构建出一个非常大的离线知识图谱,那么我们在这个上面,就可以有很多的 Term,以及它们所属的一些 Type,以及不同 Term 之间的一些关联。当我们用这样一个非常大的离线知识图谱来做 Text Understanding 的时候,我们可以首先将这个 Text 进行分割处理,在分割之后,我们实际上是可以从这个非常大的离线知识图谱中截取出它的一个子图。最后我们使用了 Random Walk With Restart 的模型,来对这样一个在线的 Subgraph 进行分类。我们再来看一下,如果一个文本里包含了 Multiple Entities,要怎样处理?我们需要做知识挖掘,怎么做?首先我们可以得到非常多的 Query Log,然后我们也可以去预定一些 Pattern,通过这种 Pattern 的定义,可以抽取出非常多 Entity 之间 Head 和 Modifier 这样的 Relation,那么在接下来我们可以将这些 Entity 映射到 Concept 上,之后得到一个 Pattern。在这个过程之中,我们要将 Entity 映射到 Concept 上,那么这就是前面所提到的 Conceptualization。我们希望之后的映射不能太 General,避免 Concept Pattern 冲突。但是它也不能太 Specific,因为如果太 Specific,可能就会缺少表达能力。最坏的情况,它有可能就会退化到 Entity Level,而 Entity 至少都是百万的规模,那么整个 Concept Patterns 就有可能变成百万乘以百万的级别,显然是不可用的。所以我们就用到了前面介绍的 Basic-Level Conceptualization 的方法,将它映射到一个既不是特别 General,也不是特别 Specific 的 Concept 上。大家可以看一下我们能够挖掘出来的一些 Top 的 Concept Patterns,比如说 Game 和 Platform,就是一个 Concept 和一个 Pattern。它有什么用?举一个具体的例子,当用户在搜 Angry Birds、iOS 的时候,我们就可以知道用户想找的是 Angry Birds 这款游戏,而 iOS 是用来限制这款游戏的一个 Platform。苹果公司每年都会推出新版本的 iOS,那么我们挖掘出这样的 Concept Pattern 之后,不管苹果出到 iOS 15或者 iOS 16,那么我们只需要将它们映射到 Platform,那么我们的 Concept Patterns 就仍然有效,这样可以很容易地进行知识扩展。所以 Common Sense Knowledge Mining 以及 Conceptualization Modeling,可以用在很多的应用上,它可以用来算 Short Text Similarity,可以用来做 Classification、Clustering,也可以用来做广告的 Semantic Match、Q/A System、Chatbot 等等。美团大脑——百科全书式知识图谱(Encyclopedia Knowledge Graph)在介绍完 Common Sense Knowledge Graph 之后,给大家介绍一下 Encyclopedia Knowledge Graph。这是美团的知识图谱项目——美团大脑。美团大脑是什么?美团大脑是我们正在构建中的一个全球最大的餐饮娱乐知识图谱。我们希望能够充分地挖掘关联美团点评各个业务场景里的公开数据,比如说我们有累计 40 亿的用户评价,超过 10 万条个性化标签,遍布全球的 3000 多万商户以及超过 1.4 亿的店菜,我们还定义了 20 级细粒度的情感分析。我们希望能够充分挖掘出这些元素之间的关联,构建出一个知识的“大脑”,用它来提供更加智能的生活服务。我们简单地介绍一下美团大脑是如何进行构建的。我们会使用 Language Model(统计语言模型)、Topic Model(主题生成模型) 以及 Deep Learning Model(深度学习模型) 等各种模型,希望能够做到商家标签的挖掘,菜品标签的挖掘和情感分析的挖掘等等。为了挖掘商户标签,首先我们要让机器去阅读评论。我们使用了无监督和有监督的深度学习模型。无监督模型我们主要用了LDA,它的特点是成本比较低,无需标注的数据。当然,它准确性会比较不可控,同时对挖掘出来的标签我们还需要进行人工的筛选。至于有监督的深度学习模型,那么我们用了 LSTM,它的特点是需要比较大量的标注数据。通过这两种模型挖掘出来的标签,我们会再加上知识图谱里面的一些推理,最终构建出商户的标签。 如果这个商户有很多的评价,都是围绕着宝宝椅、带娃吃饭、儿童套餐等话题,那么我们就可以得出很多关于这个商户的标签。比如说我们可以知道它是一个亲子餐厅,它的环境比较别致,服务也比较热情。下面介绍一下我们如何对菜品进行标签的挖掘?我们使用了 Bi-LSTM 以及 CRF 模型。比如说从这个评论里面我们就可以抽取出这样的 Entity,再通过与其他的一些菜谱网站做一些关联,我们就可以得到它的食材、烹饪方法、口味等信息,这样我们就为每一个店菜挖掘出了非常丰富的口味标签、食材标签等各种各样的标签。下面再简单介绍一下,我们如何进行评论数据的情感挖掘。我们用的是 CNN+LSTM 的模型,对于每一个用户的评价我们都能够分析出他的一些情感的倾向。同时我们也正在做细粒度的情感分析,我们希望能够通过用户短短的评价,分析出他在不同的维度,比如说交通、环境、卫生、菜品、口味等方面的不同的情感分析的结果。值得一提的是,这种细粒度的情感分析结果,目前在全世界范围内都没有很好的解决办法,但是美团大脑已经迈出了非常重要的一步。下面介绍一下我们的知识图谱是如何进行落地的。目前业界知识图谱已经有非常多的成熟应用,比如搜索、推荐、问答机器人、智能助理,包括在穿戴设备、反欺诈、临床决策上都有非常好的应用。同时业界也有很多的探索,包括智能商业模式、智能市场洞察、智能会员体系等等。如何用知识图谱来改进我们的搜索?如果大家现在打开大众点评,搜索某一个菜品时,比如说麻辣小龙虾,其实我们的机器是已经帮大家提前阅读了所有的评价,然后分析出提供这道菜品的商家,我们还会根据用户评论的情感分析结果来改进这些搜索排序。此外,我们也将它用在商圈的个性化推荐。当大家打开大众点评时,如果你现在位于某一个商场或者商圈,那么大家很快就能够看到这个商场或者商圈的页面入口。当用户进入这个商场和商户页面时,通过知识图谱,我们就能够提供“千人千面”的个性化排序和个性化推荐。在这背后其实使用了一个“水波”的深度学习模型,关于这个深度学习模型更详细的介绍,大家可以参见我们在 CIKM 上的一篇论文。所有的这一切,其实还有很多的技术突破等待我们去解决。比如整个美团大脑的知识图谱在百亿的量级,这也是世界上最大的餐饮娱乐知识图谱,为了支撑这个知识图谱,我们需要去研究千亿级别的图存储和计算引擎技术。我们也正在搭建一个超大规模的 GPU 集群,来支持海量数据的深度学习算法。未来,当所有的这些技术都成熟之后,我们还希望能够为所有用户提供“智慧餐厅”和“智能助理”的体验。文章转载自 AI 科技大本营(rgznai100),部分内容有修正。作者简介仲远,博士,美团点评高级研究员、高级总监,美团 AI 平台部 NLP 中心负责人、大众点评搜索智能中心负责人。加入美团点评前,担任美国 Facebook 公司 Research Scientist,负责 Facebook 产品级 NLP Service。在 Facebook 之前,担任微软亚洲研究院的主管研究员,负责微软研究院知识图谱项目和对话机器人项目。多年来专注于自然语言处理、知识图谱及其在文本理解方面的研究,在国际顶级学术会议如 VLDB、ICDE、IJCAI、CIKM 等发表论文30余篇,获得 ICDE 2015 最佳论文奖,并是 ACL 2016 Tutorial “Understanding Short Texts”的主讲人,出版学术专著3部,获得美国专利5项。在 NLP 和 KG 研究领域及实际产品系统中均有丰富经验,研究领域包括:自然语言处理、知识图谱、深度学习、数据挖掘等。招聘信息美团点评 NLP 团队招聘各类算法人才,Base 北京上海均可。NLP 中心使命是打造世界一流的自然语言处理核心技术和服务能力,依托 NLP(自然语言处理)、Deep Learning(深度学习)、Knowledge Graph(知识图谱)等技术,处理美团点评海量文本数据,打通餐饮、旅行、休闲娱乐等各个场景数据,构建美团点评知识图谱,搭建通用 NLP Service,为美团点评各项业务提供智能的文本语义理解服务。我们的团队既注重AI技术的落地,也开展中长期的NLP及知识图谱基础研究。目前项目及业务包括美团点评知识图谱、智能客服、语音语义搜索、文章评论语义理解、美团点评智能助理等。真正助力于“帮大家吃得更好,生活更好”企业使命的实现,优化用户的生活体验,改善和提升消费者的生活品质。欢迎各位朋友推荐或自荐至 hr.ai@meituan.com。算法岗:NLP算法工程师/专家/研究员 、知识图谱算法工程师/专家/研究员工程岗:C++/Java研发专家/工程师 、AI平台研发工程师/专家产品岗:AI产品经理/专家(NLP、数据方向) ...

November 2, 2018 · 4 min · jiezi