关于云服务:腾讯云大学大咖分享-腾讯云知识图谱实践

8次阅读

共计 4762 个字符,预计需要花费 12 分钟才能阅读完成。

本文作者:腾讯云高级研究员 孟辉。毕业于中国科学院大学管制迷信与工程系,具备丰盛的机器学习与数据挖掘教训。退出腾讯云 AI 语义产品组后,次要负责常识图谱相干产品的研发与利用。

点击观看残缺课程

常识图谱根底

常识图谱最早由谷歌公司在 2012 年提出,其应用语义检索的办法从多种语言的数据源(例如 FreeBase、维基百科等)收集信息并加工,以进步搜寻品质、改善搜寻体验。实际上,2006 年 Tim Berner-Lee 就提出了 Linked Data 也就是一种在万维网数据上创立语义关联的办法。再往前追溯,语义链网络(Semantic Link Network)曾经有了比拟零碎的钻研,旨在创建一个自组织的语义互联办法来表白常识来反对智能利用,系统性的实践和办法能够参考 H. Zhuge 在 2004 年发表的《The Knowledge Grid》一文。

常识图谱的历史演进

大家可能会关注,疾速构建常识图谱须要哪些技术栈呢?数据采集、数据荡涤、常识抽取、常识交融、图存储是构建常识图谱最根本的技术栈,笔者这里参考百家之言将构建常识图谱的技术流程总结如下:

常识图谱技术架构示意图

咱们再回到最后的原点,窥探常识图谱的实质。常识图谱,其本质是由节点和边组成的语义网络。其中,节点代表了物理世界中的实体或概念,边代表了实体之间的关系。“THINGS NOT STRINGS”,不要无意义的字符串,而是获取字符串背地隐含的对象或事物。举例来讲,歌手、演员刘德华就是上文中提到的实体,生日、妻子、身高和电影作品就是实体刘德华的属性;电影作品《无间道》的导演是刘伟强,制片所在的国家和地区是中国香港等等。

常识实体示例

从宏观的角度来看,常识图谱曾经在个性化举荐、地址解析、搜索引擎、智能问答以及教育中宽泛落地利用。腾讯云常识图谱团队也尝试在不同的场景中进行了摸索,例如在短视频举荐中用到了基于常识图谱的相干实体举荐、在智能问答中用到了基于常识图谱的常识问答技术。腾讯云常识图谱团队联合业务场景开发了一款小程序,集成了图谱可视化、常识问答等等,感兴趣的读者能够扫描二维码进行体验。

腾讯云常识图谱利用

从 0 到 1 把握属性抽取

依据上文中提到的常识图谱技术架构来看,将非结构化数据转换为便于在图数据库中存储的结构化数据个别须要做常识抽取,而常识抽取又包含实体抽取、关系抽取、属性抽取和概念抽取。个别地,实体抽取、属性抽取和概念抽取能够形象为序列标注工作,关系抽取则能够形象为分类工作。腾讯云常识图谱团队联合本身业务场景研发出了一套常识抽取算法框架(Merak,天璇常识抽取算法框架,正如《晋书·地理志》中讲到的北斗七星在太微北,

枢为天,璇为地,玑为人,权为时,衡为音,开阳为律,摇光为星。),能够实现一站式常识抽取算法工作。在属性抽取和概念抽取工作中,Merak 常识抽取算法框架提供了多种算法模型,例如 BERT(Bidirectional Encoder Representations from Transformers)、Bi-LSTM+CRF 等等。总的来看,Merak 算法框架具备以下技术劣势:

  • Merak 提供一站式算法解决方案,用户能够通过简略的配置,能够轻松实现我的项目各模块(数据处理、模型训练、模型部署)自动化生成,极大地提高了常识图谱的生产效率。
  • Merak 将模型层进行了形象划分,以便于对模型的了解和组装,加强框架的简洁性、灵活性和通用性,同时用户也能够在此基础上做二次开发。
  • Merak 反对常识抽取畛域中目前支流的算法模型,包含 BERT 模型、Bi-LSTM+CRF、Attention CNN 等等。
  • Merak 反对 CPU 和 GPU 多卡分布式训练,并且提供优质的 BERT 中文预训练模型供腾讯云客户下载应用。

在试验成果方面,Merak 在关系抽取(含多示例学习)、关系抽取和属性抽取等多项工作中体现优异,无论是训练工夫开销还是预测精度均达到了业界当先水准。

Merak 常识抽取算法框架示例图

这里提一下,在构建常识图谱的过程中实际上也是衡量的过程,特地是过于粗放的畛域常识图谱可能对业务起不到利用的成果,特地是对于问答、工作型对话等急需细粒度常识的工作;若图谱的构建过于精密,除了构建老本会变得十分低廉以外,也会因为数据噪声使得一些工作(基于常识图谱的推理)变的艰难和难以使用。

接下来,笔者从 0 到 1 向大家介绍如果利用 Merak 算法框架实现属性抽取工作。

从 0 到 1 学习属性抽取(1)

在属性抽取算法工作开始前须要明确抽取细节,这里就以人物属性抽取为例,性别、学历、出生地、出生日期、籍贯以及毕业学校均属于属性领域。其次,要分明属性抽取为什么能够形象为序列标注工作。实际上,序列标注是自然语言解决畛域四大要害工作之一,其倒退能够大抵分为三个阶段:统计学习办法牛刀初试(HMM、CRF)、深度神经网络异军突起(Bi-LSTM+CNNs+CRF)以及后深度神经网络纵横天下(以 Transformer、BERT 等为代表的后深度神经网络时代)。

大家晓得,BERT 在 11 项权威 NLP 工作中获得了不俗的成果,这里就以 BERT 为例开展探讨。初步选定模型后,须要筹备训练样本,天璇在算法框架中提供了人物属性抽取样本集,波及到的属性有出生年月、出生地、毕业院校等,具体地,如下图中上半局部所示。

从 0 到 1 学习属性抽取(2)

正如前文所述,天璇常识抽取算法框架提供了多种属性抽取算法模块,例如 BERT、Bi-LSTM+CRF 等经典算法。在上图中,右边为 BERT 模型的输出向量生成办法,整个计算流程次要分为两步走,先是进行模型预训练((1)语言模型 - 上下文中缺失词的预测;(2)句对二元关系预测 - 是否是下一句),而后在此基础上进行 Fine-tune 微调;左边为基于 Bi-LSTM+CNNs+CRF 模型的序列标注办法。

那么基于 BERT 模型微调的办法和基于 Bi-LSTM+CNNs+CRF/Bi-LSTM+CRF 模型的序列标注办法有什么区别?笔者这里做了简略的剖析,后果如下:

  • BERT Fine-Tune 办法相较 BiLSTM+CRF 办法准确率更高。
  • BERT 办法参数量更多(3 亿 +),对计算资源的要求更高,也就是老本更高。
  • BiLSTM+CRF 是一种端到端的网络架构,不须要做任何的预训练即可达到较好的成果。

接下来,就是下载我的项目代码,开始人物属性抽取模型训练,这里须要特地留神的是须要提前下载好曾经预训练好的中文预训练模型(这里咱们应用的是根底版本的中文预训练模型),并且将训练样本搁置在./../people\_attribute\_extraction 文件夹下,其余相干的筹备工作能够参考下图中疾速开始局部。

从 0 到 1 学习属性抽取(3)

模型训练实现后,笔者这里对不同办法在人物属性抽取样本上的训练成果做了比照剖析,后果如下图所示,试验发现基于 BERT+ 全连贯的办法成果最优,F1 值约为 0.985。

从 0 到 1 学习属性抽取(4)

这里插播一条行业快讯,近期英伟达公司利用 512 块高性能 v100 GPU,训练了号称业界最大的基于 Transformer 的语言模型,而且参数量高达 83 亿,远远大于谷歌公司对外颁布的预训练模型。

  • BERTBASE(L=12,H=768,A=12,Total Parameters=110M)
  • BERTLARGE (L=24,H=1024, A=16,Total Parameters=340M)

至此,人物属性抽取模型训练过程介绍结束,同理概念抽取、关系抽取和实体抽取能够参考相似的操作流程,感兴趣的读者可自行尝试。

腾讯云百科知识图谱

在介绍腾讯云百科知识图谱之前,笔者先对通用常识图谱和畛域常识图谱二者之间的区别和分割进行剖析,如下图所示:

通用常识图谱和畛域常识图谱比照剖析

从上图能够看出二者在实在场景中的常识示意、常识获取和常识利用等维度都有着较大差别,而且常识图谱的构建须要综合多项因素协同思考,其中图谱品质、图谱构建老本和图谱更新是最为重要的几个关键因素。另一方面,图谱品质和图谱构建老本往往互相制约,须要咱们基于特定工作做好均衡。

腾讯云百科知识图谱(腾讯云百科知识图谱是腾讯云常识图谱团队与腾讯 AI LAB TopBase 团队独特建设的云上产品)属于通用常识图谱的领域,尽管常识粒度较粗,但常识覆盖度较大,目前笼罩了 51 个畛域(次要以音乐、影视、百科为主),221 个类型、4320 个属性,超过 9700 万实体,近 10 亿三元组,反对全量或增量更新。具体的畛域划分如下图所示:

腾讯云百科知识图谱畛域划分

这里笔者对业界对外开放的中文百科类常识图谱实体和三元组规模做了调研剖析,后果如下:

名称

实体数

三元组

CN-DBpedia

1689 万 +

2.2 亿 +

zhishi.me

1728 万 +

1.2 亿 +

腾讯云百科知识图谱

9700 万 +

10 亿 +

腾讯云百科知识图谱构建数据起源次要有腾讯娱乐、中文百科、互动百科、中文新闻、豆瓣等,因而腾讯云百科知识图谱在科技、音乐、体育及影视畛域无论是实体还是三元组数量都更为丰盛,那么对应的构建具体流程如下所示:

腾讯云百科知识图谱构建与利用

目前,腾讯云百科知识图谱曾经灰度接入腾讯听听、腾讯叮当、腾讯小微机器人、微信搜一搜等,并且在相干实体举荐、百科知识问答等畛域积攒了丰盛的实战经验。

腾讯云百科知识图谱利用

说了这么多,腾讯云百科知识图谱提供哪些具体的接口,用户如何接入呢?腾讯云百科知识图谱目前提供实体查问、关系查问和三元组查问,须要留神的是三元组查问会波及到 TQL(腾讯图查询语言)语法的应用,具体地,可在官网 API 文档 中尽可能地给出了多种示例办法,如下图 b,残缺示例请查看 API 文档。

腾讯云百科知识图谱 API 介绍

目前,腾讯云百科知识图谱相干接口处于收费内侧阶段,感兴趣的读者能够依照如下流程申请接入应用:

疾速接入腾讯云百科知识图谱

这里笔者举荐用户通过腾讯云提供的 SDK 工具箱调用百科知识图谱 API 接口,示例如下:

SDK 接入办法示例

写到这里,已近尾声,笔者通过本文向大家介绍了:

  • 常识图谱的行业倒退现状
  • 常识抽取相干技术要点
  • 腾讯云百科知识图谱的利用

工夫仓促,不到之处,敬请见谅。

参考文献

  • Attention Is All You Need. Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin. 2017
  • Improving Language Understanding by Generative Pre-Training. Radford A, Narasimhan K, Salimans T, et al. 2018
  • BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova. 2018
  • XLNet: Generalized Autoregressive Pretraining for Language Understanding. Zhilin Yang, Zihang Dai, Yiming Yang, Jaime Carbonell, Ruslan Salakhutdinov, Quoc V. Le. 2019
  • Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context. Zihang Dai, Zhilin Yang, Yiming Yang, Jaime Carbonell, Quoc V. Le, Ruslan Salakhutdinov. 2019

注:本文在撰写中参考了大量的文献,在此一并致谢

正文完
 0