关于神经网络:KDD-CUP-2021首届图神经网络大赛放榜百度飞桨PGL获得2金1银

106次阅读

共计 2904 个字符,预计需要花费 8 分钟才能阅读完成。

近日,由 KDD CUP 与 OGB(Open Graph Benchmark)联结举办的首届图神经网络大赛正式放榜,在 DeepMind、微软、蚂蚁金服、UCLA 等寰球 500 多个顶尖企业、高校和实验室的强烈竞争中,百度凭借飞桨图学习框架 PGL 一路过关斩将,最终在全副三个赛道包揽了两冠一亚。

▲ 本次大赛承办方斯坦福大学 Jure Leskovec 传授发表冠军队伍

据理解,KDD CUP 是 ACM SIGKDD 组织的年度赛事,素有「大数据畛域世界杯」之誉,是目前数据挖掘畛域最高程度、最具影响力、规模最大的国内顶级赛事。而往年,KDD CUP 与 OGB 联结举办了第一届 OGB-LSC(OGB Large-Scale Challenge)较量,提供来自真实世界的超大规模图数据,来实现图学习畛域的节点分类、边预测和图回归三大工作。

本次较量采取「闭卷考试」,整个较量周期只有 2 次提交模型后果机会,极其考验参赛队伍模型泛化能力,比赛难度极大。得益于百度在图神经网络的继续深耕,在本次大赛的三大赛道之中,百度飞桨图学习框架 PGL,共计夺得大规模节点分类赛道冠军、大规模图关系预测赛道冠军、化学分子图性质预测赛道亚军。

▲ 飞桨 PGL 夺冠页面:https://ogb.stanford.edu/kddc…

飞桨 PGL 代码齐全凋谢,欢送大家应用、反馈和奉献。

PGL 链接:
https://github.com/PaddlePaddle/PGL
B 站 图神经网络 7 日教程:
https://www.bilibili.com/video/BV1rf4y1v7cU
PGL 图学习入门教程:
https://aistudio.baidu.com/aistudio/projectdetail/413386
飞桨 PGL 参赛报告 & 代码:
https://github.com/PaddlePaddle/PGL/tree/main/examples/kddcup2021

大规模节点分类赛道冠军:引入基于异构关系的对立消息传递模型

OGB-LSC 节点分类数据集,来源于真实世界的超大规模学术援用网络 MAG(Microsoft Academic Graph)。OGB 官网提取了超 2.4 亿的实体(包含论文、作者等),构建出蕴含 16 亿边关系的大规模异构图。参赛选手需从异构图中开掘无效信息,预测出指定的 arXiv 论文的主题(总共蕴含 153 个主题,例如 cs.LG 机器学习、q-bio.BM 生物分子等)。

目前,解决节点分类的图学习办法次要蕴含两类:一类是标签传递算法,而另一类则是通过模型对多阶街坊特色进行聚合,并预测核心节点标签的图神经网络。然而目前这两种办法均有其局限性,无奈最大限度的利用图节点中的标签信息。

为解决上述问题,飞桨 PGL 提出了对立消息传递模型 UniMP,奇妙地利用了『标签覆盖』预测策略,使得模型能够在训练和预测中,同时进行标签传递和特色聚合,胜利地将上述两种图学习办法对立到消息传递模型中,并在半监督节点分类工作上获得显著晋升。目前,相干论文已被 IJCAI2021 收录,并成为目前节点分类工作中的支流的强基准。

▲ UniMP:标签与特色(图中蓝色能量)在对立的消息传递机制下进行流传

针对本次的大规模异构图,飞桨 PGL 进一步引入了基于异构关系的采样办法与注意力交融机制,将 UniMP 降级成为 R-UniMP,并且在飞桨并行计算框架根底上实现了分布式大规模图神经网络模型的训练和预测。试验后果绝对官网基线的验证集准确率晋升将近 10 个百分点!并最终在与 DeepMind、微软、蚂蚁金服、清华等一众国内外科技公司与学术机构的较量中摘得桂冠。

大规模图关系预测赛道冠军:提出 20 层的 NOTE-RPS 常识图谱嵌入模型

本次边预测工作为大规模常识图谱中的关系预测。在常识图谱中,通过连贯不同实体的三元组(例如姚明 - 出生于 -> 上海)来示意对于世界的事实常识。然而,这些大型常识图谱并不欠缺,短少实体之间的许多关系信息。

应用机器学习办法主动估算缺失的三元组能够显著缩小人工修补老本,从而提供了更全面的常识图谱。本次较量应用 Wikidata 常识图谱,蕴含近 9 千万的实体和 5 亿的三元组,为至今数据规模最大的常识图谱工作。

目前业界常识示意模型层出不穷,例如 TransE、RotatE 等。飞桨 PGL 基于大规模常识示意库 PGL-KE,对已有算法降级提出了 Normalized Orthogonal Transforms Embedding(NOTE)模型,可能对关系进行多维度建模,同时能在大规模场景下仍放弃数值稳定性。

▲ NOTE:归一化正交转换常识图谱嵌入模型

其次,飞桨 PGL 提出的 Relation-based Post Smoothing (RPS)图神经网络算法,对训练完的 NOTE 模型进行后处理,并应用了 20 层的 RPS 模型,堪称常识图谱畛域最深的图神经网络模型。基于 NOTE+RPS 大规模常识示意计划的试验后果绝对于官网提供的基准晋升了 12 个百分点,并最终在与阿里巴巴、哈工大、中科大等团队的较量中一举夺魁,助力常识图谱向实际利用迈出了微小一步。

化学分子图性质预测赛道:利用分子 3D 构象结构自监督预训练辅助工作

分子个性预测已被宽泛认为是计算药物和资料发现中最要害的工作之一。基于 DFT 量子物理计算的办法须要消耗大量工夫能力无效预测多重分子性质。为了利用图神经网络弱小的表达能力来预测分子性质,飞桨 PGL 与螺旋桨 PaddleHelix 生物计算框架联结提出了 LiteGEM 模型,利用分子的 3D 构象结构自监督预训练辅助工作,晋升分子性质预测成果,并最终取得亚军。

利用落地:可反对更大规模产业利用,飞桨图学习框架 PGL 迎来重大降级

除了在 KDD CUP 上全面开花,飞桨 PGL 也始终继续地致力于图神经网络算法翻新以及更大规模的工业利用落地。

近日,飞桨 PGL 迎来重大降级,推出了万亿超大规模分布式图引擎,本次 KDD CUP 夺冠技术计划即是均基于该分布式图引擎。分布式图引擎研发的初衷也是心愿图学习算法能够在业界实现更大规模的产业利用,目前,百度已借助飞桨 PGL 在搜寻、信息流举荐、金融风控、智能地图、常识图谱等多个场景实现数十项利用落地。

▲ 深度学习开发者峰会 WaveSummit 2021 万亿图引擎公布现场

此外,飞桨 PGL 还与多个内部机构单干:网易云音乐在调研了大量开源计划后,也抉择了对大规模图训练更加敌对的飞桨 PGL 作为云音乐举荐的图神经网络根底框架。同时,飞桨 PGL 也助力科技翻新 2030「新一代人工智能」重大项目 OpenKS 常识计算引擎。

源于图神经网络对于简单数据建模的便当以及其弱小的表达能力,飞桨 PGL 也探索图神经网络与多个交叉学科的联合,包含构建大数据疫情预测零碎,与飞桨螺旋桨 PaddleHelix 单干致力于化合物属性预测,并在多个化合物预测榜单上获得 SOTA。

▲ 飞桨图学习框架 PGL

图学习作为通用的人工智能算法之一,势必成为智能时代新的根底能力,赋能各行各业,助力智能经济腾飞。现阶段仅仅是图学习热潮的开始,将来还将有更加深度的技术产出,和更大规模的产业机会呈现,扎根图学习畛域,继续为产业智慧化降级赋能,须要从当初就开始。

正文完
 0