摘要:本文提出一种基于部分特色保留的图卷积网络架构,与最新的比照算法相比,该办法在多个数据集上的图分类性能失去大幅度晋升,泛化性能也失去了改善。
本文分享自华为云社区《论文解读:基于部分特色保留的图卷积神经网络架构(LPD-GCN)》,原文作者:PG13。
近些年,很多研究者开发了许多基于图卷积网络的办法用于图级示意学习和分类利用。然而,以后的图卷积网络办法无奈无效地保留图的部分信息,这对于图分类工作尤其重大,因为图分类指标是依据其学习的图级示意来辨别不同的图构造。为了解决该问题,这篇文章提出了一种基于部分特色保留的图卷积网络架构[1]。与最新的比照算法相比,该办法在多个数据集上的图分类性能失去大幅度晋升,泛化性能也失去了改善。
1、引言
图(网络)构造数据能够通过图中的节点和连贯节点之间的边进行建模来捕捉实体和实体之间的丰盛信息。图构造数据曾经在诸多钻研畛域失去了宽泛的利用,包含生物学(蛋白质与蛋白质的相互作用网络)、化学(分子结构 / 化合物构造)、社会科学(社交网络 / 文献援用网络)和许多其余的钻研畛域。图构造数据不仅可能对结构化信息进行高效存储,而且在古代机器学习工作中也扮演着极其重要的角色。在诸多的机器学习工作中,图分类是近几年来宽泛钻研的一项重要工作。图分类的目标是将给定的图划分到特定的类别。例如,为了辨别化学中有机分子的各种图构造,须要对其推断并聚合整个图拓扑构造(在分子网络中拓扑构造由单个原子及其间接键组成)以及节点特色(例如原子属性),并应用推断和聚合的信息来预测图的类别。
近年来,国内上发表了很多旨在解决图分类问题的技术。一种传统且风行的技术是设计一个图核函数来计算图与图之间的类似度,而后输出到基于核函数的分类器(如 SVM)来进行图分类工作。只管基于图核的办法是无效的,但存在计算瓶颈,而且其特征选择的过程与后续分类过程是离开的。为了解决上述挑战,端到端的图神经网络办法受到了越来越多的钻研关注。而其中,图卷积神经网络(GCNs)又是解决图分类问题的最热门的一类图神经网络办法。
目前的图卷积神经网络大抵遵循消息传递(Message Passing Neural Network,MPNN)框架[2]。该框架由消息传递阶段和读出阶段两局部组成,其中消息传递阶段是通过汇集节点的邻域特色来更新每个节点的特征向量,而读出阶段是通过全局的池化模块来生成整个图级的特色。图卷积神经网络应用消息传递性能来迭代地运行图卷积操作,使得特色信息可能流传很长的间隔,从而能够学习不同范畴的邻域特色。在通过 k 次的图卷积操作后,能够提取有用的节点或者边的特色来解决许多基于节点和边的剖析工作(例如,节点分类,链路预测等)。为了解决图级的工作(例如图分类),读出模块须要聚合整体的节点或部分构造的信息来生成图级示意。下图给出了用于图分类工作的图卷积神经网络的通用框架。在现有的消息传递框架根底下,很多的研究者曾经开发出了具备各种音讯传递函数,节点更新函数和读出模块的许多图卷积神经网络的变体。
然而,现有的基于图卷积神经网络办法的次要局限性在于,用于图级示意学习的图卷积神经网络办法不足对部分特色信息的无效利用。换句话说,它们过分强调辨别不同图构造的能力,而疏忽了节点的部分表达能力,从而容易导致适度平滑的问题(每个节点的特色示意趋于统一),特地是当加深神经网络的层数时,过平滑问题会愈趋重大。这是因为在部分邻域聚合过程中没有对邻域的特色信息进行无效地区分和分别,使得学到的节点特色的部分表达能力不强,再加上过平滑的影响,从而大大限度了全局的图级特色的示意能力。
家喻户晓,图级示意是通过汇集节点的部分特色而失去的,因而如何在优化的过程中放弃部分表达能力是进步图示意能力的要害前提。针对图级示意学习指标,现有的用于放弃特色部分表达能力的钻研办法能够大抵分为三个派别:(1)设计不同的图卷积操作和读出操作,(2)设计分层聚类办法,(3)摸索新的模型架构。在第一个派别中,Xu 等人发现基于现有消息传递框架下的办法学习到的图级别示意并不能无效地区分不同的图构造,并且他们提出了一个图同构网络模型(GIN)[3]。图同构网络采纳了一种单射聚合更新办法将不同的节点街坊映射到不同的特征向量。这样就能保留图的部分构造和节点特色,使得图神经网络和 Weisfeiler-Lehman 测试一样无效。Fan 等人提出了一种相似于图注意力网络(GATs)[4]的结构化自注意力架构,用于图级示意学习,其中以节点为核心的注意力机制将具备可学习权重的不同街坊节点特色聚合在一起,并将层级注意力机制和图级注意力机制作为模型的读出模块,可将来自不同节点、不同深度的重要特色聚合到模型的输入中。在第二个派别中,也就是在档次聚类办法中,许多钻研工作证实图除了节点或图级构造之间的二分法外,还显示出其它丰盛的层次结构。比方最近的一项前沿工作提出了 DIFFPOOL[5],这是一种可能与图卷积联结训练的可微分层次化池化办法,能够用于提炼部分特色信息。
总而言之,上述两类用于图分类工作的办法可能很好地拟合大多数训练数据集,然而其泛化能力十分无限,在测试集上的成果体现平平,难以冲破现有办法的瓶颈。而在第三类派别中,也就是钻研新的模型架构,一些钻研人员试图解决在训练图卷积神经网络的存在的实际困难或者适度平滑问题。例如,Xu 等人 [6] 提出了一种跳跃常识网络(JK-Net)架构,以将网络的最初的图卷积层与所有先前的暗藏层连接起来,也就是相似于残差网络的构造。通过这样的设计,使得模型最初的层能够有选择性地利用来自后面不同层的邻域信息,从而能够在固定数量的图卷积操作中很好地捕捉节点级示意。尤其是随着网络深度的减少,残差连贯对模型的成果晋升更加凸显。这种跳跃构造曾经被证实能够显著进步模型在以节点相干工作上的性能,然而很少有钻研人员摸索它们在图级任务上(如图分类)的有效性。在 GIN 中,Xu 等人进一步提出了一种相似于 JK-Net 的模型架构用于学习图级示意。该架构针对每个卷积层前面都连贯了一个读出层来学习不同深度的图级示意,而后将不同深度的图级示意模式连贯在一起造成最终的示意。这种读出架构思考了所有深度的全局信息,能够无效地改善模型的泛化能力。
2、图卷积神经网络(GCN)
(1)问题定义
给定一个无向图 G = {V, E},V 示意节点汇合,E 示意边的汇合。此外,应用 Xv 来示意每个节点的初始特色。图卷积神经网络的指标是学习任用意实例的间断示意,来对节点特色以及拓扑构造进行编码。假如给定了一组带有 M 个标签的图 G = {G1, G2, … ,GM}以及每一个图对应的标签 Y = {y1, y2, … ,yM},图分类的指标是应用它们作为训练数据来构建分类器 gθ, 该分类器能够将任何新的图输出 G 调配给某个特定的类别 yG,即 yG = gθ(hG)。
(2)图卷积神经网络
GCNs 同时思考图的构造信息和图中每个节点的特色信息,以学习能够最好地帮忙实现最终工作的节点级和 / 或图级特色示意。通常来说,现有的 GCN 变体首先汇聚
合邻域信息,而后将生成的邻域示意与上一次迭代的核心节点示意进行组合。从公式上来说,GCN 依据以下公式迭代地更新节点的示意模式:
其中
示意的是节点 v 在第 k 次迭代时的特色示意。AGGREGATE()和 COMBINE()都是第 k 个图卷积层的可学习信息传递函数。N(v)示意节点 v 的相邻节点的汇合。通常,在 K 次迭代步骤之后,能够将最终的节点示意
利用于节点标签预测,或者后退到执行图分类的读出阶段。读出阶段通过聚合节点特色,应用某些特定的读出函数 READOUT()为整个图计算特征向量 hG:
READOUT()函数能够是简略的置换不变性函数,例如求和函数;也能够是图级的池化操作,如 DIFFPOOL、SORTPOOL。
3、办法介绍
为了解决现有办法的部分信息保留能力和泛化能力有余的问题,这篇文章从损失函数和模型架构两个方面进行了改良,提出了模型 LPD-GCN。家喻户晓,GCNs 通过利用图的拓扑构造和节点特色来学习整个图的图级示意。从损失的角度来看,为了充分利用和学习节点的特色信息,LPD-GCN 结构了额定的部分节点特色重构工作,以进步暗藏节点示意的部分示意能力并加强最终图级示意的判断能力。也就是额定减少了一个辅助束缚来保留图的部分信息。这个节点特色重构工作是通过设计一种简略但无效的编码 - 解码机制来实现的,其中将重叠的多个图卷积层当作编码器,而后增加一个多层感知器(MLP)用于后续的解码。这样的话,就能够将输出的节点特色通过编码器嵌入到暗藏示意中,而后将这些向量示意再输出到解码器中以重构初始节点特色。从模型架构的角度来看,首先摸索并设计了一个浓密连贯的图卷积架构来建设不同层之间的连贯关系,以灵便充沛地利用来自不同地位的邻域的信息。具体地说,将每个卷积层及其对应的读出模块与所有先前的卷积层相连。
(1)基于编码 - 解码机制的节点特色重构
传统 GCN 的图级示意能力和判断能力受限于适度精炼和全局化,漠视了对部分特色的保留,这会导致过平滑问题。LPD-GCN 蕴含一个用于实现部分特色重构的简略的编码 - 解码机制,其中编码器由重叠的多图卷积层形成,而解码器采纳多层感知器来重构部分节点特色。同时,结构了一个辅助的部分特色重构损失来辅助图分类的指标。这样的话,节点特色能够无效地保留在不同层上的暗藏示意中。
(2)基于 DenseNet 的邻域聚合
此外,为了能够灵便地利用来自不同层的邻域的信息,模型从每个暗藏的卷积层到所有更高层的卷积层和读出模块都增加了间接的连贯。这样的架构大抵是 DenseNets 的对应构造。家喻户晓,DenseNets 是针对计算机视觉问题提出的。该架构容许在不同层选择性地聚合邻域信息,并进一步改善层与层之间的信息流动。在 DenseNets 中利用的是分层串联的特色聚合形式。LPD-GCN 采纳分层累加的特色聚合形式。
(3)基于全局信息感知的部分节点示意
引入辅助的部分特色重构模块后,使得每个卷积层都能够承受额定的监督,以放弃局部性。然而,此类监督信息无奈通过反向流传来训练这些全局读出模块。在本章模型的架构中,在每个卷积层前面都有一个对应全局读出模块,来将整个图的节点嵌入折叠为图级别的示意。那么,如何能力更好地利用来自部分特色重构的监督信息呢?为了解决这个问题,增加了从每个读出模块到下一层卷积模块的间接连贯,并应用串联的形式将节点级特色与全局图级特色进行对齐。也就是说,应用逐点串联,将每个节点示意和图级示意连贯到单个张量中。此外,又引入了一个可学习的参数 ε(> 0),以自适应地在部分节点级示意和全局图级示意之间进行衡量。
其中
通过设计这样的架构,除了因失去主图级任务而产生的梯度信息之外,还可因部分特色重构损失而使其余梯度信息反向流传以更新读出的参数,从而升高了丢失部分示意能力的危险并进步了模型的泛化能力。同时,节点示意与附加的全局上下文相结合以造成全局上下文感知的部分示意,这也能够加强节点的示意性。
(4)基于自注意力机制的全局分层聚合
现有的大部分办法是将多个图卷积层学习的节点示意馈送到全局读出模块以生成图级示意,读出模块通过池化或求和的形式生成全局的图级特色。然而,随着网络深度的减少,节点示意可能会显得过于平滑,从而导致图级输入的综合性能较差。为了无效地提取和利用所有深度的全局信息,本章的模型进一步采纳了一种自注意力机制,以相似于 GIN 的形式来读出的逐层图级特色。这里引入以层为核心的自注意力机制的直觉是,在生成特定工作的图级输入时,调配给每一层不同的注意力权重能够适应于特定的工作。
(5)损失函数
在训练阶段,本章的模型 LPD-GCN 从图分类主工作和辅助的部分特色重构束缚接管梯度信息。从公式上来说,通过如下公式中定义的总损失(由图分类损
失和部分特色重构损失加权失去)来训练 LPD-GCN。
其中示意
图分类损失,
示意部分特色重构损失,衡量参数被自适应地引入在两个损失项之间寻求均衡。
4、图分类试验后果
(1)测试数据集
这篇文章应用了图神经网络畛域 8 个罕用的图数据集,通过执行 10 倍穿插验证来评估性能,并报告测试准确度的均值和标准差。
(2)在测试集上的成果
在多个数据集上的分类性能上有了显著的晋升,且泛化能力失去了改善。
5、参考文献
[1] WENFENG LIU, MAOGUO GONG, ZEDONG TANG A. K. QIN. Locality Preserving Dense Graph Convolutional Networks with Graph Context-Aware Node Representations. https://arxiv.org/abs/2010.05404
[2] GILMER J, SCHOENHOLZ S S, RILEY P F, et al. Neural message passing for quantum chemistry[C] // Proceedings of the 34th International Conference on Machine Learning : Vol 70. 2017 : 1263 – 1272.
[3] XU K, HU W, LESKOVEC J, et al. How powerful are graph neural networks?[C] // Proceedings of the 7th International Conference on Learning Representations. 2019.
[4] VELI ˇ CKOVI´C P, CUCURULL G, CASANOVA A, et al. Graph attention networks[C] // Proceedings of the 6th International Conference on Learning Representations. 2018.
[5] YING Z, YOU J, MORRIS C, et al. Hierarchical graph representation learning with differentiable pooling[C] // Advances in Neural Information Processing Systems. 2018 : 4800 – 4810.
[6] XU K, LI C, TIAN Y, et al. Representation learning on graphs with jumping knowledge networks[C] // Proceeding of the 35th International Conference on Machine Learning. 2018 : 5449 – 5458.
点击关注,第一工夫理解华为云陈腐技术~