乐趣区

关于人工智能:GraphMAE将MAE的方法应用到图中使图的生成式自监督学习超越了对比学习

前几天的文章中咱们提到 MAE 在工夫序列的利用,本篇文章介绍的论文曾经将 MAE 的办法利用到图中,这是来自 [KDD2022] 的论文 GraphMAE: Self-supervised Masked Graph Autoencoders

生成学习与比照学习

自监督学习从大量的无监督数据中挖掘出本人须要的的监督信息。与监督学习相比,它应用来自数据集自身的信息来构建伪标签。而在比照学习 [9] 方面,自监督学习作为监督学习的补充具备很大的后劲。

自 MoCo 和 SimCLR 引入以来,比照学习在图自监督学习畛域占据主导地位,其在节点分类和图分类等工作上的体现远远超过生成式自监督学习办法。然而比照学习的胜利往往取决于上面的两个因素:

  • 高质量的数据裁减。GraphCL[5]摸索了几种数据加强办法的有效性,如掩蔽属性、子图采样和随机增加和删除边。然而通过钻研发现无效的图数据加强往往依赖于畛域常识; 例如,随机增加和删除边缘对社交网络中的训练是无利的,但它会会对分子图产生负面影响。所以到目前为止,在图比照学习中还没有广泛无效的数据加强办法。
  • 简单的策略来稳固训练。比照办法通过通用的训练技巧防止模型陷入繁琐的解决方案。GRACE[8]、DGI[7]和 GraphCL[5]等办法在训练中应用负采样,而 BGRL[6]利用了非对称网络结构和指数挪动均匀策略。

而生成式自监督学习能够防止上述依赖关系。生成式自监督学习可能重构数据自身的特色和信息。在自然语言解决 (NLP) 中,BERT[3]旨在复原遮蔽词; 在 CV (Computer Vision)中,MAE[2]复原图像的像素点(块)。

对于图,GAE (Graph Autoencoder)重建图的构造信息或节点特色。现有的图数据动编码器大多着眼于链接预测和图数据聚类指标,因而通常会抉择重构图数据的构造信息,即邻接矩阵 a。所以近年来图数据自编码器的停顿远远落后于比照学习,在分类等工作上的体现并不令人满意。节点分类、图分类等工作的 SOTA 都是基于比照学习的办法。

与以前的图形自编码器不同,GraphMAE 通过简略的重建被遮蔽的损坏节点特色,使图自编码器超过比照学习

GraphMAE 的要害设计在于以下几个方面:

  • 基于遮蔽的节点特色重构。现有的图数据自编码器通常以边缘作为重构指标,但其在上游分类工作中的体现通常较差。
  • 以 GNN 为解码器进行以重建过程。现有的图自编码器通常抉择 MLP 作为解码器,因为大多数图形节点特色是间断的向量,MLP 的能力不足以从编码后果重建节点特色。
  • 用缩放后的余弦误差作为损失函数来代替 MSE。

在 21 个不同大小的数据集上,GraphMAE 在节点分类、图分类和分子性质预测 3 个工作上的性能进行了评估。试验结果表明,GraphMAE 在不依赖数据加强等任何技术的状况下,获得了与以后最优比照学习办法相当甚至超过的后果。

这表明生成式自监督学习依然有很大的后劲,GraphMAE 有助于咱们在图生成学习方面的进一步摸索。

GraphMAE 是如何工作的

应用 [MASK] 重构节点特色

最近对于图自编码器的许多工作都偏向于重建构造和节点特色。这些致力并没有取得像在 NLP, CV 中所获得的重大进展。在 [1] 中,通过提取曾经训练过的 GNN 中的信息,能够使 MLP 在节点分类的性能方面与 GNN 相媲美。这表明了节点个性在工作 (如分类) 中的重要性。因而,GraphMAE 应用且仅应用重构的特色作为自监督学习的指标,分类工作的试验也表明,重构的节点特色能够提供无效的信息。

具体来说,相似于 BERT 和 MAE,对于一个图,X 是它所有节点的特色矩阵。随机选取一部分随机节点,用 [MASK] 替换其特色。

带复遮蔽掩码的 GNN 解码器

解码器的作用是将编码器失去的节点示意 H 映射回输出的节点特色 X。它的设计应该取决于重构指标 x 的语义级别。例如在 NLP 中,一个绝对简略的解码器 (如 MLP) 通常就足够了,因为重构的指标是一个语义丰盛的缺失词。在 CV 中 MAE 显示,要复原低语义信息的像素,须要更简单的解码器(如 Transformer 模型)。

在图学习中解码器须要重构绝对大量的信息高维向量。传统解码器要么不应用神经网络作为解码器,要么应用 mlp。这些解码器表现力较差导致编码器取得的节点示意 H 简直与输出 X 雷同。

因而 GraphMAE 采纳单层图神经网络作为解码器。GNN 解码器能够依据节点四周的节点散布复原本身的输出特色,而不仅仅是节点自身,因而它能够帮忙编码器学习高级信息。

此外 GraphMAE 应用了一种新的“re-mask”办法。最后采样节点的示意再次用另一个掩码标识 [DMASK] 替换,即解码器的掩码标识向量。通过从新掩蔽和 GNN 解码器,模型通过被掩蔽的指标节点的未掩蔽街坊的示意来重建被掩蔽的指标节点。

按比例放大的余弦误差

不同钻研畛域的自编码器对重构误差的测量是不同的。在 NLP 中,预训练的语言模型以穿插熵误差的模式预测掩码令牌 id,而 CV 中的 MAE 间接应用均方误差 (mean square error, MSE) 来预测掩码像素。GraphMAE 间接重建每个被覆盖节点的原始特色,现有的用于节点特色重建的图自编码器应用均方误差 (Mean Squared Error, MSE) 作为损失函数。

在论文中提到,在训练中 MSE 如果被最小化到接近于零是难以优化的,这可能不足以进行有意义的特色重构,所以 GraphMAE 应用余弦误差来掂量重构成果。引入尺度余弦误差 (Scaled Cosine Error,SCE) 来进一步改善余弦误差。对于高相信预测,相应的误差通常小于 1,当比例因子 gamma 大于 1 时,误差会更快地衰减为零,这相当于为不同艰难水平的样本调整了权重。给定原始输出特色 X 和解码器输入 Z,缩放后的余弦误差定义为上面的公式:

缩放因子是一个超参数,能够在不同的数据集上调整。缩放误差也能够看作是一个自适应的样本权重调整,其中每个样本的权重调整不同的重建误差(相似于 Focal Loss[4])。

试验后果

从以上后果来看,GraphMAE 在节点分类、图分类和分子性质预测工作上均匀优于 SOTA 比照学习办法。

总结

GraphMAE 证实生成式自我监督学习在图示意学习中依然有很大的后劲。与比照学习相比,GraphMAE 不依赖于数据加强等技术。因而生成式自监督学习在将来的图示意学习 2 中值得进行更深刻的摸索。更多的细节能够在论文和代码中找到。

https://avoid.overfit.cn/post/c4b9e590e7464b059fb6d756b3f794e2

本文的一些援用

[1] Shichang Zhang, Yozen Liu, Yizhou Sun, and Neil Shah. 2022. Graph-less Neural 1037 Networks: Teaching Old MLPs New Tricks Via Distillation. In ICLR.

[2] Kaiming He, Xinlei Chen, Saining Xie, Yanghao Li, Piotr Dollár, and Ross Gir- shick. 2021. Masked autoencoders are scalable vision learners. In CVPR.

[3] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 2019. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. In NAACL. 4171–4186

[4] Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He, and Piotr Dollár. 2017. Focal loss for dense object detection. In ICCV.

[5] Yuning You, Tianlong Chen, Yongduo Sui, Ting Chen, Zhangyang Wang, and 1030 Yang Shen. 2020. Graph contrastive learning with augmentations. In NeurIPS

[6] Shantanu Thakoor, Corentin Tallec, Mohammad Gheshlaghi Azar, Rémi Munos, Petar Veličković, and Michal Valko. 2022. Large-Scale Representation Learning 1000 on Graphs via Bootstrapping. In ICLR.

[7] Petar Veličković, William Fedus, William L Hamilton, Pietro Liò, Yoshua Bengio, and R Devon Hjelm. 2018. Deep Graph Infomax. In ICLR.

[8] Yanqiao Zhu, Yichen Xu, Feng Yu, Qiang Liu, Shu Wu, and Liang Wang. 2020.Deep graph contrastive representation learning. arXiv preprint arXiv:2006.04131 1040 (2020).

[9] Xiao Liu, Fanjin Zhang, Zhenyu Hou, Li Mian, Zhaoyu Wang, Jing Zhang, and Jie Tang. 2021. Self-supervised learning: Generative or contrastive. TKDE (2021).

作者:Shaw99

退出移动版