关于深度学习:2021年Graph-ML热门趋势和主要进展总结

20次阅读

共计 6517 个字符,预计需要花费 17 分钟才能阅读完成。

对于 Graph ML 来说 2021 年是重要的一年——成千上万的论文、有数的会议和研讨会 …… 阐明这个畛域是在蓬勃的倒退。我将 Graph ML 这一年的停顿进行结构化的展现,并重点介绍 🔥 趋势和次要提高。

无论您是在钻研细分的主题还是刚开始应用 Graph ML – 咱们都心愿这篇文章是一个很好的参考点。这个畛域太大了如果我错过了一些重要的货色,请在评论中通知咱们!

Graph Transformers + Positional Features

GNN 在通常是稠密的图上运行,而 Graph Transformers (GT) 在全连贯图上运行,其中每个节点都连贯到图中的每个其余节点。一方面,这带来了节点 N 数量的 O (N²) 复杂度。另一方面,GT 不会蒙受适度平滑,这是长距离消息传递的常见问题。全连贯图意味着咱们有来自原始图的“真”边和从全连贯变换中取得的“假”边。咱们还须要一种办法来为节点注入一些地位特色,否则 GT 会落后于 GNN(如 Dwivedi 和 Bresson 的 2020 年论文所示)。

往年最引人注目的两个 Graph Transformers 模型可能是 SAN(Spectral Attention Nets)和 Graphormer。

Kreuzer、Beaini 等人的 SAN 应用了拉普拉斯算子的 top-k 特征值和特征向量,表明独自的谱特色(spectral features)能够辨别被 1-WL 测验确定是否同构的图。SAN 将光谱特色与输出节点特色连接起来,在许多分子工作上优于稠密 GNN。

Ying 等人的 Graphormer 采纳了不同的办法并应用了空间特色。节点特色丰盛了核心性编码(centrality encoding)——可学习的入度和出度嵌入。注意力机制有两个偏置项:1、节点 i 和 j 之间最短门路的间隔;2、取决于一条可用最短门路的边特色编码。

Graphormer 实现了 2021 年 Graph ML 大满贯:OGB large Challenge 和 Open Catalyst Challenge 图回归工作第一名!(以下将具体介绍这些挑战)

SAN 和 Graphormer 在分子级别的工作上进行了评估,图相当小(均匀 50-100 个节点),这样计算量不会特地大,例如运行 O (N³) Floyd-Warshall 所有对最短门路。Graph Transformers 依然受到 O (N²) 注意力机制的限度。缩放到大于分子的图形可能会解决这些问题。来自 NLP 的思维可能会有所帮忙,但因为他们从未实现注意力矩阵,因而须要找到一种聪慧的办法将边缘特色置于此类模型中。在 2022 年应该会看到更多对于这方面的钻研!

Equivariant GNNs

Geoffrey Hinton 提出的 equivariance 有何独特之处?

equivariance 在 2021 年掀起了 ML 的风暴,在 Graph ML 中,它在许多 molecular tasks 中尤其具备破坏性。等变 GNN 须要一个额定的节点特色输出——即物理坐标的一些示意,这些示意将在 n 维空间中旋转 / 反射 / 平移。

Satorras、Hoogeboom 和 Welling 提出了 EGNN、E(n) 等变 GNN,其与一般 GNN 的重要区别在于将物理坐标增加到消息传递和更新步骤。方程 3 将绝对平方间隔增加到音讯 m,方程 4 更新地位特色。EGNN 在建模 n 体零碎、作为主动编码器和量子化学工作(QM9 数据集)方面显示出令人印象粗浅的后果。

另一种抉择是合并原子之间的角度,如 Klicpera、Becker 和 Günnemann 在 GemNet 中所做的那样。这可能须要将输出图转换为折线图,例如边图,其中来自原始图的边变成折线图中的节点。这样就能够将角度作为新图中的边特色。

GemNet 在分子动力学工作上获得了不错的问题:COLL、MD17 和 Open Catalyst20。显然 equivariance 才刚刚起步🛫,咱们将在 2022 年看到更多提高!

Generative Models for Molecules

因为几何深度学习,整个药物发现 (DD) 畛域在 2021 年失去了显着的倒退。DD 的泛滥要害挑战之一是生成具备所需属性的分子(图)。这个畛域很大,所以咱们只强调模型的三个分支。

Normalizing Flows.

Satorras、Hoogeboom 等人利用上述 equivariance 框架来创立 E(n) 等变归一化流,可能生成具备地位和特色的 3D 分子

概率模型

Shi、Luo 等人钻研了在给定 2D 图形的状况下生成 3D 构象异构体(即 3D 构造)的问题。模型 ConfGF 预计原子坐标对数密度的梯度场。作者想出了一种办法将这种旋转平移等变属性合并到预计器中。

RL 办法

用一种十分不迷信的形式来形容,这些办法通过逐渐增加“构建块”来生成分子。咱们能够依据这种构建过程的条件对这些办法进行宽泛的分类。例如 Gao、Mercado 和 Coley 将构建过程设定在合成能力上,也就是说否可能在实验室中发明这个分子。他们首先学习如何创立构建块的合成树(相似模板)。

由 Yoshua Bengio 领导的 Mila 和 Stanford 钻研团队提出了一个更通用的框架,Yoshua Bengio 介绍了 GFlowNets。这很难用几句话来概括——当想要对不同的候选人进行抽样时,GFlowNets 能够用于被动学习案例并且抽样概率与处分函数成正比。他们最近在 NeurIPS 发表的 21 篇论文显示了 GFlowNets 利用于分子生成工作的益处。

GNNs + Combinatorial Optimization & Algorithms

Xu 等人在他们 ICLR’21 论文中钻研了神经网络的外推并得出了几个惊人的后果。应用算法对齐的概念,作者表明 GNN 与动静布局 (DP) 良好对齐(查看插图 👇)。与 ICLR’20 论文相比,作者在这里探讨了更强的外推条件 – 与 DP 的线性对齐。事实上比拟经典 Bellman-Ford 算法的迭代以寻找最短门路和通过 GNN 的音讯的聚合组合步骤 – 你会发现很多共同点。作者还表明,在建模特定 DP 算法时,为 GNN 抉择适合的聚合函数至关重要,例如对于 Bellman-Ford,须要一个最小聚合器。

为了对该畛域进行更全面的介绍,我想重点介绍 Cappart 等人在 IJCAI’21 上进行的一项全面考察,该考察涵盖了优化组合中的 GNN。这篇文章首次呈现了神经算法推理蓝图,起初在 Veličković 和 Blundell 的 Patterns 中的论文中进行了形容。

该蓝图解释了神经网络如何模拟和受权嵌入空间中通常离散算法的执行过程。在编码 - 解决 - 解码形式中,形象输出(从天然输出取得)由神经网络(处理器)解决,其输入被解码为形象输入,而后能够映射到更天然的工作特定输入。例如如果形象输出和输入能够示意为图形,那么 GNN 能够是处理器网络。离散算法的一个常见预处理步骤是将咱们对问题的理解压缩为“间隔”或“边容量”等标量,并在这些标量上运行算法。相同向量示意和神经执行能够轻松启用高维输出而不是简略的标量,并附加反向流传以优化处理器。无关更多信息,请参阅 Petar Veličković 的演讲。

这个蓝图正在被越来越多的人应用——例如 NeurIPS’21 有一些很酷的作品!Xhonneux 等人钻研了迁徙学习是否可用于将学习到的神经执行器泛化到新工作;Deac 等人发现了强化学习中算法推理和隐式布局之间的分割。2022 年还会有更多!

Scalability and Deep GNNs: 100 Layers and More

如果你在应用 2-4 层 GNN 时嫉妒深度 ResNets 或 100 层以上的微小 Transformer,那么是时候欢呼了🤩!2021 年为咱们带来了 2 篇随便训练 100-1000 层 GNN 的论文,以及一篇对于简直恒定大小的邻域采样的工作。

Li 等人提出了两种机制,在训练极深的过参数化网络时,能够将 GPU 内存耗费从 L 层的 O(L)大幅升高到 O(1)。作者展现了如何应用在 CV 或高效的 Transformer 架构(如 Reformer)中应用了多年的可逆层;在层之间共享权重。而后能够训练多达 1000 层的 GNN。上面的图表展现了对 GPU 要求适中的层数的一直扩大。

Godwin 等人介绍了一种利用递归学习深度 GNN 的办法——消息传递步骤被组织成块,每个块能够有 M 个消息传递层。而后循环利用 N 个块,这意味着块之间共享权重。如果有 10 个消息传递层和 10 个块将失去一个 100 层的 GNN。这外面其中一个重要的组成部分是噪声节点正则化技术,它扰动节点和边的特色并计算额定的去噪损失。该架构适宜更好的分子工作,并在 QM9 和 OpenCatalyst20 数据集上进行了评估。

如果咱们想要将任意 GNN 缩放到十分大的图,咱们没有其余抉择只能对子图进行采样。如果采样 k -hop 子图会导致指数级的内存开销和计算图的大小。

PyG 的作者 Matthias Fey 等人创立了 GNNAutoScale,它利用历史嵌入 (缓存以前消息传递步骤) 和图聚类 (驰名的 METIS 算法) 在恒定工夫内缩放 gnn 的框架。在预处理时将图划分为 B 个簇 (小批量),使簇之间的连通性最小化。而后通过这些簇运行音讯,在缓存中跟踪更新的节点个性。通过试验证实深度网络(最多 64 层) 的 GNNAutoScale 性能与残缺批量一样好,但内存需要显著升高(大概是一般 GPU 的 50 倍),因而能够将深度 gnn 和大型图搁置生产级 GPU 上💪

常识图谱

基于 kg 的表征学习终于冲破了转换的极限。在 2021 年之前,模型被明确地分为直推式型和演绎型并且具备不同的演绎偏差、架构和训练形式。直推式模型没有机会适应看不见的实体,而演绎模型对于训练中大型图来说太低廉了。

2021 年呈现了很多办法对这两种架构的改良:

  • 在直推和演绎环境中工作
  • 不须要节点特色
  • 能够在演绎模式中以与直推模式雷同的形式进行训练
  • 可扩大到事实世界的 KG 大小

Zhu 等人的 Neural Bellman-Ford 找到了一种十分优雅的办法将经典的 Bellman-Ford 推广到更高级别的框架,并展现了如何通过应用特定运算符实例化框架来取得其余出名办法,如 Katz 指数、PPR 或最宽门路。更重要的是,他们的论文表明狭义 Bellman-Ford 实质上是一个关系 GNN 架构(GNN 和动静布局之间算法对齐的另一个确认)。NBFNet 不学习实体嵌入(仅关系和 GNN 权重),这使模型能够通过设计和泛化到看不见的图并具备演绎性。该模型在关系图和非关系图上的链接预测工作上都表现出色。在 KG 的利用中,NBFNet 从 2019 年开始为 FB15k-237 和 WN18RR 带来最大的性能晋升,同时参数缩小了 100 倍

Galkin 等人(本文的作者是论文的作者之一)的另一种办法的灵感来自 NLP 中的标记化算法,该算法蕴含了固定的可能标记任何单词的词汇表,那些在训练时看不见的单词也包含在外面。将这种办法利用于 KG,NodePiece 将每个节点示意为一组前 k 个最近的锚节点(在预处理步骤中采样)和节点四周的 m 个惟一关系类型。锚点和关系类型被编码为可用于任何上游工作(分类、链接预测、关系预测等)和任何演绎 / 直推设置的节点示意

NodePiece 的特色能够被像 RotatE 这样的非参数解码器间接应用也能够发送到 gnn 进行消息传递。该模型在演绎链接预测数据集上具备与 NBFNet 相当的性能,在大型图上具备较高的参数效率——OGB WikiKG 2 上的 NodePiece 模型须要的参数比浅层的直推模型少约 100 倍。

一些其余的 GNN 的钻研

本节提到了几个特地有意思的作品,它们应用了 GNN 但不属于某个特定类别。

Huang、He 等人在 ICLR’21 上展现了 Correct & Smooth – 一个通过标签流传改良模型预测的简略程序。该办法在没有应用任何 gnn 和更少的参数的状况下,仅与一个 MLP 配对并以最高分数横扫 OGB 排行榜! 目前简直所有 OGB 的节点分类上的顶级模型都应用了 Correct & Smooth 来取得更多一点的分数。

11 月,Knyazev 等人在通过一次前向传递预测各种神经网络架构参数的工作触动了 ML 社区。与其随机初始化模型还不如间接应用预测好的参数,而且这样的模型曾经大大优于随机模型👀。如果你用 n 个 SGD 步骤优化一个随机初始化的网络,你会失去更好的后果,但本文的次要奉献是通常能够找到适合的参数而不训练这个特定的架构。

参数预测实际上是一个图学习工作,任何神经网络架构 (ResNet, ViT, transformer,还有你的模型) 都能够示意为一个计算图,其中节点是具备可学习参数的模块,节点的特色就是那些参数。咱们有一堆节点类型 (例如,线性层,Conv 层,BN,作者大略整顿了~15 个节点类型)。参数预测是一个节点回归工作,计算图用 GatedGNN 编码,它的新示意被发送到解码器模块。为了训练作者收集了一个新的蕴含了 100 万架构(图) 的数据集,结果表明这种办法实用于任何神经网络架构,甚至实用于其余 gnn !

DeepMind 和谷歌通过将路线网络建模为超分段图并在其上利用 GNN,极大地提高了谷歌地图中 ETA 的品质。在 Derrow-Pinion 等人的论文中,该工作被定义为节点级和图级回归。作者还形容了许多须要解决的工程挑战,以便在谷歌地图规模上部署零碎。这个论文能够作为利用 GNN 解决数百万用户面临的理论问题的完满示例!

Transgene 和 NEC 最近发表了 GNN 在癌症钻研中的另一个潜在影响利用。依据 NEC 首席研究员 Mathias Niepert 的说法,GNN 被用于通过嵌入流传来估算失落的患者数据。

最初,DeepMind 的 Davies 等人最近应用 GNN 来帮忙制订与外围数学问题无关的猜测,实际上的确找到并证实了一个新定理!这表明,GNN 也能够解决十分形象的问题

新数据集、挑战和工作

如果您厌倦了 Cora、Citeseer 和 Pubmed – 2021 年带来了大量不同大小和特色的新数据集。

OGB 在 KDD’21 上组织了大规模挑战,其中蕴含 3 个十分大的图用于节点分类(240M 节点)、链接预测(整个 Wikidata,90M 节点)和图回归(4M 分子)。在 KDD 中,大多数获胜团队应用 10-20 个模型的集成。新版本的 LSC 数据集当初可用于新的排行榜!

Meta AI 发动的 Open Catalyst NeurIPS’21 Challenge 提供了一项大型分子工作——在给定具备原子地位的初始构造的状况下预测松弛态能量。数据集很大须要大量的计算,但组织者暗示会公布一个更小的版本,这对 GPU 估算无限的小型实验室会更敌对一些。Graphormer 在 OGB LSC 和 OpenCatalyst’21 中都取得了第 1 名,简直在 2021 年收集了 Graph ML 的大满贯 🏅

Graph Learning Benchmarks Workshop @ The WebConf 2021 带来了一系列新数据集,包含 Lim 等人的非同质图、Tsitsulin 等人的图模仿、Rozemberczki 等人的时空图等等

NeurIPS 的 21 Datasets & Benchmarking Track 就像一个新数据集的 SXSW 节:往年咱们有 MalNet – 图分类,其中均匀图大小为 15k 节点和 35k 边,比分子大得多;ATOM3D – 一系列新的 3D 分子工作;RadGraph – 从放射学报告中提取信息。Liu 等人形容了了创立图学习数据集分类法的挑战。

新的开源库

2021 年公布的新库:

 TensorFlow GNN - 作为 Tensorflow 世界中的一等公民的 GNN。TorchDrug - 用于分子和 KG 工作的基于 PyTorch 的 GNN 库

已建设的 Graph ML 库已更新:

 PyG 2.0 - 当初反对异构图、GraphGym 以及一系列改良和新模型
 DGL 0.7 - GPU 上的图形采样、更快的内核、更多模型
 PyKEEN 1.6 - 用于训练 KG 嵌入的首选库:更多模型、数据集、指标和 NodePiece 反对!Jraph - JAX 爱好者的 GNN

以上就是 2021 年的总结,通过以上能够看到 2022 年将注定时 Graph ML 不平庸的一年

作者:Michael Galkin

最初如果你对加入 Kaggle 较量感兴趣,请私信我,邀你进入 Kaggle 较量交换群

正文完
 0