咱们都厌恶对文章进行简短而毫无意义的介绍所以我就直奔主题了。2021年还有10天就过来了, 以下是我认为 2021 年最乏味、最有前途的深度学习论文。

本篇文章的目标是简略地解释它们,并联合非常简单/简单的简短文字,这样能够让本文对初学者和有常识的人同时都有肯定的帮忙。

阐明:本文的主题的抉择是集体的并且十分有偏见,它们将涵盖更多的计算机视觉主题,而NLP,GANs会比拟少,前面咱们还会梳理更多论文的举荐文章。

CLIP

https://arxiv.org/pdf/2103.00...

视觉+语言的多模态学习变得风行的起因就是这篇 OpenAI 论文,它能够更轻松地扩大图像识别工作,因为它不须要耗时的手动标记。它能够从原始文本中学习而不须要手动确定标签,并且在几个驰名的数据集中取得了最先进的后果。

这是一个新的学习概念吗?不是,但它是迄今为止最有“野心的”的。OpenAI收集了一个蕴含 4 亿个图像+文本对的数据集来训练这个模型:对于文本编码应用批改后的 Transformer 架构,对于图像编码应用 ResNet-50、ResNet-101、EfficientNet 和 Vision Transformers(均已批改)。通过比照测试体现最好的是 Vision Transformer ViT-L/14。

它是如何工作的?实践十分的简略:比照学习(Contrastive Learning),一种家喻户晓的zeroshot和自监督学习技术。给定一对带有文本形容的图像,将它们的特色靠的近一些。如果给定一对文本形容谬误的图像,将它们的特色拉远。这样在用句子查问图像时,越靠近的就是“更正确”的。

带有 N 个文本形容的 N 个图像别离应用图像和文本编码器进行编码,以便将它们映射到较低维的特色空间。接下来应用另一个映射,从这些特色空间到混合特色空间的简略线性投影映射称为多模态嵌入空间,通过余弦类似度(越靠近越类似)应用正+负的比照学习对它们进行比拟。

CLIP 可能解决多个文本示意同一图像的问题(即多义性),并且在一些最驰名的数据集(如 ImageNet、CIFAR 和 Pascal VOC)上的体现优于最先进的模型。此外因为它应用比照学习所以它是一个zeroshot的学习器,能够比以前的模型更好地泛化到未呈现的类别。

扩散模型(Diffusion Models)

我厌恶 GAN的次要起因是它学习十分不稳固,须要破费大量工夫进行微调,尤其是英伟达在 GitHub 中实现的 StyleGAN 。如果你也跟我的想法一样,那么GANs不再是图像生成和翻译的最先进的技术,这个你会置信吗?替换掉GANs的是 VQ-VAE 吗?基于流的生成模型Generative flows?都不是。

OpenAI 的去噪扩散模型示例 https://arxiv.org/pdf/2105.05...

咱们能够拍摄一只可恶的狗的图像并为其增加一些乐音,咱们依然能够完满地看到这只狗,所以让咱们增加更多,更多,更多的噪声,直到初始狗图像无奈辨认并且咱们看到的也只是随机的噪声。如果一个艺术家看到了一步一步增加乐音的所有过程,那么这个艺术家将可能在每个工夫步还原该过程再次复原最后的狗吗?

在给定数据分布后咱们能够定义一个前向马尔可夫扩散过程,该过程在工夫 t 增加高斯噪声,直到 t 足够大以至于图像简直是各向同性的高斯分布,因而咱们能够在神经网络的帮忙下逐渐反转该过程并使得初始数据的散布近似(https://arxiv.org/pdf/2102.09...)。在每个工夫步预测的图像噪声都会缩小,在 OpenAI 的 DDM 的状况下,应用具备全局注意力的 UNet 架构和嵌入到每个残差块中的工夫步长的投影。

高质量的图像生成很酷,然而他的输入能够调节吗?谷歌的SR3模型通过学习将规范的正态分布转换为教训数据分布,将分辨率非常低的图像转换为清晰的高清图像。该过程的思维与下面解释的相似,但在去噪过程中也思考到初始的低分辨率图像作为一个通道与以后的工夫步长噪声图像合并。该过程进行了 2000 次并且还应用了进行一些奇异批改的UNet 架构。

谷歌在这方面的最新工作:Palette。它不仅在多个图像到图像的工作上取得了最先进的后果,而且不须要特定于工作的超参数调整、架构定制或辅助损失(想想GAN,你不感觉亏心吗)。与之前的工作相比,次要的变动是对 UNet 架构进行了更多的批改,并且没有对分类进行调节(只有图像调节)。

各种Mixers

CV人员和NLP 人员相爱相杀,就像他们常说的一句话:该死的 NLP!他们毁了 NeurIPS!

具备自注意力的 Transformer 在 NLP 畛域中倒退和壮大并在每项语言工作上都体现得十分杰出能够轻松地扩大到大型数据集,然而当有人提出将这个概念引入计算机视觉的想法时平静被突破了。咱们都说“不可能进行逐像素注意力!”、“它行不通!”、“它太占用内存了!”直到一个在 16x16 的patch上执行注意力并超过几个图像分类 SOTA的模型”。“Noam Chomsky是对的……智能来自语言……”,自那当前每篇 CV 论文都应用了一些自注意力机制,从自我监督到图像生成(甚至去噪!我从没想过来噪居然也失陷了……)。

但起初“MLP-Mixers……”来了。对于NLP的“憎恶者”来说,他们的“救星”居然是另外一个更不被期待的个体:感知机。因为在CV中没有人会感觉感知机权重的重要性有这么大,然而这个后果对于CV的从业人员来说这所有都说得通了,Vision Transformers 的性能齐全来自Patch!仅应用多层感知机和一些 per-patch 线性嵌入、混合层、全局均匀池化……等等就能够与 Vision Transformers 竞争(尽管尚未超过),这确实是杰出后果。

MLP-Mixers 不依赖于输出数据,更容易训练并且不须要地位编码(因为技术上使它们对排列敏感)。

CV的人很称心(至多体面上保住了), MLP-Mixers 简直很好但它短少一些货色……惟一能够证实计算机视觉的货色:卷积!因而,ConvMixers 诞生了。尽管它仍在双盲审查中,然而仅应用规范卷积就曾经胜过 ResNets、Vision Transformers 和 MLP-Mixers,还是十分值得咱们期待的。

该体系结构模仿了MLP-Mixers的思维,即Vision Transformer的理论性能来自基于Patches的示意,而不是Transformer体系结构自身。ConvMixers在Patches上运行,在所有层中放弃分辨率和大小所以也不会呈现瓶颈层,采纳通道形式进行混合并且整个架构非常简单。这使得领有一般深度学习pc的人们能够再次应用SOTA技术,这才是科技的力量!

不应用比照对的自监督学习

https://arxiv.org/pdf/2102.06...

在下面的 CLIP 局部,咱们探讨了比照学习以及它如何通过最小化/最大化对之间的间隔来学习嵌入。CLIP 应用正/负对来学习嵌入,但像 BYOL 或 SimSiam 这样的办法不须要正+负数据对,只须要将同一图像的两个增广的后果输出带有 BYOL 的孪生神经网络(用于比拟实体的模型) 并且在其中一个分支中应用梯度进行的操作。其中一个分支(预测分支)的学习形式与另一个分支(在线分支)雷同,因而存在一种均衡能够确保在线和指标示意之间的任何匹配不会仅仅归因于预测权重。使用权重衰减和进行梯度有助于这种均衡,并且它们更高效、更简略,在保护SOTA的同时须要更小的批处理大小。

该论文中链接解释了这些办法背地的数学实践,数学是无聊的局部,这里也不具体的解释了。

另外一个亮点是引入DirectPred作为预测器,它通过预计预测器输出的相关矩阵并将其权重设置为此的函数来防止应用梯度降落。该相关矩阵是通过预测变量和相关矩阵的权重之间的特色空间对齐以及使用权重衰减收敛到不变抛物线来计算的。

其余

以下这些论文也十分的重要(我认为),然而他可能不是在往年公布的,然而对往年这些论文的倒退有着重要启发,所以这里还是要提一下。

如何在神经网络中示意局部-整体层次结构(https://arxiv.org/pdf/2102.12...):我将援用 Yannic Kilcher 的一个十分好的形容,我认为它更好地形容了这篇论文:“Geoffrey Hinton 形容了 GLOM,一种联合了transformers、神经场、比照学习、胶囊网络、去噪的计算机视觉模型自编码器和 RNN。GLOM 将图像合成为对象及其局部的解析树。与以前的零碎不同,解析树是针对每个输出动静且不同地构建的,而不会扭转底层神经网络。这是通过多步一致性算法实现的,该算法同时在图像的每个地位运行不同的形象级别。GLOM 目前只是一个想法,但提出了一种全新的 AI 视觉场景了解办法。”

常识蒸馏: 神经网络变得越来越大,每年都须要更多的计算资源。将常识转移到较小网络同时放弃其准确性的一种办法是应用所谓的常识蒸馏。最后由 Hinton 定义(他无处不在)是由一种学生-老师学习的办法,该办法将最重要的信息从一个微小的网络中提取到一个较小的网络中。我认为这篇论文(https://arxiv.org/pdf/2004.05...)十分宽泛地解释了 KD 的 SOTA 和新前景。

自/零/无监督学习:深度学习社区开发了令人惊叹的架构,能够真正受害于在大量数据上进行训练。当初的瓶颈在于数据收集和标记,一个数据标注可能须要数小时的人工工作并且十分低效。这篇论文专一于自监督学习(https://arxiv.org/pdf/2110.09...)十分奇妙地解释了让网络生成本人的标签的优缺点以及它如何扭转网络的数据外部示意。

胶囊网络:Hinton 咱们曾经在 GLOM 中提到了它,然而胶囊网络这个概念在 2021 年还差得很远,但将来几年它的规模将会增长。次要思维是以察看概率和姿势的模式向规范 CNN 增加更多构造。这样使图像识别取得了额定的空间鲁棒性即图像上的排列,说到排列不就是一个一个的16*16的块吗

基于流的生成模型:无监督学习、强化学习、图像生成……你能想到的!往年基于流的标准化散布建模将进入你的视线,并且会继续一段时间。亚马逊 Alexa 的声音就是应用这些生成的。这是一个容易了解的概念吗?不齐全是?这是一种间接对数据似然进行建模的惊人办法,与 SOTA 图像和音频生成相比,它产生了惊人的后果,然而这个办法的须要弱小数学根底,也就是说须要更多的工夫能力失去其余概念的总体思路,你懂的!

作者:Diego Bonilla