1. 简介
在本教程中,咱们将探讨深度学习中的潜在空间。首先,咱们将定义这个术语并探讨它对深度学习的重要性,而后咱们将展现一些潜在空间的例子。
2. 定义
模式上,潜在空间被定义为形象的多维空间,它编码内部察看事件的有意义的外部示意。在内部世界中类似的样本在潜在空间中彼此凑近。
为了更好地了解这个概念,让咱们考虑一下人类如何感知世界。通过将每个察看到的事件编码为咱们大脑中的压缩示意,咱们可能了解宽泛的主题。
例如,咱们不会记住狗的每一个外观细节,以便可能在街上认出一只狗。正如咱们在下图中所看到的,咱们保留了狗的个别外观的外部示意:
以相似的形式,潜在空间试图通过空间示意向计算机提供对世界的压缩了解。
3. 深度学习的重要性
深度学习曾经彻底改变了咱们生存的许多方面,其利用范畴从主动驾驶汽车到预测重大疾病。它的次要指标是将原始数据(例如图像的像素值)转换为适合的外部示意或特征向量,学习子系统(通常是分类器)能够从中检测或分类输出中的模式。因而,咱们意识到深度学习和潜在空间是密切相关的概念,因为前者的外部示意形成了后者。
正如咱们在上面看到的,深度学习模型将输出原始数据并输入位于称为潜在空间的低维空间中的判断特色。而后应用这些特色来解决各种工作,如分类、回归或重建:
为了更好地了解潜在空间在深度学习中的重要性,咱们应该思考以下问题:为什么咱们必须在分类、回归或重建之前在低维潜在空间中对原始数据进行编码?
答案是数据压缩。具体来说,在咱们的输出数据是高维的状况下,不可能间接从原始数据中学习重要信息。
例如,在图像分类工作中,输出维度可能与输出像素绝对应。零碎仿佛不可能通过查看如此多的值来学习有用的分类模式。解决方案是应用深度神经网络将高维输出空间编码为低维潜在空间。
4. 实例
当初,让咱们探讨深度学习中的一些例子,其中潜在空间的存在对于捕捉工作复杂性和实现高性能是必要的。
4.1. 图像特色空间
正如咱们之前提到的,潜在空间是每个卷积神经网络不可或缺的一部分,它以图像的原始像素作为输出,并在最初一层对潜在空间中的一些高级特色进行编码。
这个潜在空间使模型可能应用低维判断特色而不是高维原始像素来执行工作(例如,分类)。在下图中,咱们能够看到 CNN 的个别架构:
训练后,模型的最初一层捕捉了图像分类工作所需的重要输出模式。在潜在空间中,描述同一对象的图像具备十分靠近的示意。通常,潜在空间中向量的间隔对应于原始图像的语义相似性。
上面,咱们能够看到动物分类模型的潜在空间是怎么的。绿色点对应于从模型的最初一层提取的每个图像的潜在向量。咱们察看到雷同动物的向量更靠近潜在空间。因而,模型更容易应用这些特征向量而不是原始像素值对输出图像进行分类:
4.2. 词嵌入空间
在自然语言解决中,词嵌入是词的数字示意,因而类似的词具备靠近的示意。因而,词嵌入位于一个潜在空间中,每个词都被编码成一个低维语义向量。
有许多学习词嵌入的算法,如 Word2Vec 或 GloVe。在下图中,咱们能够看到潜在空间中词嵌入的拓扑图:
正如预期的那样,语义类似的词,如“toilet”和“bathroom”,在潜在空间中有严密的词嵌入。
4.3. GANs
在之前的教程中,咱们曾经探讨了很多对于 GAN 及其利用的内容。简而言之,GAN 将来自某些先验散布和输入的随机向量作为输出和图像。该模型的指标是学习生成实在数据集的底层散布。例如,如果咱们的数据集蕴含带椅子的图像,则 GAN 模型会学习生成带椅子的合成图像。
GAN 的输出充当潜在向量,因为它将输入图像编码为低维向量。为了验证这一点,咱们能够看到插值在潜在空间中是如何工作的,因为咱们能够通过线性批改潜在向量来解决图像的特定属性。
在下图中,咱们能够看到如何通过扭转生成人脸的 GAN 的潜在向量来解决人脸的姿态:
5. 总结
在本教程中,咱们介绍了深度学习中的潜在空间。首先,咱们探讨了该术语的定义及其与深度学习的密切关系,而后咱们提供了一些说明性示例。
本文由 mdnice 多平台公布