一文带你看遍深度学习发展的成就历程一

42次阅读

共计 4351 个字符,预计需要花费 11 分钟才能阅读完成。

在这篇文章中,作者将描述 17 年在机器学习领域中发生了什么有趣的重大发展, 主要是深度学习领域。在 17 年中发生了很多事情,在作者停下来进行回顾的时候,他发现了这些发展的成就是非常壮观的,下面让我们来在作者的带领下认识一下 17 年在深度学习中发展的领域的状况,这篇文章很可能会影响我们在数据科学领域未来的发展。

1. 文字

1.1 谷歌神经机器翻译

2016 年左右,谷歌宣布推出谷歌翻译新模式。谷歌公司详细描述翻译的网络架构 – 回归神经网络(RNN)。

而最后的主要结果是:缩小了机器与人类在翻译准确性方面上的差距,达到了 55-85%(人们按照六分制进行评分)。如果 Google 没有拥有的庞大数据集,那么很难重新呈现这个模型的高效果性。

1.2 人机交流是否会有市场?

你可能在过去听到了一个古怪的新闻,新闻的内容是 Facebook 关闭了它的聊天机器人,原因是这个聊天机器人已经失去了控制并创造了自己的语言。这个聊天机器人是由 FB 公司创建的。它的主要目的是与另一个代理人进行文本交流并达成共识:如何将一个物品(书籍,帽子等)分成两部分。每个代理人在交流中都有自己的目标,而对方则不知道对方的目标。在没有达成协议的情况下不可能离开这场交流。

在训练这方面,他们收集了人类交流谈话的数据集,并培训了一个受监督的神经网络。然后,他们使用了一个强化学习训练的代理人并训练它与自己交谈,并设定了一个限制:使用的语言必须跟人类的语言相似。

机器人已经学会了一种真正的交流策略,比如在交易的某些方面表现出虚假的兴趣,但是后来放弃了这部分兴趣,然后从真正 的目标中获益。这是第一次尝试创建出这样一个交互式的机器人,而且是非常成功的。

当然,有关于说机器人从零开始发明了一种语言的消息无疑是有夸大的成分在里面的。当机器人训练时(与同一个代理人进行谈判时),他们取消了了文本必须和人类语言有相似性的限制,算法修改了交互语言。没什么不寻常的。

在过去的一年中,神经网络已经正在被积极的应用并得到了发展,不断的被开发并用于许多任务和应用程序中。但 RNN 的体系结构变得更加复杂,但在某些领域,通过简单的前馈网络(DSSM)也取得了类似的结果。例如,Google 的邮件功能 Smart Reply 与之前的 LSTM 达到了相同的质量。此外,Yandex 还推出了基于此类网络的新搜索引擎。

2. 声音

2.1 WaveNet:原始音频的生成模型

DeepMind 的员工在他们的文章中报道了如何生成音频。简而言之,研究人员基于以前的图像生成方法(PixelRNN 和 PixelCNN)制作了一个自回归全卷积波网模型。

网络经过端到端的训练:输入文本,输出音频。研究得到了很好的结果,与人类相比,研究的结果差异减少了 50%,取得了较好的效果。

网络的主要缺点是生产率低,因为自动回归是按顺序产生声音的,创建一秒钟的音频需要大约 1 - 2 分钟的时间。

看看 …… 抱歉,听听下面这个例子。

如果你删除网络模型对输入文本的依赖性并且只依赖于对先前生成并保留下来的音素,那么网络将生成一段毫无意义的类似于人类语言的音素。

听听下面这段生成声音的音频。

同样的模式不仅仅可以应用于语言,还可以应用于例如创建音乐。想象一下由模型生成的音乐,这是使用钢琴游戏的数据集所进行训练的(同样不依赖于输入数据)。

2.2 读唇术

读唇是另一项深度学习的成就和对人类挑战的胜利。

谷歌 Deepmind 与牛津大学合作,在文章《Lip Reading Sentences in the Wild》报告了他们的模型是如何获取数据进行训练并超越 BBC 频道中的专业的唇语读者的。

数据集中有 100,000 个带有音频和视频的句子。型号:音频 LSTM,视频 CNN + LSTM。这两个状态向量被输入到最终的 LSTM,并最终有 LSTM 生成结果(字符)。

在训练期间使用了不同类型的输入数据:音频,视频和音频 + 视频。换句话说,它是一个“全方位”的模型。

2.3 合成奥巴马的演讲视频:视频、音频、唇语的同步

华盛顿大学在创造美国前总统奥巴马的嘴唇运动方面做了大量工作。因为他的在线演讲视频数量巨大(17 小时的高清视频),所以华盛顿大学的人选的选择就落在他身上。

由于他们有太多的工作,所以他们不可能每天都去跟神将网络相处。因此,他们制作了一些拐杖(或者说技巧,如果你喜欢这个词语的话)来改进纹理和时间。

你可以看到结果非常令人惊讶。我相信很快的,你就不会相信在网上看到的有关总统的视频了。

3. 计算机视觉

3.1 OCR:谷歌地图和街景

在他们的帖子和文章中,谷歌 Brain 团队报告了他们如何在其地图中引入一种新的 OCR(光学字符识别)引擎,通过该引擎可以识别街道标志和商店标志。

在技术开发过程中,公司编制了一个新的 FSNS(法语街道名称标识),其中包含许多复杂的案例。

为了识别每个标志,该网络使用了每个标志多达四张照片。使用 CNN 提取特征,在空间注意力的帮助下进行缩放(考虑像素坐标),并将结果馈送到 LSTM。

同样的方法适用于在招牌上识别商店名称的任务(可能存在大量“噪音”数据,并且网络本身必须“聚焦”在正确的位置)。该算法应用于 800 亿张照片。

3.2 视觉推理

有一种称为视觉推理的任务,要求神经网络使用一张照片来回答一个问题。例如:“图中是否有与黄色金属圆筒相同尺寸的橡胶?”这个问题真的很重要,直到最近,这个问题才得以解决,但是这个问题的准确率只有 68.5%。

但是,Deepmind 团队在这个问题上实现了突破:在 CLEVR 数据集上,他们达到了 95.5%的超人精度。

网络架构非常有趣:

  1. 利用预先训练的 LSTM 对文本问题进行嵌入。
  2. 将 CNN(仅四层)的图片,得到特征图(特征描述图片)。
  3. 接下来,我们在特征图上形成坐标切片的成对组合(下图中的黄色,蓝色,红色),为每个切片添加坐标并将文本嵌入其中。
  4. 我们通过另一个网络驱动所有这些三元组并总结。
  5. 生成的演示文稿通过另一个前馈网络运行,该网络提供 softmax 的答案。

3.3 Pix2Code

Uizard 公司创建了一个有趣的神经网络应用程序:根据界面设计师的屏幕截图生成代码。

这是一个非常有用的神经网络应用程序,它可以使开发软件时的生活变得很轻松。作者声称它们的准确率达到了 77%。然而,这个程序仍然在研究中,还没有关于实际使用的讨论。

目前还没有开源的代码或数据集,但是他们承诺未来将进行开源。

3.4 草图循环神经网络(RNN):教一台机器画画

也许你已经看过 Quick,Draw!这个程序来自 Google,其目标是在 20 秒内绘制各种对象的草图让程序进行识别。该公司收集了用户绘画的数据集,以教导神经网络绘制图片。

收集的数据集由 7 万张草图组成,最终可以公开使用。草图不是图片,而是图片的详细矢量表示(此时用户按下“铅笔”,在线条被绘制的地方释放,等等)。

研究人员使用 RNN 作为编码 / 解码机制,训练了序列到序列变分自动编码器(VAE)。

最终,与自动编码器相匹配的是,模型接收到一个潜在的向量,该向量表示原始图像的特征。

虽然解码器可以从一个向量中提取绘图,但是你可以更改它并获得一份新的草图。

甚至可以执行向量运算创建出一直猪猫(那不就是橘猫咯):

3.5 GANs

深度学习中最热门的话题之一就是生成对抗网络(GAN)。生成对抗网络(GAN)是一类用于无监督机器学习的神经网络。它们有助于解决诸如描述图像生成,从低分辨率图像获取高分辨率图像,预测哪种药物可以治疗某种疾病,检索包含给定模式的图像等任务。大多数情况下,这个概念用于处理图像。

这个想法是在两个网络的竞争中产生的 – 发生器和鉴别器。第一个网络创建一个图片,第二个网络试图了解图片是真实的还是生成的。

原理图看起来是这样的:

在训练过程中,来自随机矢量(噪声)的发生器生成图像并将其传送到鉴别器的输入中,该鉴别器判断它是否是假的。鉴别器还会从数据集中获得真实图像进行判断。

由于难以找到两个网络的平衡点,因此难以对这种结构进行训练。大多数情况下,鉴别者获胜训练停滞不前。然而,该系统的优点是我们可以解决我们很难设置损失函数的问题(例如,提高照片的质量),我们将其提供给鉴别器进行设置。

GAN 训练结果的典型例子是卧室或人的照片

在这之前,也曾考虑了自动编码(Sketch-RNN),它将原始数据编码为潜在的表示形式。生成器也是如此。

使用向量生成图像的思想在下面这个项目中的人脸中得到了清晰的展示。你可以更改向量并查看面部的变化方式。

同样的算法也适用于潜在的空间:“一个戴眼镜的男人”减去“一个男人”加上“一个女人”等于“一个戴眼镜的女人”。

3.6 用 GAN 改变面部年龄

如果在训练期间像潜在向量传输一个受控的参数,那么当生成它时,你就可以更改它,从而管理图片中的必要图像。这种方法称为条件 GAN。

“使用条件生成性对抗网络进行面部老化”这篇文章的作者也是如此。研究人员在 IMDB 数据集上堆引擎进行了已知演员年龄的训练,然后给了研究人员改变人脸年龄的机会。

3.7 专业的照片

Google 还发现了 GAN 的另一个有趣的应用 – 照片的选择和改进。GAN 是在一个专业的照片数据集上进行训练的:生成器正在尝试改善糟糕的照片(变成专业的拍摄照片并在特殊过滤器的帮助下进行降级)而鉴别器用来 – 区分“改进的”照片和真正的专业照片。

经过训练的算法通过 Google 街景全景图搜索最佳构图,并收到一些专业和半专业质量的照片(根据摄影师的评分)。

3.8 从文本描述中合成图像

GAN 的一个令人印象深刻的示例是使用文本生成图像。

这项研究的作者建议将文本嵌入到一个生成器(条件 GAN)和一个识别器的输入中,以便验证文本与图片的对应关系。为了确保鉴别器学会执行它的功能,除了训练之外,他们还为真实的图片添加了带有错误文本的配对。

3.9 Pix2pix

2016 年最引人注目的文章之一是伯克利人工智能研究院(BAIR)的“有条件对抗网络的图像对图像翻译”(“Image-to-Image Translation with Conditional Adversarial Networks“)。研究人员解决了图像到图像的生成问题,例如,需要使用卫星图像创建地图,或者使用草图创建对象的真实纹理。

这是条件 GAN 成功执行的另一个例子。在这种情况下,条件是涉及到全局的。在图像分割中很受欢迎的是 UNet 被用作生成器的体系结构,并且使用新的 PatchGAN 分类器作为用于对抗模糊图像的鉴别器(图片被切割成 N 个 Patch,并且分别对每个 Patch 进行真伪预测)。

克里斯托弗·黑塞(Christopher Hesse)做了梦魇猫的演示,引起了用户的极大兴趣。

您可以在此处找到源代码。

未完待续,请持续关注我们哟!更多精彩内容,可移步:https://www.cda.cn/?seo-segme…

正文完
 0