CDA 数据分析研究院出品,转载需授权
深度学习是机器学习的一个子领域,研究的算法灵感来自于大脑的结构和功能,称为人工神经网络。
如果你现在刚刚开始进入深度学习领域,或者你曾经有过一些神经网络的经验,你可能会感到困惑。因为我知道我刚开始的时候有很多的困惑,我的许多同事和朋友也是这样。因为他们在 20 世纪 90 年代和 21 世纪初就已经学习和使用神经网络了。
该领域的领导者和专家对深度学习的观点都有自己的见解,这些具体而细微的观点为深度学习的内容提供了很多依据。
在这篇文章中,您将通过听取该领域的一系列专家和领导者的意见,来了解什么是深度学习以及它的内容。
来让我们一探究竟吧。
深度学习是一种大型的神经网络
Coursera 的 Andrew Ng 和百度研究的首席科学家正式创立了 Google Brain,最终导致了大量 Google 服务中的深度学习技术的产品化。
他已经说了很多关于深度学习的内容并且也写了很多,这是一个很好的开始。
在深度学习的早期讨论中,Andrew 描述了传统人工神经网络背景下的深度学习。在 2013 年的题为“深度学习,自学习和无监督特征学习”的演讲中“他将深度学习的理念描述为:
这是我在大脑中模拟的对深度学习的希望:
- 使学习算法更好,更容易使用。
- 在机器学习和人工智能方面取得革命性进展。
我相信这是我们迈向真正人工智能的最好机会
后来他的评论变得更加细致入微了。
Andrew 认为的深度学习的核心是我们现在拥有足够快的计算机和足够多的数据来实际训练大型神经网络。在 2015 年 ExtractConf 大会上,当他 的题目“科学家应该了解深度学习的数据”讨论到为什么现在是深度学习起飞的时候,他评论道:
我们现在拥有的非常大的神经网络 …… 以及我们可以访问的大量数据
他还评论了一个重要的观点,那就是一切都与规模有关。当我们构建更大的神经网络并用越来越多的数据训练它们时,它们的性能会不断提高。这通常与其他在性能上达到稳定水平的机器学习技术不同。
对于大多数旧时代的学习算法来说 …… 性能将达到稳定水平。…… 深度学习 …… 是第一类算法 …… 是可以扩展的。… 当你给它们提供更多的数据时,它的性能会不断提高
他在幻灯片中提供了一个漂亮的卡通片:
最后,他清楚地指出,我们在实践中看到的深度学习的好处来自有监督的学习。从 2015 年的 ExtractConf 演讲中,他评论道:
如今的深度学习几乎所有价值都是通过有监督的学习或从有标记的数据中学习
在 2014 年的早些时候,在接受斯坦福大学的题为“深度学习”的演讲时,他也发出了类似的评论。
深度学习疯狂发展的一个原因是它非常擅长监督学习
Andrew 经常提到,我们应该并且会看到更多的好处来自 DL 的无监督的一面,因为该领域已经成熟到可以处理大量未标记的数据。
Jeff Dean 是 Google 的系统和基础架构小组的向导和谷歌高级研究员,他参与并可能负责部分 Google 内部深度学习的扩展和采用。Jeff 参与了 Google Brain 项目以及负责大型深度学习软件 DistBelief 和后来的 TensorFlow 的开发。
在 2016 年的一次题为“构建智能计算机系统的深度学习”的演讲中“他以类似的方式发表评论,深度学习实际上是关于大型神经网络的。
当你听到深度学习这个词的时候,就想想一个巨大的深度神经网络。深度指的是典型的层数,因此这种流行术语在印刷机中被采用。我认为它们通常是深度神经网络。
他已经多次发表过这个演讲,并且在同一个演讲的一组修改过的幻灯片中,他强调了神经网络的可扩展性,表明随着更多的数据和更大的模型,结果会变得更好,然而这反过来需要更多的计算来训练模型。
深度学习是层次特征学习
除了可扩展性之外,深度学习模型的另一个经常被引用的好处是它们能够从原始数据中执行自动特征提取,也称为特征学习。
Yoshua Bengio 是深度学习的另一个领导者,尽管他开始对大型神经网络能够实现的自动特征学习产生了浓厚的兴趣。
他描述了使用特征学习发现和学习良好表示的算法能力方面的深度学习。在 2012 年题为“深度学习无监督和转移学习的表征”的论文中,他评论说:
深度学习算法试图利用输入分布中的未知结构,以便通常在多个级别上发现良好的表示,并使用较低级别的特征定义更高级别的学习特征
他在 2009 年的技术报告“人工智能学习深层架构”中提供了沿着这些方向深入学习的详细视角,其中他强调了特征学习中层次结构的重要性。
深度学习方法旨在学习具有来自较低级别特征的组成所形成的较高级别的层级的特征的特征层级。在多个抽象级别上自动学习特性允许系统学习的复杂函数,这些函数直接从数据映射输入到输出,而不完全依赖于人工创建的特性。
在与 Ian Goodfellow 和 Aaron Courville 合着的即将出版的名为“深度学习”的书中,他们根据模型的架构深度来定义深度学习。
概念的层次结构允许计算机通过用简单的概念构建复杂的概念来学习它们。如果我们绘制一个图表来显示这些概念是如何相互构建的,那么图表很深的,有很多层。出于这个原因,我们将这种方法称为人工智能深度学习。
这是一本重要的书,有可能在一段时间内成为该领域的权威资源。本书继续描述多层感知器作为深度学习领域中使用的算法,给出了深度学习已包含在人工神经网络中的观点。
深度学习模型的典型例子是前馈深度网络或多层感知器(MLP)。
彼得·诺维格(Peter Norvig)是谷歌研究部主任,以其题为“人工智能:现代方法”的人工智能教科书而闻名。
在 2016 年的一次演讲中,他给出了题为“深度学习和可理解性与软件工程和验证的关系”“他以与 Yoshua 非常相似的方式定义深度学习,重点关注使用更深层网络结构所允许的抽象力量。
这是一种学习,你形成的表示有多个抽象层次,而不是直接输入到输出
为什么称它为“深度学习”?而不只是称它为“人工神经网络”?
Geoffrey Hinton 是人工神经网络领域的先驱,共同发表了关于训练多层感知器网络的反向传播算法的第一篇论文。
他可能已经开始引入“深度”这个短语来描述大型人工神经网络的发展。
他在 2006 年共同撰写了一篇题为“深度信念网的快速学习算法”的论文,其中描述了一种受训练限制的玻尔兹曼机器的“深度”(就像一个多层网络一样)的方法。
使用互补先验,我们推导出一种快速,贪婪的算法,可以一次一层地学习深层定向信念网络,前提是前两层形成一个无向联想记忆。
本文和 Geoff 在无向深度网络上共同撰写的题为“深度玻尔兹曼机”的相关论文得到了社区的好评(现已引用数百次),因为它们是贪婪的分层网络训练的成功范例,允许前馈网络中有更多的层。
在《科学》杂志上发表的一篇题为“用神经网络降低数据的维度”的合著文章中,他们坚持使用相同的“深度”描述来描述他们开发网络的方法,这些网络的层数比以前典型的网络要多的多。
我们描述了一种初始化权重的有效方法,它允许深度自动编码器网络学习低维度代码,作为一种降低数据维度的工具,这种低维度代码比主成分分析工作的更好。
在同一篇文章中,他们发表了一篇有趣的评论,与 Andrew Ng 关于最近计算能力的提高以及对大型数据集的访问的评论相吻合,这些数据集在大规模使用时释放了神经网络尚未开发的能力。
自 20 世纪 80 年代以来,显而易见的是,通过深度自动编码器的反向传播对于非线性降维是非常有效的,只要计算机足够快,数据集足够大,并且初始权重足够接近良好的解决方案。而现在这三个条件都满足了。
在 2016 年与皇家学会的题为“深度学习”的谈话中,Geoff 评论说,深层信念网络深度学习的开始是 2006 年,这一新的深度学习浪潮的第一次成功应用是 2009 年的语音识别,题为”使用深度信念网络进行声学建模“,实现了最先进的技术水平结果。
结果使语音识别和神经网络社区注意到,使用“深层”作为先前神经网络技术的差异因素,可能导致名称改变。
英国皇家学会谈话中对深度学习的描述以反向传播为中心。有趣的是,他提出了为什么反向传播(读作“深度学习”)在上世纪 90 年代没有成功的 4 个原因。前两点与 Andrew Ng 的评论相符,是因为数据集太小而计算机太慢。
深度学习作为跨域的可扩展学习
深度学习在输入(甚至输出)是模拟的问题域上表现优异。意思是,它们不是表格格式的少量数量,而是像素数据的图像,文本数据的文档或音频数据的文件。
Yann LeCun 是 Facebook Research 的主管,是网络架构之父,擅长图像数据中的对象识别,称为卷积神经网络(CNN)。这种技术看起来非常成功,因为像多层感知器前馈神经网络一样,该技术可以根据数据和模型大小进行扩展,并且可以通过反向传播进行训练。
这使他对深度学习的定义产生了偏差,他将深度学习定义为大型中枢神经网络的发展,而大型中枢神经网络在照片对象识别方面取得了巨大的成功。
在劳伦斯利弗莫尔国家实验室 2016 年的一次题为“加速理解:深度学习,智能应用和 GPU”的演讲中“他将深度学习描述为学习层次表示,并将其定义为构建对象识别系统的可扩展方法:
深度学习 [是] … 所有可训练的模块管道。…… 因为在识别一个物体的过程中有多个阶段,所有这些阶段都是训练的一部分“
Jurgen Schmidhuber 是另一种流行算法的父亲,其中 MLP 和 CNN 也可以根据模型大小和数据集大小进行扩展,并且可以通过反向传播进行训练,而是针对学习序列数据而定制,称为长短期记忆网络(LSTM),是一种递归神经网络。
我们确实看到在该领域的措辞中存在一些混淆,也就是“深度学习”。在 2014 年题为“神经网络中的深度学习:概述”的论文中,他对该领域的命名问题以及深度与浅层学习的区别进行了评论。他还有趣地描述了问题复杂性而不是用来解决问题的模型来描述深度。
浅层学习在什么时候结束,而深度?与 DL 专家的讨论尚未对这一问题作出结论性的回答。[…],让我为本概述的目的定义:深度 > 10 的问题需要非常深度学习。
Demis Hassabis 是 DeepMind 的创始人,公司后来被谷歌收购。DeepMind 突破了将深度学习技术与强化学习结合起来,以处理复杂的学习问题,如玩游戏,在玩 Atari 游戏和 Go with Alpha Go 游戏的著名例子。
为了与命名保持一致,他们将他们的新技术称为深度 Q 网络,将深度学习与 Q -Learning 结合起来。他们还将更广泛的研究领域命名为“深层强化学习”。
在 2015 年题为“通过深度强化学习的人类控制”的自然杂志文章中,他们评论了深度神经网络在突破中的重要作用,并强调了对分层抽象的必要性。
为了实现这一目标,我们开发了一种新型代理,一种深度 Q 网络(DQN),它能够将强化学习与一类称为深度神经网络的人工神经网络相结合。值得注意的是,深度神经网络的最新进展使得人工神经网络可以直接从原始传感数据中学习诸如对象类别之类的概念,其中使用若干层节点来逐渐建立数据的抽象表示。
最后,Yann LeCun,Yoshua Bengio 和 Geoffrey Hinton 在 Nature 上发表了一篇名为“深度学习”的论文。在其中,他们定义了一个清晰的深度学习,强调了了多层次的学习方法。
深度学习允许由多个处理层组成的计算模型来学习具有多个抽象级别的数据表示。
然后,在表示学习和抽象方面描述了多层方法。
深度学习方法是具有多个表示级别的表示学习方法,通过组合简单但非线性的模块获得,每个模块将表示在一个级别(从原始输入开始)转换为更高,稍微更抽象级别的表示。[…] 深度学习的关键方面是这些功能层不是由人类工程师设计的:它们是使用通用学习程序从数据中学习的。
这是一个很好的通用描述,可以很容易地描述大多数人工神经网络算法。这也是一个很好的结尾。
结束语
在这篇文章中,您发现深度学习只是一个非常大的神经网络,需要更多的数据,需要更大的计算机。
虽然 Hinton 和合作者发表的早期方法侧重于贪婪的分层训练和无监督方法,如自动编码器。但现代最先进的深度学习主要集中在使用反向传播算法训练深层(多层)神经网络模型。最流行的技术是:
- 多层感知器网络。
- 卷积神经网络。
- 长短时记忆回归神经网络。
我希望这篇文章已经讲清楚了什么是深度学习,以及如何将这些领先的定义整合在一起。
如果你对深度学习有自己的看法,那么你可以提出你的看法,这样我们可以进行交流与沟通。
原标题:Deep Learning & Artificial Neural Networks
如果您是以下几种情况之一:
1、想了解更多大数据分析、数据挖掘、数据科学、人工智能领域的内容;
2、职业遭遇瓶颈,想提升自己在数据分析或人工智能领域的硬件技能;
3、寻求新出路、新发展,有意向转行到数据分析行业或人工智能领域。
可前往我们的官网,获取更多有效信息和帮助:https://www.cda.cn/?seo-segme…