关于人工智能:Geoffrey-Hinton我的五十年深度学习生涯与研究心法

2次阅读

共计 8202 个字符,预计需要花费 21 分钟才能阅读完成。

起源|The Robot Brains Podcast
翻译|沈佳丽、程浩源、许菡如、胡燕君、贾川

他从未正式上过计算机课程,本科在剑桥大学读的是生理学和物理学,期间曾转向哲学,但最终拿到的却是心理学方向的学士学位;他曾因为一度厌学去做木匠,但遇挫后还是回到爱丁堡大学,并拿到“冷门业余”人工智能方向的博士学位;数学不好让他在做钻研时倍感失望,当了传授之后,对于不懂的神经科学和计算科学知识,他也总要求教本人手下的研究生。

学术路线看似踉踉跄跄,但 Geoffrey Hinton 却成了笑到最初的那个人,他被誉为“深度学习教父”,并且取得了计算机领域的最高荣誉“图灵奖”。

Hinton 出身在英国的迷信“寒门”,但他毕生所经验的学术生涯和崎岖生存丰盛而离奇。

他的父亲 Howard Everest Hinton 是英国昆虫学家,母亲 Margaret 是一名老师,他们都是共产主义者。他的叔叔是驰名的经济学家 Colin Clark,创造了“国民生产总值”这个经济术语,他的高祖父是驰名的逻辑学家 George Boole,他创造的布尔代数奠定了古代计算机科学的根底。

在厚重的科学家家族底蕴陶冶下,Hinton 从小领有独立思考能力以及坚韧品质,并且肩负着继承家族荣誉的担子。母亲给了他两种抉择,“要么成为一名学者,要么做个失败者。”他没有理由抉择躺平,即使读大学时几经折腾,但他还是实现了学业。

1973 年,在英国爱丁堡大学,他师从 Langer Higgins 攻读人工智能博士学位,但那时简直没人置信神经网络,导师也劝他放弃钻研这项技术。周遭的质疑并不足以波动他对神经网络的坚定信念,在随后的十年,他接连提出了反向流传算法、玻尔兹曼机,不过他还要再等数十年才会等到深度学习迎来大暴发,到时他的这些钻研将广为人知。

博士毕业后,Hinton 的生存也历经困苦。他和第一任妻子 Ros(分子生物学家)返回美国,并在卡耐基梅隆大学取得教职,不过,因为对里根政府存有不满,以及在人工智能钻研根本由美国国防部反对的状况下,他们于 1987 年返回加拿大,Hinton 开始在多伦多大学计算机科学学院任教,并在加拿大高级研究所 CIFAR 发展机器和大脑学习我的项目的钻研。

可怜的是,1994 年,妻子 Ros 因卵巢癌去世,Hinton 只能单独抚养由他们收养的两个年幼的孩子,其中,儿子还患有注意力缺点多动症(ADHD)和其余学习阻碍。起初,他与现任妻子 Jackie(艺术史学家)再婚,但相似的打击再度迫近,Jackie 前几年也患上了癌症。

他自己也患有重大的腰椎疾病,这让他无奈像正常人那样坐下,日常的大部分工夫都必须站立工作,由此他也排挤坐飞机,因为腾飞起飞时都要求必须坐直,这也限度了他去当地做学术报告。


(从左到右顺次为 Ilya Sutskever、Alex Krizhevsky 和 Geoffrey Hinton)

通过近半个世纪的技术坚守和生存磨砺,终于,2012 年曙光乍现,他与学生 Alex Krizhevsky、Ilya Sutskever 提出的 AlexNet 触动业界,就此重塑了计算机视觉畛域,启动了新一轮深度学习的黄金时代。

也是在 2012 年底,他与这两位学生成立了三人组公司 DNN-research,并将其以 4400 万美元的“天价”卖给了 Google,他也从学者身份转变为 Google 副总裁、Engineering Fellow。

2019 年,非计算机科班出身的 AI 传授 Hinton,与 Yoshua Bengio、Yann LeCun 独特取得了图灵奖。

饱经风霜之后,这位曾经 74 岁的“深度学习教父”仍然奋战在 AI 钻研一线,他不惮于其余学者收回的质疑,也会坦然抵赖那些没有实现的判断和预言。不管怎样,他依然置信,在深度学习崛起十年之后,这一技术会持续开释它的能量,而他也在考虑和寻找下一个突破点。

那么,他对神经网络的坚定信念源自何处?在现在深度学习“撞墙了”的质疑声中,他如何对待下一阶段 AI 的倒退?对于年轻一代的 AI 研究者们,他又有怎么的寄语?

近期,在 Pieter Abbeel 主持的 The Robot Brains Podcast 节目中,Hinton 十分坦诚地分享了本人的学术生涯,深度学习的将来和钻研心得,以及拍卖 DNN-research 的底细。以下是他的讲述,由 OneFlow 社区编译。


(8 岁的 Hinton)

对我影响最为深远的是童年时所承受的教育。我的家庭没有宗教信仰,父亲是一名共产主义者,但思考到私立学校的迷信教育比拟好,7 岁时,他保持送我去一所低廉的基督教私立学校读书,除了我,那里所有的孩子都置信上帝。

一回到家,家人就说宗教都是胡扯,当然,可能因为我有较强的自我意识,我本人也不信,意识到信奉上帝是错的,并且养成了质疑他人的习惯。当然,多年之后,他们也的确发现自己当初的信奉是错的,并意识到上帝兴许并不是真的存在。

不过,如果我当初通知你要有信奉,信奉很重要,可能听起来很讥刺, 但咱们的确须要对科学研究要有信奉,这样即便他人说你是错的,你也能在那条正确的路线上保持走上来。

1

1970 年代,钻研神经网络“孤勇者”

我的教育背景很丰盛。在剑桥大学读大一那年,我是惟一一位同时修读物理学和生理学的学生,这为我起初的科研生涯奠定了肯定的理工科根底。

不过,我数学不太好,只好放弃学物理,可是,我又很好奇生命的意义,于是转而去学哲学,获得肯定问题后,又开始修读心理学。

在剑桥的最初一年,我过得很艰巨,也不开心,所以一考完试就入学,去做一名木匠。其实,相比于做其余事件,我更喜爱做一名木匠。

高中时,白天上完课后,我回家就会做一些木工活,那是我最开心的时刻。缓缓地,我就成为了一名木匠,但大略做了六个月左后,就发现木匠挣得钱少得难以维生,只管木匠须要做的事件远比表面看到的要多。搞装修轻松得多,来钱快,所以在做木匠的同时,我也会兼职装修活计。除非你是一名高级木匠,否则做木匠赚的钱必定不如做装修。

直到一天,我遇到了一名真正杰出的木匠,才意识到本人不适宜这行当。一家煤炭公司让这位木匠给明朗湿润的地下室做一扇门,鉴于环境非凡,他就将木料以反方向排列,以此来对消木料因湿润收缩产生的变形,这是我此前从未想过的形式。他还能够用手锯将一块木料切成正方形。他向我解说道:要是想将木料切成正方形,那么你必须将锯床和木料跟房间对齐。

过后我就感觉,跟他相比本人差得太远了,就想或者还是回学校钻研人工智能吧。

起初,我就去爱丁堡大学攻读神经网络的博士,导师是驰名的 Christopher Longute-Higgins 传授。30 多岁时,他就弄清了硼氢化物的构造,差点因而取得诺贝尓奖,真的很厉害。直到现在,我依然不分明他钻研的是什么,只晓得是跟量子力学无关,这项钻研的事实根底是“恒等算子的旋转不是 360 度,而是 720 度”。

他已经对神经网络和全息图之间的关系很感兴趣,只是在我到爱丁堡大学后,他忽然对神经网络失去了趣味,次要是因为他读了 Winograd(美国计算机科学家)的论文后被彻底压服了,认为神经网络没有发展前景,而是应该转做符号人工智能,那篇论文对他影响挺大的。

事实上,他并不同意我的钻研方向,想让我做一些更容易获奖的钻研,但他的为人不错,依然通知我要动摇本人的方向,也从未阻止我去钻研神经网络。


(Marvin Minsky 和 Seymour Papert)

1970 年代初,身边的所有人都质问我,Marvin Minsky 和 Seymour Papert 都说神经网络前途渺茫,为什么还要坚持下去?说实话,我感觉很孤单。

1973 年,我第一次给一个小组做演讲,内容就是对于如何用神经网络做真正的递归。在第一个我的项目中,我发现,如果你想让神经网络绘制图形,将图形宰割成多个局部,并且这些图形的局部都能被相似的神经硬件绘制进去,那么贮存整个图形的神经中枢就须要记住整体图形的地位、方向和大小。

如果正在绘制图形的神经网络忽然进行运行了,你想应用另一个神经网络来持续绘制图形,那么就须要有中央来存储这个图形以及工作进度,而后能够持续绘制工作。当初的难点在于,如何使神经网络实现这些性能。显然,仅仅靠复制神经元是不行的,因而我想设计一个零碎通过疾速权重(fast weight)来实时适配并记录工作进度。如此一来,通过复原相干状态(state),就能够持续实现工作。

因而,我创立了一套神经网络,通过重用雷同的神经元和权重来执行递归调用(就像用于高级调用一样),以此来实现真正的递归。然而,我不善于演讲,所以感觉可能并没有人了解我演讲的内容。

他们说,明明能够应用 Lisp 递归,为什么要在神经网络中进行递归。他们不晓得的是, 除非神经网络可能实现递归之类的性能,否则有一大堆事件无奈解决。 当初,这又成为了一个乏味的问题,所以我还要再等一年,直到这个问题成为一个领有 50 年历史的古董,而后我写了一份对于疾速权重的钻研报告。

那时,也不是所有人都拥护神经网络。如果再往前追溯到 1950 年代,如冯·诺依曼和图灵这样的研究者还是很置信神经网络,他们都对大脑的工作形式很感兴趣,特地是图灵,很置信神经网络的强化训练,这也让我对本人的钻研方向很有信念。

惋惜他们英年早逝,若是能多活几年,他们的智慧足以影响一个畛域的倒退,英国在这方面可能早已获得冲破,说不定人工智能的现状也会大有不同。

2

从纯正的学者转变为 Google 员工

去 Google 工作的次要起因是,我的儿子患有残疾,我得为他挣钱。

2012 年,我感觉在 Coursera 上讲课能挣到很多钱,所以就开设了神经网络相干课程。晚期的 Coursera 软件并不好用,加上我本人并不太善于操做软件,因而我时常感到焦躁。

最后我与多伦多大学达成了一项协定,如果这些课程能赚到钱的话,那么大学会把到手的钱分一部分给讲课老师。尽管他们没有明确说具体的分成比例,但有人说是对半分,我也就欣然接受了。

在录课过程中,我曾要求过学校帮我录制视频,但他们却反诘我,“你晓得制作视频有多贵吗?”我当然晓得,因为我本人始终在制作视频,校方还是没有提供任何反对。然而在我开课之后(过后我曾经欲罢不能了),教务长在没有征询我和其余任何人的状况下就单方面决定学校会拿走所有的钱,而我则一分钱也拿不到,这就齐全违反了当初的协定。

他们让我好好录课,并说那本就是我教学工作的一部分,但那实际上并不属于我的教学领域,而只是基于我之前做过的相干讲座的课程。因而,我在后续的教学工作中再也没有用过 Coursera。那件事让我很怄气,甚至开始思考是否要从事其余的职业。

就在此时,忽然有很多公司向咱们抛出了橄榄枝,违心资助一大笔经费,或者反对咱们创建一家公司,这阐明还是有很多公司对于咱们的钻研内容很感兴趣。

鉴于州政府曾经给过咱们一笔钻研经费,咱们也不再想赚外快,还是把精力放在本人的钻研上。但那次学校骗我赚钱的经验不禁让我萌发想多赚点钱的想法,所以起初把成立不久的 DNN-research 拍卖了。

这桩交易产生在 2012 年 12 月的 NIPS(神经信息处理系统大会)期间,会议在塔霍湖边的一个娱乐场所举办,地下室里灯光闪耀,一群光着膀子的赌徒在烟雾回绕的房间里纵情高呼,“你赢了 25000,这些都是你的”…… 与此同时,楼上进行拍卖一家公司。

过后就像在演电影,与社交媒体上看到的情景截然不同,真的很棒。咱们之所以拍卖公司,是因为咱们齐全不晓得本身的价值,所以我就征询了一个知识产权方面的律师,他说,当初有两个方法:一是间接雇一名业余的会谈员去和那些大公司会谈,但这可能会遇到不欢快;二是发动一场竞拍。

据我所知,像咱们这样的小公司进行拍卖在历史上还是第一次。最终我抉择通过 Gmail 进行竞拍,因为那年夏天我始终在 Google 工作,我晓得他们不会随便窃取用户的邮件,即便到当初,我还是这样认为的。但对于咱们这一决定,微软体现出不满。

拍卖过程如下:参加竞拍的公司必须通过 Gmail 将他们的报价发给咱们,而后咱们再将其连同 Gmail 的工夫戳发送给其余参与者。起拍价为 50 万美元,而后有人出价 100 万美元,看到竞价一直上涨时,咱们真是太高兴了,同时也意识到咱们的价值远比料想的要高。当竞价达到肯定水平时(过后咱们认为是天文数字了),咱们更偏向于在 Google 工作,于是叫停了拍卖。

来 Google 工作是一个正确的抉择,到当初我在这儿工作了九年。等我在这里工作满十年,他们应该会给我颁个奖,毕竟在这儿工作这么久的人比比皆是。

相比其余公司,人们都更喜爱在 Google 工作,我也一样。我喜爱这家公司的次要起因是 Google Brain 团队很棒。我更专一于钻研如何构建大型学习零碎和钻研大脑的工作机制,Google Brain 不仅有钻研大型零碎所须要的丰盛资源,还能跟泛滥优秀人才交流学习。

我属于那种直性子,而 Jeff Dean 是一个聪明人,跟他相处很欢快。他想让我做一些根底钻研,尝试提出新的算法,而这正是我喜爱做的事。我不善于治理大型团队,相比之下,我更乐意将语言辨认的精度晋升一个百分点,为这个畛域带来一场新的改革是我始终想做的事。

3

深度学习的下一个大事件

深度学习的倒退取决于,在领有海量数据和弱小算力的大型网络中做随机梯度降落,基于此,一些想法得以更好地生根发芽,比方随机失活(dropout)和当初的很多钻研,但这所有离不开弱小算力、海量数据以及随机梯度降落。

常常有人说深度学习遇到了瓶颈,但事实上它始终在一直向前倒退,我心愿怀疑论者能将深度学习当初不能做的事写下来。 五年后,咱们会证实深度学习能做到这些事。

当然,这些工作必须通过严格定义。比方 Hector Levesque(多伦多大学计算机系传授)是一个典型的 AI 人士,他自己十分优良。Hector 制订了一个规范,即 Winograd 句子,其中一个例子是,“奖杯不适宜放在手提箱中,因为它太小了;奖杯不适宜放在手提箱里,因为它太大了。”

如果你想把这两句翻译成法语,必须明确在第一种状况下,“它”指的是手提箱,而在第二种状况下,“它”指的是奖杯,因为它们在法语中是不同的性数(genders),而且晚期的神经网络机器翻译是随机的,所以当机器把上述句子翻译成法语时,机器无奈正确识别性数。但这种状况始终在改良,至多 Hector 给神经元下了一个十分明确的定义,指出神经元能够做什么。尽管做的并不完满,但这样至多比随机翻译要好得多。我心愿怀疑论者能提出更多相似的质疑。

我认为,深度学习这种十分胜利的范式将持续放弃凋敝:即依据一些指标函数的梯度来调整大量的实值参数,但咱们很可能不会应用反向流传机制来取得梯度,而指标函数可能会更加部分和扩散。

我集体猜想,下一个 AI 大事件必定是脉冲神经网络的学习算法。 它可能解决是否进行脉冲的离散断定,以及何时进行脉冲的连续性决策,这样就能够利用脉冲工夫来进行乏味的计算,这在非脉冲神经网络中其实很难做到。之前没能深入研究脉冲神经网络的学习算法,这是我钻研生涯的一大遗憾。

我没打算钻研 AGI,也尽量避免定义什么是 AGI,因为 AGI 愿景背地有各种各样的问题,而仅仅通过扩充带参数的神经元数量或神经连贯还无奈实现通用人工智能。

AGI 构想了一个相似人类的智能机器人,它和人类一样聪慧。我不认为智能肯定会这样倒退,而是心愿它更多地以共生形式倒退。我认为,兴许咱们会设计出智能计算机,但它们不会像人类一样领有自主意识。如果它们的目标是用来杀死其他人,那它们可能必须得有自主意识,但心愿咱们不会往那个方向倒退。

4

置信钻研直觉,好奇心驱动

每个人的思维形式都有所不同,咱们不肯定理解本人的思维过程。 我喜爱按直觉行事,更偏向于在做钻研时使用类比,我认为,人类推理的根本形式是基于在大向量中利用正确的特色来进行类比,我自己也是这样做钻研的。

我常常在电脑上对某一钻研重复进行试验,来看看哪些有用,哪些没用。弄清事物的数学底层逻辑和进行根底钻研的确很重要,进行一些论证也很有必要,但这些不是我想做的事。

做一个小测试:如果当初 NIPS 会议上有两场讲座,一场是对于用一种全新、聪慧和优雅的办法来证实一项已知的论断;另一场则是对于一种新的、弱小的学习算法,但算法背地的逻辑临时无人知晓。

如果你必须在这两场讲座中抉择一场去听讲座,你会做何抉择?相比第二场讲座,第一场可能更容易被人们所承受,大家仿佛更好奇证实已知事物的新办法,但我会去听第二场, 毕竟在神经网络畛域,简直所有的提高都源于人们在进行数学推演时霎时萌发的直觉,而非常规推理。

那么你是否要置信本人的直觉?我有一个规范——要么你有敏锐的直觉,要么罗唆没有。如果没有敏锐的直觉,那做什么都没关系;但如果有敏锐的直觉,那应该置信直觉,去做你认为对的事。

当然,敏锐的直觉源自你对世界的了解以及大量的辛苦付出。当你在同一件事上积攒了大量教训,就会产生直觉。

我患有轻微的狂躁抑郁症,所以个别会游走在两种情况之间:适当的自我批评会让我十分有创造力,而极度自我批评会让我产生轻度抑郁。但我认为这样比仅有繁多情绪的效率更高。当你感到焦躁时,你只有漠视那些不言而喻的问题,并且确信一些乏味的、激动人心的货色正等你去发现,继续前进。当你面对问题感到措手不及时,肯定要坚持下去,理清思路,认真斟酌想法的好坏。

因为有这样的情绪交替,我常常会通知大家,我弄清大脑的工作机制了,可过段时间,我又悲观地发现之前的论断是谬误的,但事件就应该是这样倒退的,正如 William Blake 的那两句诗,“将高兴和难过编织,披在我神圣的心上”。

我认为科研工作的实质也是如此,如果你不会因为胜利而感到兴奋,也不会因为失败而感到丧气,那算不上真正意义上的研究者。

钻研生涯里,只管有时会感觉本人齐全摸不着一些算法的门道,但我还从未真正感到迷茫和毫无希望。在我看来,无论最终后果如何,总有值得去做的事件。优良的钻研人员总是有很多想做的事件,只是苦于没有多余的工夫。

在多伦多大学任教时,我发现计算机科学业余的本科生都很优良,而很多辅修计算机科学的认知科学业余的本科生也体现得相当杰出,这一部分同学并不善于技术,但他们依然把钻研做得很好,他们酷爱计算机科学,十分想弄清人类的认知如何造成,有着源源不断的趣味。

像 Blake Richards(蒙特利尔神经学研究所助理传授)这样的科学家,他们很分明本人想解决什么问题,而后就只管朝着这个方向前行。当初,很多科学家都不晓得本人到底想做什么。

回头看,我感觉年轻人要找到本人感兴趣的方向,而不是单纯地学些技术。 在本身趣味的驱动下,你会被动去把握一些应有的常识来寻找你想要的答案,这比自觉地学习技术更重要。

当初想想,我年老时就应该再多学一点数学知识,这样做线性代数就会容易很多。

数学时常让我感到失望,导致很难读懂一些论文,尤其要弄懂那一大堆符号,真是一项莫大的挑战,所以我并没有读太多论文。对于神经科学方面的问题,个别我会向 Terry Sejnowski(计算神经学传授)求教,计算机科学方面的问题,我会请研究生解释给我听。当我须要用数学来证实某项钻研是否可行时,我也总能找到适合的办法。

通过做钻研让这个世界变得更美妙的想法很不错,但我更享受摸索人类创造力下限的乐趣,我真的很想理解大脑的工作机制,我置信咱们须要一些新的想法,比方通过脉冲神经网络的学习算法理解大脑的运作形式。

我认为,最棒的钻研工作应该由一大群研究生来实现,并且给他们提供丰盛的资源。科研工作须要年老的生机,源源不断的能源,以及对钻研的强烈趣味。

你必须有好奇心的驱动能力做出最好的根底钻研。只有这样,你才有能源去漠视那些显著的阻碍,去预估本人会获得怎么的后果。如果是一般性钻研,创造力就不是最重要的。

如果能弄清一大批聪明人正在钻研什么,而后你再去做不一样的钻研,总是一个好主见。 如果你曾经在某个畛域获得肯定的停顿,那就不须要其余新的想法,只须要将现有的钻研深挖上来就能够胜利。但如果你想钻研一些新想法,比方构建大型硬件,那也十分不错,只管前路可能有些波折。

本文经受权后编译公布,原视频
1.https://www.youtube.com/watch…
2.https://www.youtube.com/watch…)

欢送下载体验 OneFlow v0.7.0 最新版本:https://github.com/Oneflow-In…

正文完
 0