乐趣区

关于人工智能:ChatGPT背后从0到1OpenAI的创立之路

ChatGPT 一出,OpenAI 名声大震,CEO Sam Altman(https://mp.weixin.qq.com/s/Ek…)也成为聚光灯下的 C 位配角,有些报道甚至开始了对他的“造神”静止。年少成名,他不到 30 岁就成为 YC 总裁,从 2019 年 GPT- 3 开始,他开始主导 OpenAI 的经营事务,并获得了现在的不凡成就。

他善于将企业倒退从 1 放大到 1000,但自 OpenAI 创建到 GPT- 2 的公布期间,但自 OpenAI 创建到 GPT- 2 公布期间,还有更多的故事。

Greg Brockman 是将 OpenAI 从 0 到 1 拉扯到大的要害学生。他是 OpenAI 的联结创始人,从 2015 年开始,Greg 和首席科学家 Ilya Sutskever(https://mp.weixin.qq.com/s/Q1…)主导 OpenAI 的创立,以及日常经营和钻研工作。Greg 当初也是 OpenAI 的董事长和总裁(2022 年前始终负责 CTO),从企业势力构造来看,他才是 OpenAI 背地的一号人物。

Greg 有着不凡履历。2009 年,他本科毕业于哈佛大学数学与计算机科学系,2010 年在 MIT 计算机科学读博,期间保护 XVM、Linerva 和 scripts.mit.edu 等出名我的项目。毕业后成为互联网领取平台 Stripe 的 CTO,帮忙团队实现了员工人数从 4 人到 250 人的增长,不过在公司倒退方兴未艾之际,他抉择急流勇退,持续追赶平凡的事业,由此才有了 OpenAI 的守业历程。

OpenAI 的诞生也源自一群不凡的投资人。家喻户晓,OpenAI 起源于 2015 年门洛帕克的一顿晚饭上,那时大佬星散,在基于“构建平安的人工智能以造福人类”的愿景下,他们决定创立一个非营利性机构,并且最终取得了包含 Greg Brockman 和 Sam Altman 在内的马斯克、Jessica Livingston(Y C 开创合伙人)、Peter Thiel(PayPal 联结创始人)、Reid Hoffman(LinkedIn 联结创始人)等企业家,以及亚马逊的 AWS 等知名企业和机构的十亿美元投资。

光有钱还不够,负责创立 OpenAI 团队的 Greg 还要找到能实现这一愿景的技术人才。ChatGPT 大火之时,知乎上有个热议问题:妨碍国内团队钻研 ChatGPT 这样产品的阻碍是技术、钱还是领导力?

从技术上看,ChatGPT 外围算法早就是公开的,没什么机密,无论是互联网大厂还是融资上百亿的守业公司也不缺买算力和数据的资本。还有不少人反思说国内不足那种投资和守业的土壤。但最外围的是,咱们不足 OpenAI 这样的团队以及其中极具远见和坚定信念的领导者,这些是使得所有愿景成为可能的必要条件。

通过搜查人际网络,Greg 心愿邀请一批顶级人才组建队伍。这个网络上的节点人物很是惊人,包含深度学习畛域“三巨头”Geoffrey Hinton、Yann LeCun、Yoshua Bengio 等大牛,这些大牛又给他举荐了人工智能畛域顶尖技术人才,包含机器人与强化学习畛域大牛 Pieter Abbeel、Andrej Karpathy(https://mp.weixin.qq.com/s/2z…)(起初负责了一段时间特斯拉 AI 总监后,最近又回归 OpenAI)、Ian Goodfellow(GAN 网络发明者)、Wojciech Zaremba(Yann Lecun 学生)等。当然,除了明星级人物,如果那时你加入线下会议,坐你旁边的人是 Greg,他会被动跟你交换,感觉适合也会邀请你退出 OpenAI。

Greg 认为,团队的胜利须要招募到对的人 。只管 OpenAI 成立不久,但通过他和 Ilya Sutskever 的共同努力,吸引了不少业内顶级大牛退出,而这 更多依附的是对 OpenAI 使命愿景的认同,以及与聪明人一起工作的环境。

最近,ChatGPT 让国内不少精英再一次感触到落后的紧迫感,不少守业团队要打造“中国版的 OpenAI”。咱们不乏真正有抱负的创业者,但设想一下,如果在 2015 年曾经有一支 OpenAI 团队,Sam Altman 和 Greg Brockman 这群人很可能会去打造另一支不同于它的“DeepMind”团队,而不会称本人要去打造“硅谷版的 OpenAI”,并且是为了复现 ChatGPT。

在 Greg Brockman 主导 OpenAI 的最后两年里,2016 年 4 月,OpenAI 公布了强化学习钻研平台“OpenAI Gym”的公测版,同年 12 月,公布了软件平台“Universe”,用于掂量和训练人工智能在寰球游戏、网站和其余应用程序中的通用智能。

那一年,Alphago 刚刚问世,新一轮 AI 黄金时代开启。与此同时,AI 畛域尚不存在大型语言模型(LLM)这个概念,刚刚成立两年的 OpenAI 也没有公布 GPT 模型,他们仿佛只有含糊的想法,不过这个新组织每天都在为新技术摸索而冲动。

不管怎样,如果国内要打造这样一支团队,无妨听听当事者 Greg Brockman 是如何从零到一构建起一支原版的 OpenAI,从其守业旅程中一窥他的组织构建思维,他如何聚拢了一大批才华横溢的顶尖人才,这个组织的翻新能量又从何而来。

(以下内容由 OneFlow 编译,转载请分割 OneFlow 取得受权。原文:https://blog.gregbrockman.com…)

作者|Greg Brockman
OneFlow 编译
翻译|徐佳渝、贾川

在高中毕业后的距离年里,我曾认真学过编程。我读过图灵的《计算机器与智能》一书,并深受启发:代码能了解那些编写代码者所不能了解的货色。于是我筹备着手写一个聊天机器人。那么写进去有多难呢?

我想创立的是能与人失常对话的机器人,但找了很久,仿佛没有人能做出这种机器人。我很快便搁置了这个想法,转而专一于创立那些能真正产生影响的零碎。

1、大学钻研我的项目

读大学时,我对编程语言很感兴趣,由此便进入了 AI 的大门。编译器和动态分析器能“了解”那些我了解不了的程序,于是我便罕用其来做一些十分有用的事件,比方疾速生成代码并测验其是否正确。

我始终想潜下心来去做编程语言钻研,却总是受到新的守业点子和新共事的影响。其实我的共事人都还不错,但这些守业想法可就不敢恭维了。无论在哈佛还是麻省理工,我都致力向那些优良的人看齐,被动融入他们,并与之共建有用的货色。

Greg Brockman

大三那年,我发现在校守业没有意义,所以我就和那些创业者面谈,吸取教训。与此同时,我终于开始了编程语言钻研之旅。我从一位传授那里取得了钻研经费,并招募了一些敌人进行动态缓冲超时检测我的项目。

几周后,帕洛阿托(Palo Alto)一家尚未启动的初创公司分割了我。个别状况我会间接删除这种邮件,但此时我也正筹备与初创公司会面,所以咱们团队就立刻点开了邮件,此时我也发现,他们也正是我始终在寻找的那种人。于是我来到学校,这也意味着咱们的缓冲超时检测我的项目就此搁置了。

2、Stripe 生涯

那家公司就是当初的 Stripe。在我的帮忙下,公司规模从 4 人扩充到了 250 人;在我来到后的一年里,又持续扩充到了 450 人(当然,这份功绩与我无关)。

此时公司的倒退正方兴未艾,无论有我没我,都会持续持续做平凡的事件,所以我筹备来到 Stripe。我想做的是与优良之人同行做些有意义的事件,但开发者基础架构并不是那个我想穷尽余生之力去解决的问题。

然而,我终于还是找到了那个我想解决的问题:发明出平安的人类级别的 AI(human-level AI)。 只有这项技术能真正为人类所用,我想肯定会引起轰动,并给世界带来踊跃影响。

(Greg Brockman 与 Sam Altman)

在我最终决定到职之前,Patrick 说 Sam Altman 有很好的局外人视角(https://mp.weixin.qq.com/s/AH…),而且见过很多跟我状况相似的人,应该能给我一些好的倡议,让我去和他谈谈。

在与 Sam 交谈五分钟后,他说:看来你是齐全筹备好到职了,后续事宜有什么须要我帮忙的吗?

我说 AI 是我的首选(这相对是我的人生目标),但还不确定当初是否就是做这件事的最佳时机,而且我也不晓得最佳的奉献形式是什么。

他答复:咱们始终在思考通过 YC(译者注:Y Combinator,美国驰名守业孵化器)建设一个 AI 实验室,你或者能够跟咱们单干。

3、钻研深度学习

大概在这一两周后,我就来到了 Stripe,开始着手深入研究 AI,想要更好地理解该畛域正在产生的事件。仅从 Hacker News 上的帖子(例如 http://karpathy.github.io/201…)就能够看出:人们对 AI 尤其是对深度学习的关注度越来越高。但在进入该畛域时,我依然是持有正当狐疑的,在投身 AI 之前,我想确定一切都是可行的。

我的第一个指标是弄清楚深度学习到底是什么。然而事实证明这并非易事。例如,deeplearning.net 上只是说“深度学习是机器学习钻研的一个新畛域,引入深度学习的目标是使其更靠近于最后的指标——人工智能”。尽管这听起来很令人兴奋,然而却并没有说分明到底什么是深度学习。

侥幸的是,我有一些从事 AI 行业的敌人:Dario Amodei(曾任 OpenAI 钻研主管,现 Anthropic 创始人和 CEO)和 Chris Olah(曾任 OpenAI 技术主管,现为 Anthropic 联结创始人)。我向他们征求了一些意见,他们给了我一些很好的入门资源,其中最有用的是 Michael Nielsen 写的书。我读完后还在 Kaggle 上练习了新学到的技能(在第一次较量时我就拿到了第一名!)。

一路走来,我一直遇到 AI 畛域中那些超级聪慧的人,并与我大学时最聪慧的一些敌人从新建设了分割,例如当初在该畛域工作的 Paul Christiano(曾任 OpenAI 研究员,现 Alignment Research Center 创始人)和 Jacob Steinhardt(加州伯克利分校助理传授)。我感觉这是一个强烈的信号。

我理解得越多,就越置信 AI 已筹备好散发本人的光辉。深度学习的能力几乎令人难以置信,比方,咱们当初能够极其精确地对图像中的指标进行分类(2014 年的 XKCD 就曾经实现),语音辨认十分精准,还能够生成非常真切的图像。不过尽管这些技术足够新,但到当初为止还没有扭转人们的生存形式,它们现在的影响还仅限于反对某些产品实现特定性能。

有一位敌人曾开发过 Facebook News Feed。还记得我曾对他说过这样一句话:简略的算法,大量的数据。每个人都试图抛售很酷的新 AI 算法,但实际上只须要扩大逻辑回归(logistic regression)就会十分见效。 而他对此持狐疑态度。而后我就拿出了谷歌翻译 App,将其设置为航行模式,并向他演示了如何间接翻译图片上的文字。他对此印象颇深,并抵赖简略的算法对此杯水车薪(这背地次要是深度学习在发挥作用,不过这不是重点,重点是它无效。)

4、守业想法诞生

Sam Altman 在 2015 年 6 月分割我,问我是否曾经想好下一步该做什么了,我通知他目前的打算是明年开一家 AI 公司。而后咱们打了通电话,他提到他们正在推动 YC 的 AI 我的项目。我问:实验室的目标是什么?“建设平安的人类级 AI”,他说。

在那一刻我就晓得,他很适宜当我下一家公司的合作伙伴。当初很少有人敢于明确尝试构建人类级 AI。我意识到,有时候一项成就只须要有个胆大的人发表指标,而后适合的人就会退出其中。

大概一个月后,Sam 在门洛帕克(Menlo Park)举办了一场晚宴,加入宴会的有 Dario、Chris、Paul、Ilya Sutskever、Elon Musk、Sam 和其余一些人。

咱们探讨了 AI 畛域的现状、目前离人类级 AI 还有多远以及实现人类级 AI 还须要的货色等等。整场对话围绕着“什么样的组织能够最好地确保 AI 的无益性”开展。

答案很显著:必须是非营利组织,因为没有任何利益冲突来影响其使命。此外,这样组织还必须放弃在钻研的前沿(依据 Alan Kay 的名言,“预测将来的最好办法就是发明将来”)。为此,该组织须要有世界上最好的 AI 钻研人员。

所以问题就变成了:是否有可能从头开始创立一个领有最优良 AI 钻研人员的实验室?咱们的论断:还是有机会。

这是我第一次见到 Elon 和 Ilya,我对他们的印象十分粗浅。Elon 充斥了好奇心,他真诚地征求别人意见并用心聆听每一份答复;而 Ilya 则是技术根底的源泉,他是一位头脑清晰的技术专家,常识博大,视线宽阔,并且总是可能深刻到以后零碎局限性和性能的具体细节。

我请 Ilya 对深度学习给出一个好的定义,以下是他的答复:

有监督深度学习的指标是解决简直所有“将 X 映射到 Y”模式的问题。X 包含图像、语音或文本,Y 包含类别甚至句子。将图像映射到类别、将语音映射到文本、将文本映射到类别等等,如此种种,深度学习都是十分有用的,而且其余办法无奈做到。

深度学习一大吸引人的特点是它在很大水平上是独立于其余畛域之外:在一个畛域中学到的许多货色能够实用于其余畛域。

深度学习模型中建设了形象层,这些形象能够实现工作,但很难了解它们到底是如何做到的。模型通过应用反向流传算法(简略且高效)逐步扭转神经网络的突触强度来学习。因而,咱们能够用极少的代码来构建出大规模简单的零碎(因为咱们只须要编写模型和学习算法的代码,而非最终后果)。

晚宴完结后,Sam 送我回城里。咱们都认同值得在 AI 畛域做点什么。我晓得,只有当有人违心全心全意地弄清楚这到底是什么,谁又可能退出其中,咱们的愿景才会成为事实。那就让我来当这样的人吧。

所以,我今天又要构建一些有影响力的货色了。

5、OpenAI 的愿景

那次晚宴上,咱们议论了成立 OpenAI 实验室。尽管每个来加入晚宴的人都畅所欲言,但并没有一个清晰的愿景,而 Elon 和 Sam 则提出了本人的想法:OpenAI 旨在构建平安的人工智能以造福人类。我也想尽可能奉献本人的力量,为了如愿以偿,便开始和 Sam 一起组建团队。

不过咱们短少了一个外围因素,即一位 AI 技术远见者,其直觉和想法能够帮忙咱们获得冲破。

(从左至右顺次为 Ilya Sutskever, Alex Krizhevsky, Geoffrey Hinton)

显然,Ilya Sutskever 是最佳人选。Ilya 能够说是一位艺术家,他经常通过机器学习来表白本人的感触(有时也会通过绘画来表白)。Geoffrey Hinton(深度学习教父)曾通知我,AlexNet 之所以能引发一场计算机视觉深度学习反动,在于 Alex Krizhevsky 高超的 GPU 编码技能及 Ilya 的信念,即深度神经网络必定会在 ImageNet 比赛中获胜。(Geoff 对本人奉献的治理技巧感到无比骄傲。Alex 十分厌恶写论文,Geoff 通知他,他在 ImageNet 上的性能每进步 1%,他就能够把论文推延一周。后果 Alex 迁延了 15 周。)

始终以来,我都认为本人只能与相识多年的敌人共创公司。然而事实并非如此。八月下旬,我和 Ilya 在山景城共进晚餐,过后我就晓得咱们会一起单干,在此之前,咱们也只在七月见过一次。我和 Ilya 聊得非常投机,只管我对机器学习钻研的理解不多,他对工程和团队建设的意识也没有那么深刻,但咱们对彼此的成就印象非常粗浅,也心愿可能互相学习。

咱们交换了彼此的认识、吸取了彼此的短处。Ilya 认为,顶级钻研人员心愿在人工智能组织工作,而该组织致力于为世界发明最佳成绩。在我看来,要想解决一些辣手问题,则需将私营企业的资源与学术界的使命相结合。

若无外界干涉,人工智能将会像主动驾驶汽车一样施展本身的作用。一旦人工智能的后劲得以证实,人们就会与之开展单干,而后则是一场场技术比赛。不过,人类级别的人工智能将会是一种不同凡响的变革性技术,有其独特的危险和收益。咱们看到了这一时机:在人工智能畛域开展单干,会集泛滥顶尖钻研人员,以获得史上最重大的科技冲破。

Ilya 和我始终在探讨团队组建计划,直到该计划得以落实。期间,咱们探讨了策略(行将从事什么工作)、文化(想雇用的人员,即等同器重工程和钻研的人员)和策略(举办每日浏览小组)。Alan Kay 与咱们共进晚餐时,向咱们讲述了施乐帕洛阿尔托钻研核心(Xerox PARC)的故事,包含 Alto 的诞生及用硬件“在将来生存”,这些硬件在十年内将破费 1000 美元。

预先,Ilya 对用餐期间的谈话做了奇妙总结:“尽管 Alan 的话我只听懂了一半,但令人振奋不已。不过这顿饭帮咱们验证了许多假如,即怎样才能构建一支能将工程与钻研相结合的有影响力的团队。

6、晚期团队的招募

因为 Ilya 还在谷歌工作,因而无奈帮忙招聘,这一工作就落到了我身上。8 月至 11 月,由我负责开办团队。不过,我对人工智能并不相熟,不分明如何招募优良的钻研人员。我首先关注的是 7 月加入过晚宴的人,但不能确认具体人选。

下一步,便是通过人际网络与这些人取得联系,并顺次寻求他们的举荐,这与我以往的招聘形式有所不同。对于初创公司而言,首要挑战总是要向候选人“抛售”使命,但在 OpenAI,使命立即引发大家的共鸣。于我而言,挑战在于如何压服候选人置信这个未成形的组织。

人工智能畛域顶尖人才的人际网络对我帮忙很大。一位敌人推荐我意识 Andrej Karpathy 和 Wojciech Zaremba(OpenAI 联结创始人),因为我并未从事该畛域工作,他们对我说的话示意狐疑。Yoshua Bengio 又将我推荐给 Durk Kingma(曾任 OpenAI 钻研科学家,当初谷歌钻研团队),过后后者对于我的提议示意很感兴趣,不过这种趣味转瞬即逝。真正的转折点是 John Schulman(OpenAI 联结创始人、钻研科学家)的评估,我跟他聊到这一组织的成立,他示意这样的组织正是他所追寻的,能将学术界的凋谢与使命同私企的资源相结合,因而退出了咱们。John 的反对也引起了 Andrej 和 Wojciech 的关注。

招聘工程师绝对容易一些。Trevor Blackwell 是一位机器人专家,也是 YC 的合伙人,他始终在与 Sam 探讨咱们正在打算的疯狂想法。Vicki Cheung(现 Gantry 联结创始人)是在咱们成立资助机构“YC Research(现为 OpenResearch)”之后申请加入的。那时,咱们虽未表明钻研畛域是 AI,但她深受 YC Research 构架的鼓励,并示意很乐意参加咱们团队的所有工作。

11 月初,尽管咱们对开创团队有了更深刻的理解,但依然须要让大家正式退出进来。在 Sam 的倡议下,咱们邀请了所有候选人去户外散步。期间,人人都真切地表白了心田想法、观点,才思泉涌(实际上,该地也是 Andrej 提出 Universe 之地)。回程中,一路上交通堵塞。不过简直没人留意到这一点,因为大家聊得太投入了。

咱们给此次流动的参与者都发了 offer,并将 offer 的截止日期设置为 12 月 1 日,这样咱们就能够在 12 月初的 NIPS(NeurIPS)机器学习会议上公布成员退出的音讯。

“月末”就这样开始了。Sam、Elon 还有我和每个人都聊了聊,次要是让大家置信这件事的真实性。除了一名齐全无心涉足人工智能的工程师外,其余候选人都承受了咱们的 offer。

Fred Brooks 在《人月神话》一书中提及了 Robert Heinlein 的故事,该故事讲述了“登月”我的项目。该项目标总工程师总会被经营工作扩散注意力,例如对于运输车或电话的决策,这种状况始终继续到他收到一份报告,据报告显示不再让他负责所有与技术无关的工作。

这一故事给我留下了印象粗浅,我认为它同样实用于构建人工智能的我的项目。技术领导除了做理论技术工作以外,同时还应该亲自做决策。我不晓得本人的工程技能何时能力派上用场,不过在此期间,我决定尽我所能帮 Ilya 分担与钻研无关的工作。

2016 年 1 月 4 日,咱们整个团队来到第一间办公室(也就是我的公寓)开始工作。探讨中,John 和 Ilya 转身打算在白板上写点些什么,却发现这儿没有白板。我立刻给他们买了一块白板,还有一些办公用品。

咱们的第一间办公室(配有白板)

在一月剩下的工夫里,我负责组织团队,帮忙确定哪些人负责哪些工作,以及团队想达成的指标。咱们探讨了钻研人员须要具备什么品质,践行公司理念,设计并确保面试顺利进行。此外,咱们还议论了愿景、工作形式以及想要达成的指标。我和 Vicki 购买了服务器,创立了 Google Apps 帐户,同时对咱们 12 月启动的 Kubernetes 集群进行了保护。

余下的工夫,我浏览了 Ian Goodfellow(GAN 网络发明者)的深度学习书籍(并写下了书评,因为我的评论比其官网评审员的评论更加全面,给他留下了深刻印象。因而,这也不失为一种招聘策略)。

7、Gym 库

比起应用新的数据集,应用一种新的算法通常能解决机器学习中的问题,Wojciech 倡议构建一个库来造成强化学习环境的规范(实际上是动态数据集),当初称之为 Gym。这个代码库的品质很快成为咱们迭代速度的高阶位(high-order bit)。二月底,我和 John 探讨了 Gym 的公开公布工夫。依照目前的倒退状况,他认为可能要到今年年底能力公布。

(咱们正在用机器学习训练 Fetch 机器人。Gym 反对管制物理机器人和模仿机器人。)

一时之间,工程学成了研究进展的瓶颈。Ilya 与我调换了角色,由他负责行政工作,这样我就能够专一于技术工作。和 John 考查了这项工作之后,咱们晓得在四月底之前就能构建好 Gym。

在 Stripe 时,我发现了一个可能间接创立软件系统的可反复模式,即专一于软件,排除所有烦扰,从早工作到晚。这样一来便能激励大家奉献本人最好的作品(重要的是,是以输入品质来掂量而不是工作工夫)。这是我感觉最有生机的时候:编程就如魔法变成事实个别,我所设想和形容的事件都将成为可能。这种模式产生了 Stripe 信用卡保险库(2010 年构建结束,也就是在我假期回家的两周内实现的)、信用卡受权流程(在三周内就能建成,而银行构建周期却须要 6 -12 个月)和夺旗赛(通常我和其他人都要花三周的工夫)。从战术上讲,我能够抉择一个“试发行”日期和“正式”公布日期,距离一两周;我从未抉择过“试发行”日期,但从未错过“正式”公布日期。

随之而来的是从未面临过的挑战。因为我并非该畛域的专家,起初,引起了很多摩擦。我会结构一个形象的框架来帮忙 Wojciech 的工作顺利进行,而 John 会发现这一行动妨碍了他的工作过程。但很快,我就理解到哪些决定会影响钻研的工作流程(例如人们如何记录指标)以及哪些细节钻研人员不会关注(例如人们如何录制视频)。在确定了案例对钻研的重要性之后,要放弃肯定的谦虚,能力做出最佳抉择。我通常会提出五个可能的备选计划,John 则会指出其中有四个计划都不行。但大多数设计决策能够通过软件工程的直觉做出,而无需深刻理解相干畛域。

侥幸的是,我不是一个人。大概在 Gym 公布的前六周,曾与我在 Stripe 一起钻研 CTF 3 的 Jonas Schneider 分割了我。短短几天工夫,咱们就在 Gym 上建设了单干关系。因为别人在德国,所以咱们通过每日交接最终胜利地实现了该我的项目。对于曾经建设好工作关系的人来说,这真的很微妙,若所有从头开始,咱们不会放弃如此严密的工作关系。

(Gym 公布后不久,咱们在 ICLR(国内表征学习大会)上散发 OpenAI 的 T 恤。)

总的来说,机器学习零碎可视为机器学习的外围之一——通常是一种高级算法,要想了解该算法,至多须要浏览过几章 Ian 的书——波及大量软件工程的内容。工程能够围绕数据进行改选,提供输出和输入的封装器,或调度分布式代码,这些都会都以黑盒模式与外围(core)连贯。咱们在工程和钻研方面作出的致力达到肯定水平时,机器学习就会获得提高。工程方面每多一分致力(例如缩小 Universe 提早),咱们的模型问题就会逐步变得更容易,并且有机会实现以后钻研。

8、Universe 平台

在往年 4 月 Gym 上线后,我和 Ilya 开始调整组织流程。Sam 和 Elon 都会到访公司,提出一些领导意见,咱们会依据其领导来确定团队的构造及指标。

(团队在第一间办公室工作的场景。过后办公室有白板,只是图片中未显示。)

多样、简单的 AI 环境是必不可少的。Andrej 提出了一个不错的倡议,即创立一个 Agent 来管制 Web 浏览器,但这与 Selenium 测试工具有所抵触。我开始思考应用 VNC,以容许 Agent 从像素驱动整个桌面。

但咱们发现,这种办法存在许多危险。例如,2013 年 DeepMind 公布的 Atari 文章提出,他们花了 50 个小时从像素训练 Pong 游戏,咱们的环境将比 Pong 更难。即便是做小规模的试验,咱们也须要花几天工夫,而且不会获得任何停顿。因而,咱们设定了一个升高外部危险的指标,即让 Agent 在一小时内学会 Pong(现在咱们已获得了冲破:十分钟内便能解决 Pong 遇到的问题)。

就像构建 Gym 时那样,我专一于构建 VNC 零碎,现称之为 Universe。与 Gym 不同的是,该我的项目并非旨在反对咱们现有的钻研形式,而是提出全新的问题。对于这一点,咱们每个团队都有负责人,他们负责关照本身团队的成员,咱们的工程师 Jie Tang 已开始带头招聘。因而,行政这一重任并没有齐全落在 Ilya 身上。这非常侥幸,因为这样 Ilya 就能为该危险我的项目的首个版本构建 Agent。

一个从整个动作空间随机抽样的 Universe Agent(即随便点击、按键)。更多体现良好的 Agent 请参阅 Universe 公布的帖子。

Universe 我的项目耗时相当长,因而,须要正当调配工夫来经营我的项目。我找到了一个平衡点,编码时,我会将工夫进行划分。一次会议会扼杀整个上午 / 下午的生产力,若上午和下午都有会议,我将筋疲力尽,从而导致晚间的编码效率大大降低。因而,我开始将会议工夫限度在凌晨或午餐后,且每天的会议次数低于三次,隔天的会议次数不超过一次。

搭建 Universe 自身就是一项零碎钻研工作:尽管高级标准很简略(容许 Agent 应用键盘 / 鼠标 / 屏幕),但素来没有人尝试过构建相似的零碎。长期以来,人类始终能够用 VNC 管制一台近程机器,但还无奈实现以编程形式同时管制数十台机器。

当咱们须要掂量零碎的端到端提早时,Catherine Olsson 和我构建了一个零碎来将工夫戳嵌入图像中。有时挑战不是技术上的:当钻研因为训练数据无限而碰壁时,Tom Brown 在 24 小时内就组建了一个外包团队来玩游戏。有时候挑战也可能很难以了解,比方当 Jonathan Gray 留神到因为外包人员的笔记本电脑 CPU 较低端,游戏动静可能会与 AI 有所不同。

一天,当我正在致力重组一些 JSON 基准标准时,我意识到:咱们须要从新构建这些标准,因为没有人从未尝试过在数千个游戏中对单个 Agent 进行基准测试。在 OpenAI,做艰辛的工作也是最根本的

在接下来的几个月里,由 Dario Amodei 和 Rafał Józefowicz 负责 Universe 的钻研工作。他们都是夜猫子,我也和他们一起熬过了很多个夜晚,解决钻研中遇到的问题。有时我也想躺在床上睡觉,但每修复一个 Bug 都会使钻研减速几个小时。每个人的工作中都有一些十分有用的货色,能让钻研人员提出人类此前从未有过的问题。

Universe 团队在办公室散会

到公布时,Universe 团队曾经有约 20 集体了。Universe 当初是一个旗舰我的项目,也是咱们钻研策略的外围局部。Universe 的例子恰好阐明“工程”是如何成为当今 ML 钻研的瓶颈,这也让我晓得为什么有那么几天只想读 Ian 的书了。

9、下一步倒退方向

咱们当初是一个领有四十人的公司,须要有人全力来优化团队。自 OpenAI 成立以来,咱们始终在寻找适合的首任技术经理。几个月前,Sam 向我介绍了一位特地杰出的工程执行人:Erika Reinhardt。Erika 曾在 Planet Labs 负责产品工程总监,当初在和 Sam 一起经营 voteplz.org。在 Planet Labs 时,Erika 是对端到端卫星成像零碎理解最深的人之一。她工作致力,自驱力强,总能把事件做好,前共事都说她是所能遇到的最聪慧的人。Sam 和我就筹备邀请她退出公司。

公司团建,2016 年 10 月

但在选举会和 Universe 发布会上与咱们单干时才是她最具魅力的时刻,她发现她的领导技能在这种环境中十分实用。她通知我:在看到 OpenAI 在参议院举办的首次 AI 听证会上发言的那一刻,她就下定决定要退出 OpenAI。过后 OpenAI 说:咱们正处于重大技术改革的开始,此时最重要就是要把握机会。

在 Stripe 时,Marc Hedlund 和我常会遇到他在之前的许多公司中都遇到的问题,所以他喜爱开玩笑说所有公司都一样。就这一点而言,的确有事实根据:如果将范畴放大一点,就会发现公司都是围绕一个指标来把人组织起来。但每个公司要解决的问题又不一样,这又决定了公司之间会有所差别。

大多数初创公司都是先发明出一种技术,而后随着工夫的推移对其进行经营和扩大。OpenAI 是发明新技术的工厂,这意味着咱们必须构建公司来发明新事物。咱们须要保护基础设施和大型代码库,但它们又满足了咱们疾速口头、翻新和通过联合软件工程和机器学习钻研来达到新高度的需要。

在 OpenAI 当 CTO 的这段时光里,我做的正好是我最喜爱做的事:写代码。但即便如此,人依然是我关注的焦点,所以我在 OpenAI 的故事是与社会的故事,而不是与技术的故事。

在将来,咱们团队要持续携手并进,独特应答海因莱因短篇小说中“卡车或电话”的挑战,OpenAI 能力继续倒退。在此,我向 Ilya、Sam、Elon 以及为 OpenAI 付出过的每一个人示意衷心的感激。

欢送 Star、试用 OneFlow 最新版本:https://github.com/Oneflow-In…

退出移动版