[]()
起源|wandb.ai
翻译|刘畅
随着新药研发难度越来越大,机器学习成为了该畛域的重要破局工具。2020 年年底,在国内蛋白质构造预测赛中,DeepMind 公司研发的 AlphaFold 2 摘得桂冠,并破解了蛋白质折叠这个困扰人类 50 年的难题,轰动一时,新药研发也成为热点话题。不过,这个畛域早有不少开拓者。
2018 年 2 月,AI 新药研发公司 Insitro 成立,2021 年实现 C 轮融资后累积资金额达 7.43 亿美元。该公司致力于利用大数据、机器学习以及生命科学畛域的交融翻新技术,从新构建药物设计过程,他们心愿以一种新范式扭转这一畛域。创始人兼首席执行官 Daphne Koller 称“数字生物学”将成为下一个迷信新时代的大时机。
作为 AI 畛域的出名学者,Daphne Koller 在 18 岁就从耶路撒冷希伯来大学取得硕士学位,26 岁成为斯坦福大学计算机系助理传授,曾获麦克阿瑟“蠢才奖”,是美国工程院院士、美国艺术与科学院院士,并在 Science、Cell 等顶尖学术期刊发表论文 200 多篇,H 因子高达 145。想必很多机器学习从业者应该读过她的概率图模型经典著作《Probabilistic Graphical Models: Principles and Techniques》。
不止于此,在 2012 年,Daphne 与吴恩达独特创建了世界上最大的在线教育平台之一 Coursera,目前市值超 30 亿美元。2020 年,她还创建了高等教育数字学习平台 Engageli。
在机器学习节目 Gradient Dissent 中,Lukas Biewald 与他这位已经的斯坦福大学老师聊了聊由“数字生物学”开启的迷信新纪元,以及机器学习在药物发现中的作用及其面临的挑战。
以下为对话内容,OneFlow 社区做了不扭转原意的编译。
1
倒摩尔定律、机器学习与新药研发
Lukas:很冲动再一次和你交换,我最想跟你聊的是 Insitro,它看起来十分乏味且激动人心。
Daphne: Insitro 是一家药物研发公司。如果你在过来 50 年里始终关注药物发现,会发现咱们为东北亚地区的患者提供药物方面获得了巨大进步。但与此同时,依据“倒摩尔定律”(Eroom’s Law,摩尔定律的扩大),药物研发的生产率呈指数级降落。这是因为发现和研发药物的过程非常复杂和漫长。理论研发时,可能须要数月甚至数年的工夫,以及消耗数百万美元甚至数千万美元能力意识到咱们走错了方向。
因而,咱们所要做的是应用机器学习的形式来构建公司,毕竟,这是帮忙咱们在其它许多畛域做出真正无效地预测的技术,并将其作为一种在齐全不同的根底上构建药物发现和开发过程的办法。这就是咱们真正想要做的,给患者带来更好的药物,并且更快地实现研发。
Lukas:高水平的药物发现规范过程是什么?机器学习的适用性或可改良的中央有哪些?
Daphne: 我不晓得人们是否真的能够谈论出一个规范的过程,因为在过来几年里,这是一个一直倒退的过程。药物发现的钻研在学术核心进行,它是一系列生物学方面的钻研,旨在揭示与疾病无关的基因和生物学机制、路径。而后有人提出了一个假如,如果对基因进行干涉,它可能会治愈或至多有助于疾病医治,而治愈是一个十分宽泛且雄心勃勃的词,咱们治愈了一些常见疾病,这也有助于医治其余某些疾病。
首先,你必须确认指标。通常是用动物试验来模仿疾病的某些方面。对于咱们明天所患的许多疾病来说,动物并不是天然患病的。所以你必须在动物身上制作疾病,而后尝试在动物身上解决它。通常状况下,你所解决的并不是真正的疾病,因为有些模仿十分不准确,有时甚至是齐全谬误的。
而后,一旦有了指标,通常会寻找一种帮忙调节指标的化学物质。它有不同的医治形式,也就是不同的干涉形式。不管怎样,30、40 年前咱们的次要医治形式是应用小分子。而后呈现了生物制品,它们是更大的分子。当初基本上是蛋白质和抗体,抗体也是一种蛋白质,它在许多状况下更有用,但指标范畴更窄且更难实现。
随着工夫的推移,过来两年中呈现了更多的医治形式,帮忙干涉身材和其余类型的机理。在人们都在议论基因治疗的状况下,咱们能够染指并干涉 DNA 自身。目前为止,只有很少的畛域失去了批准,但这是一个一直倒退的畛域。现在应用的 COVID-19 疫苗,人们议论的 RNA 医治是对 RNA 级别的 DNA 和蛋白质进行干涉。
因而, 所有这些办法都是在扩充对人体进行智能干涉的能力,从而对疾病过程进行干涉。 通常状况下,它失败的中央在于一开始咱们基本不理解生物学。因而,咱们在干涉指标时的辨认能力,对临床的好处实际上十分无限。很多时候,咱们猜错了。有时,咱们也无奈了解干涉特定指标可能带来的所有其余影响,比方特定基因在身材里做了其它预料不到的事件,如果咱们以一种设想上可能有益于身材的形式进行干涉,反而可能是无害的。
这就是咱们做出无效预测能力比拟欠缺的中央,也是很多药物失败的起因。当初,失败率在 90 到 95% 之间,它取决于你把什么当做分母,就像你开始计算什么时候把我的项目作为一个药物我的项目。也就是说,每 20 种药物中只有 1 种到 10 种药物中会被批准,而实际上最终对患者产生真正影响的药物甚至更少。
如何能力更好地做出预测,这就是咱们想要解决的问题。首先,对于特定患者群体的既定疾病,你心愿干涉的指标是什么?而后,如果想在这个指标上进行干涉,退出什么样的化学物质的副作用更小,可能会有更好的类药个性(drug-like properties)?适合的患者群体有哪些?我认为,咱们明天遇到的很多失败都是出于试图去谋求更宽泛或谬误的患者群体。
因而,随着工夫的推移,我认为在这个过程中的很多问题,机器学习能够进行干涉,比方指标、药物、患者群体以及能通知咱们药物何时起作用的生物标识物,以便咱们能够缩短工夫。如果没起作用,则将患者转向另一种药物。所有这些都是我认为机器学习能够发挥作用的畛域。
Lukas:那机器学习是否试图模仿实在的物理场景?它是否疏忽了这一点,而只是回顾过去曾经尝试过的试验?
Daphne: 我想这些人们都试过了。正如咱们在其余利用了机器学习的案例中所看到的那样, 整合大量对于世界的先验常识有一些益处,但随着时间推移,这也是局限性所在。 所以我以前在计算机视觉畛域工作时,那时人们依然试图创立光如何从外表折射的模型,并为计算机视觉构建几何模型,以及打消模型等等。咱们当初不再这样做了。
咱们当初要做的是创立十分宏大的训练集,为计算机提供足够的数据,使其在无需理解很多对于世界构造的信息下,就可能学习其中的模式。 在大多数生物学问题上,咱们还没有达到临界点,因为现有数据还不够充沛。 所以在很多状况下,整合了咱们对生物学的更多了解的模型实际上比信息较少的模型体现得更好。
但在我看来,在过来一年中,一个真正的亮点成就就是 DeepMind 的 AlphaFold 算法获得了惊人的胜利。该算法应用了与 AlphaGo 相似的机器学习工具,基本上用来解决蛋白质折叠的问题,也就是,咱们已知一个示意蛋白质的氨基酸序列,须要预测它在 3D 空间中的样子。
在过来多年里,曾经有多个小组构建了计算机工具。他们联合了机器学习,但必定都交融了大量的物理、化学、电子等方面的先验常识,去摸索折叠的蛋白质是什么样子。它们都达到了肯定的正当的性能程度,但临时还不可用。
顺便说一句,每两年举办一次的 CASP 比赛是为机器学习模型设计的最好的盲盒测试较量,而且无奈舞弊。在这种状况下,实验室通过生成特定蛋白质的晶体结构(即 3D 构造)来对其进行试验,他们会将序列提交给 CASP 比赛,并且在比赛完结之前,他们不会放出已解决的构造模型。所以在 CASP 较量中,你能够看到性能有些停滞不前,而去年,DeepMind 冲破了这个瓶颈,并获得了一项可用于解决理论生物问题的性能。
他们做到这一点的办法是, 不在模型中退出很多对于物理和化学以及各种化学键的先验常识,而是给机器学习模型足够多的序列和软构造(soft structures)来训练。这表明咱们须要认真思考如何为生物或化学问题生成足够的数据,这样就能够让机器学习冲破下限并进步性能。
这就是咱们在 Insitro 所要做的,也就是在咱们关怀的问题上建设大规模数据生产能力,以便可能依据需要生成足够高质量和足够大的数据,这样就能够训练机器学习模型来解决药物发现过程中想要解决的问题。
Lukas:2004 年,你在钻研机器学习和生物学的利用,其中一些听起来和你在 Insitro 所说的十分类似。那么,当你在将近 20 年后开办这家公司时,是生物学有停顿,还是机器学习办法或者数据有所改进?使 Inistro 成为可能关键因素的是什么?
Daphne: 实际上,这是三者联合后的后果。首先是领有了比以前更多的数据量。因而,在过来十年左右的工夫里,在有利于数据创立的生物工具方面获得了微小的提高,包含 DNA、RNA 测序可行性的晋升,显微镜的吞吐量和性能都有了微小的晋升。在化学方面,DNA 编码库能够在一个试管中混合数亿个分子,微流控技术能够让你在渺小的液滴中进行试验,能够实现空间拆散和扩大。所有这些技术都是十年前不存在的。
当然,不要遗记 CRISPR 技术,当初能够开始以一种十分精密且疾速的形式编辑基因组,而后摸索以一种特定的形式编辑基因组时,细胞会产生什么变动,这是我在做的事件。此外,当初机器在图像识别、在测序数据中辨认生物模式等方面,机器显著好于人类。
Lukas:在你看来,2004 年至 2018 年间的次要洞察是什么?真正具备变革性的事是什么?
Daphne: 我认为那是三件事的联合。 首先,咱们有更好的机器学习模型。 咱们不只关注简略的模型,而是违心咬紧牙关地看待非凸模型,它不仅仅是一个繁多优化的问题,而是很大水平上依赖于你如何优化它们。
其次是存在足够大的数据集。 只管空间很简单,但人们能够训练这样的模型,并且不会从根本上产生过拟合。我认为,像 ImageNet 和其余网站在这些方面做了足够奉献,它们真的发明了足够大的数据集,这样人们就能够开始训练这些模型,数据集和模型自身一样重要。
最初是按下按钮就能进行计算。 我当初感觉本人真的老了,以前,当咱们不得不做须要大量计算的事件时,只能用本地 IP 人员精心保护的本地计算集群,花六个月的工夫来跑后果,并且祷告没有内存透露,因为你一点都不想再冒险去做一次。当初,有了云计算后能够在 10000 台机器上实现这项工作,一天之内就会有后果。对我来说,这比其余任何事件都更具变革性。
因为咱们可能做到这一点,再加上 PyTorch 和 TensorFlow 这样的平台,或应用 Adam 让咱们可能更快地编程。 咱们当初能在迭代循环中试验和改良模型,这是以前从未能做到的。所以,即便咱们让初始模型迭代第二次、第三次、第五次,甚至第二十次,并使其变得更好,而模型它也会随着工夫的推移变得越来越好
因而,更好的软件加上更好工具的联合,使得疾速的迭代周期成为可能,坦率地说,这比其余任何货色都更具变革性。
Lukas:像视觉数据集那样,生物学中是否也有相似可用的数据集?我猜,那可能有更多的专有数据。
Daphne: 至多从我所做的工作来看,其中一个最具变革性的数据集是英国生物库(UK biobank),它有 50 万人的基因数据,有临床后果,包含纵向临床后果,以及十分深层的表型(phenotyping),涵盖不同类型的成像、血液生物标志物、尿液生物标志物以及一系列其余协变量,比方环境因素。
这一数据集自身就具备真正的变革性,无论是在新办法的开发方面,还是在它给咱们提供的对于人类生物学的见解方面。还有其余一些数据集也十分重要。我认为,它们的数据没有那么大或精的,但依然相当重要。
还有 TCGA,它代表着癌症基因组图谱,这是一个相当大的癌症数据集,涵盖不同的肿瘤类型。还有 GTEX 数据集,它波及了不同组织和不同个体的不同基因表白,因而你能够查看个体内不同组织的基因表白差别,也能够查看个体间雷同组织的基因表白差别。还有其余比方 EndCode,代表不同细胞类型的 DNA 标记。
数据集是一个挑战,因为生物学中的噪声比其它许多畛域中的噪声更重要。 这就是为什么咱们要以这样的形式构建 Insitro,因为咱们有一个重要的组成部分就是生物实验室,其次要目标是生成大量数据,以便咱们可能以正确的形式训练模型。
Lukas:在这一畛域中,是否有迁徙学习的概念,其形式与视觉中的利用是否雷同?
Daphne: 我认为存在迁徙学习,甚至在图像中,也有这样的例子,人们在网络上的图像上训练相应的模型,而后迁徙到显微镜图像上。
如果你训练显微镜图像,我心愿它会更好。人们曾经做了相当多的工作,尤其最近在大量化合物化学构造的图神经网络模型的预训练方面,应用这种类型的编码作为你有较少训练数据畛域的预训练模型,比方化合物的具体性质。因而,如何利用那些可能较少监督信息的大型数据集,作为一种可能在小型数据集上构建有用的模型办法,我认为这实际上是将来几年将变得重要的一个大方向。
Lukas:你怎么看蛋白质折叠在药物发现中的重要性?
Daphne: 蛋白质折叠是否是药物发现的要害并不是那么重要。它可能是个问题,但必定不是妨碍药物发现的外围。人们试图用一系列其余办法来解决问题,但机器学习呈现后,有了正确类型的模型数据,才可能冲破这个问题。对我来说,这才是真正的教训,而不是咱们扭转了药物发现。
Lukas:你们的抱负应该不是只制作一种药物,而是建设一种制作大量药物的机制,如果看一下“命中率”,在运作企业时压力应该十分大。
Daphne: 压力太大了。尤其是目前每个试验至多破费数千万,甚至数亿美元的时候。咱们常常思考该走哪条路,如何使这个过程更快?如何使它老本更少?如何更快试错,这样就不会在行将失败的事件上破费数亿美元?如何更早地意识到某些事件是谬误的?这实际上就是机器学习想要做的事件。如何确保有足够的资金?从而在初期不胜利的状况下,给本人更多的机会。
2
线上教学:Coursera、Engageli 的源起
Lukas:我想问一下你的其它工作。对于 Coursera 和教学,你不再教书了是吗?
Daphne: 是的,我不再是斯坦福大学的传授了,当初是一名兼职传授。
Lukas:我感觉很惆怅,我只是想说,你是一位十分棒的老师。尽管你不是那种最激情的老师,但过了 16 年或 17 年后,会让人很难忘。我感觉我很快就从你那里学到了很多货色,当我做你的助教时,我看到你有多在乎教学,而我所在的数学系却不怎么在乎。就如同有人在这里,真的很想花点工夫好好教学,这种感觉真的很好,我真的很感谢。所以我对你起初开了一家以教学为核心的公司并不感到诧异,我想听听对于它晚期产生的事件。
Daphne: 教学始终是我的激情所在。作为像斯坦福这样顶尖学术机构、顶尖钻研机构的钻研人员,在教学上投入太多精力并不必要,但我想在这件事上花点工夫。
我始终认为教育只是一个机会之门,而不仅仅只是教学。 如果你在能让学生在绝对还很年老的时候走上正确的路线,老师使学生可能学习并成为他们能成为的人,而他们必须做出投资并想要失去它。老师不必学习他人,而他们却必须学习。这是一个不堪设想的驱动因素。
在我的家庭中,我的父母都有承受高等教育的机会,这为我发明了很多其他人没有的机会。我也始终尝试着教育我的孩子们,对咱们这些享有如此多机会的人来说,咱们有责任回报社会。
在这一点上,我的回馈形式是通过教学。事实上,这也是我最终来到斯坦福大学的起因。因为我感觉,通过创立 Coursera,凋谢教育的人数比我在斯坦福大学教的人数多得多,我有机会以更大规模回报给全世界。
事实上,这也是我之所以抉择开办 Insitro 的起因。我感觉当初是一个不堪设想的时刻,能以一种能够彻底改变世界的形式将两种学科联合在一起。 这是我责无旁贷的责任,如果我能做到的话,实现这一点简直是道德上的事不宜迟。 这不是很多其他人能做到的。
Lukas:我看到你还开办过另一家公司 Engageli,那仿佛是一个教学工具。这是你之前心愿 Coursera 要做的事件吗?
Daphne: 从某种意义上说,这是由咱们在这次疫情中察看的后果所驱动的,过后,我有两个十几岁的孩子开始在 Zoom 上上课,他们在学业上体现很好,也很怠惰。在某个时刻,我正看着他们,留神到老二在开课几分钟后,确保老师看到她,就会关掉相机和麦克风,用剩下的工夫去欠缺她的模仿人生游戏(Sims game),而老大则会花工夫在 Netflix 上看剧。
我想到,如果这是我的孩子们正在做的事件,是因为他们有这些机会,而其余那些没有同样条件的孩子会产生什么,他们在学校的班级要大得多,老师们花在视频教学上的工夫要更少。所以这真的是其中很重要的一部分。
但说实话,当我在斯坦福教学时,最后的目标也不仅是教常识,同时也在致力让斯坦福的教学变得更好。因为我感觉,我至多每周都要花三个小时在课堂上为你这样的人上课。
如果咱们利用那段时间,只是站在全班同学背后,对着你们唠叨,反复讲述了一次与我一年前在课堂上没什么不同的一堂课,这真的是利用课堂工夫的最佳形式吗?或者咱们能够把工夫花在参加和互动上做到真正的学习?这是一种踊跃的致力,而不仅仅是坐在那里看着传授对你谈话。
这才是促使我创立这个我的项目的起因,它最终也成了在 Coursera 中构建的性能,能够让人们一起学习,即便他们不在同一个中央。
咱们发现,无论是否身处同一间教室,网上教学实际上成果更好。 当初的教学方式是,一群人坐在音响效果不太好的大礼堂里,所有人都面朝前坐在固定的座位上看着老师。而线上教学可能灵便地让你与所在团队的人聊天,作为一个团队一起工作。
真正发明一种环境,去促成被动学习是一件十分难做到的事。 我心愿,咱们正在经验的这场可怕疫情带来的多数益处之一是,尽管咱们不能真正回到疫情之前的教学方式,但咱们会有更好的教学方法。
3
机器学习的最大挑战与数字生物学
Lukas:当我几年前还是你的学生时,我记得你对概率图模型十分感兴趣,它存在某种因果关系。你仿佛能够在数据中发现这一点,这真的很酷,也很令人诧异。这个畛域的倒退当初倒退怎么样了?我曾经没听过什么音讯了。
Daphne: 在过来几年里有很多对于深度学习的探讨,因为深度学习可能做的所有重大改革,是因为咱们可能解脱特色工程,而这在咱们解决的大多数工作中都是一个痛点。我认为, 依然十分有必要去了解因果关系。
我想到咱们在药物发现方面所做的工作,一个根本问题是,如果我对人类进行这种干涉,那会带来临床上的变动吗?对人类无益吗?这是一个介入性问题。如果你把这个问题和察看性问题一概而论,你很容易就会陷入相关性不同于因果关系的各种陷阱,而且从因果关系的角度来看,很多相关性齐全朝着谬误的方向倒退。所以你会发现自己干涉了与根本疾病过程无关的症状或后遗症。
我认为, 即便在更宽泛的机器学习畛域,人们也越来越意识到,因果关系是让机器学习进入下一个阶段的一个尚未解决的大问题。 我之前加入 NeurIPS 会议时,Yoshua Bengio 强调,这是一个尚未解决的次要问题,不仅在于其内在的重要性,而且也关乎了解因果关系和使你可能用更稠密的数据进行学习的因果过程,因为你有一个更结构化的示意。我认为可能产生的事件是,钟摆曾经转向了深度学习方面,它有微小的劣势,这两条道路正在交汇,在这方面咱们将看到有很多乏味的工作。
Lukas:你们正在尝试应用机器学习来发现新药,要实现这一指标,日常挑战是什么?
Daphne: 我要强调两个方面: 一是生物学真的很难。 你解决的是活体,它们有很多变量,取决于房间里的确切温度,取决于技术人员,很多你通常不会想到的事件,以及在更准确的迷信中咱们不须要解决的事。那么,如何创立足够强壮的数据集和持重的试验程序,以便噪声不会“压倒”信号,变异性不会“压倒”信号?
二是为了做咱们正在做的工作,须要发明一种真正独特的文化,至多在肯定水平上,使人们可能与不同学科的人交换。 这是咱们在机器学习的许多其余利用中不须要做的事,如果你在为网络举荐的机器学习利用,不须要深刻理解亚马逊网站上的商品目录,就能够编写举荐算法。但生物学不是这样的,你须要有足够的了解,能力与生物学家或化学家进行有意义的对话。
因而, 要招募具备跨专业技能或违心学习足够常识的人进行有意义的对话,并作为真正跨职能团队的一部分与其余学科的人一起工作。 咱们没有培训出足够多的这样的人才,我认为用这样的人才和正确文化来创立公司是我始终在思考的事件。到目前为止,咱们在 Insitro 的工作做得十分杰出,但这必定是一项持续性工作。
Lukas:机器学习中被低估的议题是什么?如果你有更多工夫,会钻研什么新事物?
Daphne: 在纯机器学习前沿,咱们之前探讨的一个根本问题是,咱们如何利用大量有监督、无监督的数据来学习一种表征,使咱们可能十分无效地从更小的数据集学习。当然,人们会说,“好吧,咱们曾经在 ResNet 中学到的任何图像示意,还有 word2vec 等等”,但我不认为咱们真的把这个畛域推到了极致,如何将这些不同类型的数据集结合在一起?组合指标函数的正确形式是什么?我认为, 随着工夫的推移,在如何学习和欠缺一种表征模式方面,将会有很多乏味的停顿。
如果从机器学习中拓展一下,问一下真正的大机会在哪里, 那就是生物学和数据迷信,兴许还有工程学的交融。 如果你看一下科学史,历史上有过这样一个时代,那就是一个畛域在绝对较短的工夫内真正腾飞并对世界产生了微小影响。在 19 世纪末,化学与元素周期表无关,而后在 20 世纪初,物理学与了解物质和能量在空间和工夫之间的分割无关。在 20 世纪 50 年代,计算机技术和硅晶片的应用成为真正能进行计算的一种形式,甚至能做人都做不到的事件。
而后在 20 世纪 90 年代和 21 世纪初,呈现了分叉。数据作为一个畛域,它来自计算,也来自运筹学、统计学和神经科学。另一个是我所说的定量生物学,开始以一个十分弱小的、可反复的、定量的办法测量生物零碎的各个方面。这就有了测序和显微镜以及我之前提到的所有货色。
下一个迷信的新纪元将要呈现的大时机是我称之为“数字生物学”的畛域。 对我来说,它有以真切的尺度来测量生物学的能力,应用机器学习和数据迷信来解释咱们失去的测量后果,而后应用生物工程技术回去干涉生物,让它做一些原本不会做的事。这对人类衰弱会产生影响,对生物资料、农业技术、环境迷信和能源科学也有影响。
(本文已取得编译受权,原文:
https://wandb.ai/wandb_fc/gra…)
OneFlow v0.7.0 最新版本已公布,欢送下载体验:
GitHub – Oneflow-Inc/oneflow: OneFlow is a performance-centered and open-source deep learning framework.github.com/Oneflow-Inc/oneflowgithub.com/Oneflow-Inc/oneflow