关于科学计算:重磅技术详解百度最新生物计算研究成果登上Nature正刊

35次阅读

共计 3557 个字符,预计需要花费 9 分钟才能阅读完成。

北京工夫 5 月 2 日凌晨,百度生物计算畛域获得重磅冲破,名为 LinearDesign 的研究成果胜利登载在国内顶级学术期刊《天然》杂志上。这是中国科技企业首次以第一实现单位的身份发表论文于《天然》杂志,论文还被获准成为少有的 Accelerated Article Preview (AAP) 减速发表论文,中国科技企业成绩在寰球科研畛域失去高度认可。

那么,LinearDesign 到底解决了什么问题,得以登上权威学术期刊 Nature?它又是通过什么技术来实现的呢?明天,咱们就来深度解读一下 LinearDesign 算法。

背景常识:mRNA 以及 mRNA 疫苗

想弄明确 LinearDesign,首先须要理解 mRNA 以及 mRNA 疫苗。依据中心法则,DNA 转录生成 mRNA,mRNA 翻译产生蛋白质; mRNA 是遗传信息从 DNA 传递到蛋白质的桥梁。同时,人们也能够通过人工合成 mRNA 并转染到细胞内,来生产蛋白质;mRNA 疫苗正是基于此原理。疫苗简略来说是利用特定抗原(蛋白质)刺激免疫系统,产生特异性抗体,当病毒入侵时,这些抗体会毁灭病毒,爱护人体。而 mRNA 疫苗由泛滥包裹在脂质体颗粒内的 mRNA 分子形成,进入人体后,这些 mRNA 分子翻译为抗原蛋白,并产生免疫反馈,造成爱护力。

新冠 mRNA 疫苗,是第一款胜利上市的 mRNA 疫苗。mRNA 疫苗和药物也被认为是下一代药物,被业界寄予厚望。然而 mRNA 分子不稳固这一先天不足,仍极大的限度了 mRNA 新疫苗和药物研发。mRNA 分子在存储和散发过程中也容易降解,须要依附冷链技术,老本高,也限度了其在发展中国家的利用;mRNA 分子在体内的半衰期很短,导致药物效劳较低。咱们研发的 LinerDesign 算法,就是通过 AI 算法,设计优化 mRNA 药物分子序列,晋升其稳定性和有效性。

LinearDesign 是 mRNA 序列设计算法

那么什么是 mRNA 序列设计?具体来说,mRNA 编码区域上的每 3 个碱基造成一个密码子(codon),一个密码子翻译生成一个蛋白质序列上的氨基酸。但因为密码子品种(64 种)多于氨基酸品种(20 种),一个氨基酸能够由多个不同的密码子翻译产生。比方亮氨酸(leucine)就能够由 6 种不同的密码子翻译产生。因而,不同的 mRNA 序列,能够生成同一个蛋白质序列。以新冠 mRNA 疫苗为例,实践上共有 2.4´10632 个不同的 mRNA 序列都能够翻译成抗原 S 蛋白。而这些 mRNA 序列在稳定性、蛋白表白程度、免疫原性上差别微小。而 mRNA 序列设计,就是要从海量的 mRNA 候选序列中,找出最优的 mRNA 疫苗序列。下图给出了新冠 mRNA 疫苗设计的例子。图 1a 展现了 2.4´10632mRNA 候选序列是怎么计算出来的,图 1b 展现了野生型序列(左侧)和 LinearDesign 算法设计的序列(右侧)在稳定性上的微小区别。

‘ fill=’%23FFFFFF’%3E%3Crect x=’249′ y=’126′ width=’1’ height=’1’%3E%3C/rect%3E%3C/g%3E%3C/g%3E%3C/svg%3E)
论文中 图 1a&b

传统 mRNA 疫苗序列设计,次要采纳一种叫做密码子优化(codon optimization)算法,即尽量抉择密码子适应指数(codon adaptation index,CAI)高的密码子,这一类密码子通常被认为可能晋升蛋白质翻译效率。下图 1d 中的粉色箭头批示了这种设计的优化方向,Moderna(☆)、辉瑞 /BioNTech(○)、CureVac(▷)、斯微(H ◇)等 mRNA 疫苗公司的序列实质上都是采纳这类设计办法,也都具备较高的 CAI 值(0.9 以上)。而咱们的 LinearDesign 算法,则进行了两个方向上的联结优化:一是构造稳定性(图 1d, 横轴),以最小自在能(minimum free energy)为优化指标,二是翻译效率(图 1d, 纵轴),以密码子适应指数为优化指标。咱们的设计办法,摸索了传统 codon optimization 办法所无奈笼罩的区域(下图 1d 虚线左侧,MFE<-1400 kcal/mol 的区域),可能设计出更稳固、效劳更高的疫苗序列。比方在新冠 mRNA 疫苗试验中,咱们设计的序列比斯微采纳 codon optimization 办法设计的序列在稳定性(mRNA 分子半衰期)最多晋升 5 倍,48 小时蛋白质表白最多晋升 3 倍,抗体反馈最多晋升 128 倍。援用论文中的一句话:“our work turns the enormous search space into a blessing (freedom of design) rather than an obstacle.”

论文中 图 1d

LinearDesign 算法外围:网格解析(Lattice Parsing)

网格解析(Lattice Parsing)是一个来自自然语言解决(NLP)技术的概念,是对传统 Parsing 办法的拓展。通常 Parsing 工作是给定一个句子的文本(实质是一个序列),利用语法规定(language grammar),失去“主谓宾定状补”这样的语法结构。如果输出不是文本,而是一段语音,状况会怎么样呢?咱们晓得,因为“同音词”、“近音词”的存在,相比确定性的文本,解决语音时会遇到“模糊性”的问题。解决办法是把这些近似的词组成一个网络图(word lattice),而后将语法规定用在这个网格上做解析,这就叫做网格解析(Lattice Parsing),网格中最合乎语法规定的一条门路(对应一个句子)就被辨认为语音输入对应的语句文本。见图 1c 左侧。

mRNA 序列设计问题跟上述 NLP 畛域的问题有相似之处。mRNA 序列设计问题的输出是一个蛋白质序列,而这个序列对应了海量 mRNA 候选序列。将这些候选序列转换成一个网络图(咱们称之为 mRNA DFA),依据 RNA 折叠语法规定(RNA folding grammar)和密码子应用偏好(codon usage),在 mRNA 网络图上做网格解析(Lattice Parsing),就能找到最优的 mRNA 序列。援用论文里的一句话:“we provide a simple and unexpected solution to this hard [mRNA design] problem by reducing it to a classical problem in computational linguistics, where finding the optimal mRNA sequence is akin to identifying the most likely sentence among similar sounding alternatives.”

论文中 图 1c

如何解读论文中的生物试验后果

在论文中,展现了两款 mRNA 疫苗试验后果:COVID-19 mRNA 疫苗和带状疱疹(VZV)mRNA 疫苗。LinearDesign 设计的序列在稳定性、蛋白表白、抗体程度等各项指标上均相比疫苗公司的基准序列有显著晋升,用生物试验数据验证了它的普适性和实用性。论文中图 4 给出了 COVID-19 mRNA 疫苗的次要试验后果。论文最重要的论断是 LinearDesign 设计的疫苗序列抗体反馈程度显著晋升。疫苗的作用原理简略来说是利用特定抗原刺激免疫系统,产生特异性抗体;当病毒入侵时,这些抗体会毁灭病毒,爱护人体。因而,抗体反馈程度是掂量疫苗有效性的一个重要指标,通常来说,抗体反馈程度高则疫苗具备更强的爱护力。在头对头比拟中,相比于疫苗公司设计的 COVID-19 疫苗序列,LinearDesign 算法设计的疫苗序列在抗体反馈程度上晋升 128 倍。这表明了在其余条件不变的状况下,咱们所设计的疫苗序列具备更强的爱护力。同时论文中也提到,LinearDesign 能够宽泛用于包含传染性疫苗、癌症疫苗、单克隆抗体在内的药物研发。简略来说,LinearDesign 能够为相干学术研究和药物研发提供更好的初始设计序列,减速研发过程,降低成本。百度也曾经对外提供 LinearDesign 云服务,助力科学研究和药物研发。

论文中 图 4

实践上,所有的蛋白药物,都能够通过递送 mRNA 药物,在体内翻译成蛋白来施展药效。而 LinearDesign 能够宽泛用于包含传染性疫苗、癌症疫苗、单克隆抗体在内的药物研发。正如论文中展现的,LinearDesign 算法能够设计出更稳固、更高效的 mRNA 序列,这些序列是传统算法、甚至人类专家都无奈设计进去的。实际上,早在 2021 年,百度就与寰球当先的生物制药公司赛诺菲签订协议,赛诺菲将利用百度 LinearDesign 平台,优化 mRNA 疫苗和药物的设计研发,用于新冠肺炎等人类疾病的医治与预防。将来 LinearDesign 算法将大规模利用于药物研发管线上。

正文完
 0