关于机器学习:DeepMind-利用无监督学习开发-AlphaMissense预测-7100-万种基因突变

4次阅读

共计 4482 个字符,预计需要花费 12 分钟才能阅读完成。

类基因组共有 31.6 亿个碱基对,无时无刻不在经验复制、转录和翻译,也随时有着出错渐变的危险。

错义渐变是基因突变中的一种常见模式,然而人类目前只察看到了其中的一小部分,可能解读的更是只有 0.1%。

精确预测错义渐变的作用,对于常见病、遗传病的钻研和防治有着重要作用。这次,DeepMind 又出手了。

作者 | 雪菜
编辑 | 三羊、铁塔

人类基因组共有 31.6 亿个碱基对。这些碱基对每天会经验复制、转录、翻译,最终表白成为蛋白质,调控人类日常生理流动。

在如此宏大的工作量下,即便是精密的人体也很难做到毫无过错。稍有不慎,碱基对就可能配位谬误,导致基因突变,与日俱增甚至引发癌症。

错义渐变 (Missense Mutation) 是一种常见的基因突变模式。 因为 DNA 中碱基渐变,翻译失去的氨基酸产生了变动,最终导致整个蛋白质性能被毁坏。

图 1:错义渐变示意图。因为 DNA 中腺嘌呤核苷酸渐变为鸟嘌呤核苷酸,翻译失去的氨基酸由谷氨酰胺变为丝氨酸

目前人类察看到了 400 多万种错义渐变,但仅能将 2% 的错义渐变归类为致病渐变或是良性渐变。

精确预测错义渐变的作用可能加深人类对于常见病的了解,并针对潜在的遗传病进行预防和医治。 尽管变异效应多重剖析 (MAVEs) 能够对蛋白质的渐变进行零碎的剖析,并精确预测其临床成果,但这一办法须要大量的人力物力,难以对所有错义渐变可能进行全面的剖析。

为此,DeepMind 通过 AlphaFold 剖析了蛋白质的整体构造,并联合弱标签学习和无监督学习开发了 AlphaMissense,对错义渐变的结果进行了零碎的剖析。AlphaMissense 利用 ClinVar 数据集进行了验证,预测正确率达到 90%。

随后,AlphaMissense 对人类可能呈现的 7,100 万种错义渐变进行了预测,其中 32% 可能为致病性渐变,57% 可能为良性渐变。这些后果将极大促成分子生物学、基因组学、临床医学等学科的倒退。这一成绩已发表于「Science」。

图 2:AlphaMissense 对 7,100 万种错义渐变的预测后果(上)及人类目前察看到和确认的后果(下)

相干成绩已发表于「Science」

论文链接:

https://www.science.org/doi/10.1126/science.adg7492

试验过程

AlphaMissense:AlphaFold + 微调

将一串氨基酸序列输出 AlphaMissense 后,它会对序列中任一氨基酸变动的致病性进行预测。AlphaMissense 的实现和 AlphaFold 十分类似,只在架构上做了轻微的调整。

图 3:AlphaMissense 的构造示意图

AlphaMissense 的训练集起源宽泛,但次要来自于人类和非人灵长类。其中,来源于人类的良性错义渐变有 1,248,533 个,致病错义渐变则从可能呈现但尚未被察看到的 65,314,044 个渐变中抽取。

AlphaMissense 的训练包含两步。首先,同 AlphaFold 一样,AlphaMissense 须要预测多序列比照 (Multiple Sequence Alignments) 中被随机掩码的氨基酸,进而预测单链蛋白质的构造,并进行蛋白质语言建模。

随后,钻研人员利用人类蛋白质对 AlphaMissense 进行微调 (fine-tuning),并设定了模型的输入指标,即错义渐变的致病性。

因为未被察看到的错义渐变中存在相当数量的良性渐变,但在训练过程中都将其归为了致病渐变,因而 AlphaMissense 训练集的乐音很大。为了晋升训练集的数量和品质,钻研人员应用自蒸馏 (self-distillation) 的形式对数据进行了过滤。

临床数据验证:不同数据集中的体现

训练实现后,利用标注后的临床数据 (ClinVar 数据集)、常见发育阻碍患者中的新发渐变 (de novo variants) 和 ProteinGym 中的 MAVE 后果对 AlphaMissense 进行验证。

首先,钻研人员对 AlphaMissense 在 ClinVar 数据集中的体现进行了评估。在对 18,924 个渐变位点进行剖析后,AlphaMissense 的 auROC 为 0.940,较之前最先进的进化模型 (EVE) 有所晋升 (0.911)。

在对错义渐变进行临床评估时,人们个别会关注特定疾病相关的基因。因而,分辨出这些基因中良性和致病的错义渐变尤为重要。钻研人员利用 AlphaMissense 对 ClinVar 中的 612 个基因进行剖析,其 auROC 为 0.950,优于 EVE 的 0.921。

最初,钻研人员剖析了 AlphaMissense 在解密发育阻碍 (DDD, Deciphering Developmental Disorders) 数据集中的预测后果。AlphaMissense 的 auROC 为 0.809,与 PrimateAI 的 0.797 相当。

图 4:AlphaMissense 和其余模型在不同数据集中性能比照

A:对 ClinVar 中渐变位点的剖析;

B:对 ClinVar 中基因的剖析;

C:对 DDD 数据集的剖析。

同时,AlphaMissense 对 Cancer Hotspots、ACMG (American College of Medical Genetics) 和其余 MAVE 数据的预测后果也较其余模型更为优异。上述后果阐明,AlphaMissense 在多个数据集中体现优于现有模型。

总体预测性能:反映蛋白质渐变趋势

用临床数据对 AlphaMissense 进行验证之后,钻研人员利用 AlphaMissense 对 2.16 亿个氨基酸在人类常见的 19,233 个蛋白质中可能产生的渐变进行了预测,最终失去了 7,100 万种错义渐变的预测后果。

AlphaMissense 的致病性预测后果在 0-1 之间,越靠近 1 阐明致病可能性越高。因为绝大多数预测后果靠近 0 和 1,因而 0.2 至 0.8 之间的数据可能不太精确。最终,他们将预测后果分为三类:可能致病、可能良性和无奈确定。

为对 AlphaMissense 的预测性能进行整体评估,钻研人员计算了所有蛋白质的单个氨基酸致病性。结果显示,芳香族氨基酸和半胱氨酸的渐变更容易引发疾病,与理论后果统一,因为这两种氨基酸起到了维持蛋白质构造的作用。

图 5:AlphaMissense 的预测后果热图,色块代表 2.16 亿个氨基酸变动在蛋白质组中的均匀致病性

将 AlphaMissense 的预测后果和 AlphaFold 预测的蛋白质构造可视化之后,咱们能够看到这些蛋白质的渐变趋势。 比方,蛋白质构造错乱的区域与良性渐变的产生区域绝对应,这与蛋白质组学的预测后果也是统一的。

图 6:ACMG 和 MAVE 数据集中局部蛋白质的可视化后果

左侧为 AlphaMissense 预测的致病性,可能致病的错义渐变为红色,可能良性的错义渐变为蓝色,已被收录于 ClinVar 数据集的渐变以实心圆标注。右侧为 AlphaFold 预测的蛋白质构造,不同色彩示意这一区域渐变致病性,与 AlphaMissense 绝对应。

预测准确率:与 MAVE 后果一致性

为考察 AlphaMissense 和 MAVE 后果之间的一致性,钻研人员利用 AlphaMissense 对两组 MAVE 数据进行了剖析。与其余预测办法相比,AlphaMissense 与 MAVE 数据最为靠近。

图 7:AlphaMissense 和其余模型与 MAVE 预测后果的斯皮尔曼相关系数,其中 AlphaMissense 后果最好

随后,他们又将 AlphaMissense 的预测数据和试验验证过的错义渐变致病性进行了比照。SHOC2 蛋白能够与 MRAS 和 PP1C 蛋白造成复合物,激活 Ras-MAPK 癌症通路。AlphaMissense 与 MAVE 对这一渐变和 Ras 癌症细胞的相关性进行了预测,失去的斯皮尔曼相关系数为 0.47,优于其余模型 (ESM1v: 0.41, ESM1b: 0.40, EVE: 0.32)。

图 8:不同模型对 MAVE 数据集中错义渐变的预测后果

进一步的,钻研人员探索了 AlphaMissense 对 SHOC2 蛋白不同区域氨基酸错义渐变致病性的预测后果。在 SHOC2 的前 80 个氨基酸中,MAVE 预测第 63-74 号氨基酸渐变是致病的,因为这一区域会通过 RVxF 与 PP1C 蛋白联合。AlphaMissense 是惟一一个辨认出这一重要区域的模型。

图 9:AlphaMissense 对 SHOC2 蛋白的预测后果

A:不同模型对 SHOC2 蛋白前 200 氨基酸渐变致病性的预测后果。自上而下别离为理论状况 (MAVE)、AlphaMissense 和 EVE;

B:SHOC2 蛋白(红色和蓝色)和 MRAS(黄色)、PP1C(金色)蛋白组成的复合体结构图。

而且,AlphaMissense 可能反映出不同品种氨基酸错义渐变后的后果。 对于 SHOC2 蛋白而言,AlphaMissense 的预测后果与理论后果最为靠近。

图 10:不同模型对 SHOC2 中氨基酸渐变致病性预测与 MAVE 后果的相关性

上述后果独特阐明,AlphaMissense 的预测后果与 MAVE 相当,可能对基因错义渐变的后果进行精确的预测。

最初,Deepmind 将这一模型和预测后果都开源颁布在了社区中,心愿这种论断可能为其余学科的钻研提供帮忙。

模型链接:

https://github.com/deepmind/alphamissense

基因突变:遥不可及又如影随形

提到基因突变,咱们很容易想到 X 光、核辐射、亚硝酸盐等危险元素,或者是电影生化危机、绿巨人之中的桥段,感觉这些离咱们过于边远。诚然,咱们在生活中接触到的辐射非常少,但基因突变还是产生在生活中的每时每刻,也切实地扭转了咱们的生存。

在生活中,咱们不可避免地会接触到辐射源,比方太阳光。太阳光中 6% 的辐射来源于紫外线,而紫外线就是致癌因素之一,因而长时间暴晒会减少皮肤癌的危险。

即便不接触辐射源,DNA 在复制、转录、翻译的时候也不可避免地犯一些谬误,引起基因突变,只是这些渐变可能是良性的,或是被免疫机制及时革除了。

但同时,基因突变也为咱们的生存提供了便当,尤其是在农业生产中。农作物突变体可能进步作物的产量,晋升作物耐盐碱的能力,甚至帮忙防治虫害。对这些突变体进行繁育筛选后,这些低劣的个性就能保留下来,晋升粮食产量。

图 11:不同种类的玉米突变体

然而,人体基因突变的可能性太多,咱们目前理解到的不过沧海一粟。借助 AlphaMissense,咱们可能对基因突变的后果进行绝对牢靠的预测,再加以反推,兴许就能找到遗传病、常见病背地的机制,为疾病的防治提供新办法。

同时,AlphaMissense 还为其余畛域的钻研提供了素材。兴许不久之后,咱们就能看到 AlphaMissense 对其余物种基因突变的解读,进而正当利用基因突变,让基因工程为咱们的生存带来更多福祉。

参考链接:

[1]https://www.science.org/doi/10.1126/science.abj6987

[2]https://www.cshl.edu/discovery-of-new-stem-cell-pathway-indic…

正文完
 0