关于人工智能:自主研发军事医学研究院团队提出-MIDAS可用于单细胞多组学数据马赛克整合

家喻户晓，细胞是生命体的最小组成单位，人体内含有 40-60 万亿个细胞，形成了咱们成长、发育的根底，在单细胞层面发展钻研对于准确了解细胞的生长发育以及疾病的诊断与医治至关重要。

近年来，单细胞测序技术异军突起，成为分子生物学钻研的热点，业界围绕疾病、发育等临床和根底钻研问题，曾经产生了大量的单细胞测序数据。然而，来源于不同组学组合、不同测序技术、不同测序样本的海量数据就像地板上的马赛克瓷砖一样扩散、多样。 如何整合如此宏大、芜杂的数据并发展生物医学钻研，是寰球科学家独特面临的难题。

为了攻克这一挑战，近期，军事医学研究院应晓敏团队和伯晓晨团队在 [Nature Biotechnology]() 期刊发表了题为「Mosaic integration and knowledge transfer of single-cell multimodal data with MIDAS」的钻研论文。该钻研提出了一种用于单细胞多组学 (single-cell multimodal omics,scMulti-omics) 数据马赛克式整合（即不同数据集仅共享局部检测模态）及常识迁徙的计算工具 MIDAS，基于自监督学习 (self-supervised learning) 和信息论办法 (information-theoretic approaches) 首次实现了通用的单细胞多组学马赛克数据的模态对齐、数据补全、批次校对等整合性能，为构建大规模多组学细胞图谱、实现大规模单细胞多组学剖析与常识迁徙提供了重要的原创技术。

钻研亮点：

自主研发了基于生成式人工智能的新算法 MIDAS
首次实现了通用的单细胞多组学马赛克数据的模态对齐、数据补全、批次校对等整合性能
新算法对于揭示细胞的性能和分子调控机制、钻研疾病的产生倒退过程具备重要意义

论文地址：
https://www.nature.com/articles/s41587-023-02040-y

关注公众号，后盾回复「单细胞」获取残缺 PDF

本钻研为了从各个维度比拟 MIDAS 模型的劣势，构建了多个数据集。

首先，为了将 MIDAS 与最先进的办法进行比拟， 本钻研评估了 MIDAS 在具备残缺模态的三模态集成（马赛克集成的简化模式）中的性能，钻研团队将这个工作命名为「矩形集成」(rectangular integration)。团队应用两个已公布的单细胞三峰人类 [PBMC]() 数据集 (DOGMA-seq 和 TEA-seq)，同时测量每个细胞的 RNA、ADT 和 ATAC，从而构建了 dogma-full 和 teadog-full 数据集。

注：PBMC 全称为 peripheral blood mononuclear cell，即外周血单个核细胞，罕用于免疫学畛域的科研活动。

其次，为了评估 MIDAS 在镶嵌集成方面的性能， 钻研团队在之前生成的矩形数据集的根底上，进一步构建了 14 个不残缺数据集，每个镶嵌数据集都是通过从全模态数据集中删除多个模态批处理块来生成的。

第三，为了钻研 MIDAS 的常识转移能力， 钻研团队将图集数据集从新划分为用于图集构建的参考 (reference) 数据集，以及查问 (query) 数据集。钻研团队通过从图集中删除 DOGMA-seq，失去了一个名为 atlas-no_dogma 的参考数据集。

第四，为了钻研 MIDAS 在具备间断细胞状态变动的单细胞数据集中的利用， 钻研团队通过组合从公开的 scRNA-seq (single-cell RNA-sequencing) 取得的 3 个不同样本 (ICA、ASAP 和 CITE) 构建了人类 BMMC 镶嵌数据集。

MIDAS 是一种深度生成模型，示意不残缺单细胞多模态数据的联结散布，其中蕴含了转座酶可靠近染色质 (ATAC)、RNA 和抗体衍生标签 (ADT) 的测量。

MIDAS 性能简介

具体而言，MIDAS 假如每个细胞的多模态测量是通过两个与模态无关且解耦的潜在变量（生物状态和技术噪声），基于深度神经网络生成的。 其输出包含由不同单细胞样本（batches，批次）组成的马赛克特色 - 细胞计数矩阵，以及示意细胞批次 ID 的向量。 这些单细胞样本可能来自不同的试验，或者通过利用不同的测序技术（例如 scRNA-seq、CITE-seq、ASAP-seq 和 TEA-seq）生成，因而可能具备不同的技术噪声、模态和特色。

MIDAS 的算法

MIDAS 的输入包含生物状态和技术噪声矩阵，以及估算和批量校对的计数矩阵，从其中对输出数据中缺失的模态和特色进行插值并打消批次效应 (batch effects)。这些输入可用于上游剖析，例如聚类、细胞类型划分和轨迹推断。

MIDAS 基于变分主动编码器 (variational autoencoder, VAE) 的架构，具备模块化的编码器网络及解码器网络，前者可能解决马赛克输出数据并推断潜在变量，后者可能应用潜在变量启动察看数据的生成过程。MIDAS 应用自监督学习来在潜在空间中对齐不同的模态，改善上游工作中的跨模态推断，例如插值和翻译。同时还利用信息论法来解耦生物状态和技术噪声，进一步实现批次校对。

钻研人员将这些元素联合到本钻研的优化指标中，通过随机梯度变分贝叶斯 (stochastic gradient variational Bayes, SGVB) 实现了 MIDAS 的可扩大学习和推断，这也使得单细胞多模态数据的大规模马赛克式集成和图谱构建成为可能。此外，为了将构建的图谱中的常识转移至具备不同模态组合的查问数据集，钻研人员别离开发了转移学习和互相参考映射计划，用于模型参数和细胞标签的转移。

钻研结果表明：MIDAS 是一种弱小、多功能且高效的单细胞多模态集成工具。

在打消批次效应和保留生物信号方面——钻研团队将 MIDAS 的性能与近期发表的 9 种办法进行了比拟。

结果表明，MIDAS 现实地打消了批次效应，并且在 dogma-full 和 teadog-full 数据集上保留了细胞类型信息，而其余办法的性能则略逊一筹。 例如，BBKNN+average、MOFA+、PCA+WNN、Scanorama-embed+WNN 和 Scanorama-feat+WNN 没有很好地混合不同批次，PCA+WNN 和 Scanorama-feat+WNN 产生的细胞簇与细胞类型很大水平上不统一。

应用 MIDAS 在矩形集成工作上取得的评估和上游剖析后果

在批次对齐方面——MIDAS 可能很好地对齐不同批次的细胞，并将它们与细胞类型标签统一地分组， 而其余办法则不能很好地混合不同批次的细胞，并且产生的细胞簇与细胞类型在很大水平上不统一。scIB 基准测试表明，MIDAS 在不同的镶嵌工作上都有稳固的性能，并且其总体得分远高于其余办法。

MIDAS 在马赛克集成工作上性能的定性和定量评估得分

在常识迁徙能力方面——钻研人员将每个查问数据集与参考数据集对齐，并通过 k-nearest neighbors ([kNN]()) 算法转移细胞类型标签。将生物状态进行映射并可视化后能够看到，不同查问数据集的互参映射后果统一，并与通过 dogma-full 数据集取得的图谱整合后果高度一致。MIDAS 实现了持重且精确的标签传输，从而防止了从头集成和上游剖析的需要。 因而，MIDAS 可用于将图集级常识转移到各种模式的用户数据集，而无需低廉的从头训练老本或简单的上游剖析。

MIDAS 对常识转移工作的定性和定量评估

总而言之，通过对单细胞镶嵌数据生成过程进行建模，MIDAS 能够准确地从输出中拆散出生物状态和技术乐音，并持重地调整模态以反对多源和异构集成剖析。MIDAS 在执行各种马赛克积分工作时提供精确、持重的后果，并且优于其余办法。

此外，MIDAS 高效、灵便地将常识从参考数据集转移到查问数据集，从而能够不便地解决新的多组学数据。凭借卓越的降维和批量校对性能，MIDAS 反对精确的上游生物剖析。除了可能对镶嵌数据进行聚类和细胞类型辨认之外，MIDAS 还能够帮助对具备间断状态的细胞进行伪工夫剖析，这在没有 RNA 组学数据可用时尤其有价值。当在不同组织之间转移常识时，MIDAS 可能对齐异构数据集并辨认细胞类型，甚至可能辨认新类型。

就像从一粒沙子中能够看到世界，科学家也能从小小的细胞内看到多重宇宙，或者更精确地说，叫做「多个组学」。

人们通过一系列不同的技术来钻研单个细胞的基因组、转录组、表观基因组及其他特色，只管各项技术自身就能带来丰盛的信息，但它们的组合分析（也就是多组学剖析）能提供一幅更残缺的图像。 目前，在单细胞多组学的推动下，细胞生物学和转化钻研获得了重大进展，不过，数据整合与剖析依然是许多科学家面临的挑战。

基于此，除了上文提及的应晓敏团队和伯晓晨团队，还有更多钻研团队和公司前仆后继，试图摸索更高效、简略的数据处理形式。

比方，10x Genomics 公司的 Chromium 单细胞平台等分析方法一直扩大，让人们可能以不同组合评估多个细胞特色， 包含全转录组基因表白、蛋白表白、全长配对 [TCR]() 和 BCR 测序、抗原特异性以及凋谢染色质剖析等。其中的 [Cell Ranger]() 计划采纳一组收费且易用的剖析流程来剖析 Chromium 单细胞数据，可能解决原始数据并发展比对，对基因进行计数。此外，Cell Ranger 还能够与云剖析平台整合，对数据进行监控、治理和解决。

再比方，2022 年 5 月 2 日，北京大学 / 昌平实验室高歌课题组于 Nature Biotechnology 发表题为「Multi-omics single-cell data integration and regulatory inference with graph-linked embedding」的钻研论文，提出了基于图耦联策略的深度学习办法 GLUE，首次实现了对百万级单细胞多组学数据的无监督精准整合与调控推断。

这些生物信息学工具和软件的一直倒退将帮忙钻研人员解读简单的多组学数据集，助力细胞生物学倒退，对于揭示细胞的性能和分子调控机制、钻研疾病的产生倒退过程具备重要意义，最终实现「造福于民」。

参考资料：
1.https://www.chinagut.cn/articles/ss/02bc1e86e3734acebff57395d…
2.https://m.ebiotrade.com/newsf/2023-10/20231023151001602.htm
3.https://news.bioon.com/article/e49a810955a1.html
4.https://m.thepaper.cn/newsDetail_forward_26137031

关于人工智能:自主研发军事医学研究院团队提出-MIDAS可用于单细胞多组学数据马赛克整合

数据集：多种数据集，多维评估性能

模型架构：深度生成模型 MIDAS

钻研后果：MIDAS 多功能且高效

单细胞多组学剖析继续倒退