关于华为云:华为云与北大BIOPIC联合发布蛋白质多序列比对开源数据集

摘要： 近日，华为与北京大学生物医学前沿翻新核心（BIOPIC）、北京大学化学与分子工程学院、深圳湾实验室高毅勤传授课题组联合推出蛋白质多序列比对（Protein MSA）数据集

本文分享自华为云社区《华为云与北大 BIOPIC 联结公布蛋白质多序列比对开源数据集》，作者：MKT 黄不正。

近日，华为与北京大学生物医学前沿翻新核心（BIOPIC）、北京大学化学与分子工程学院、深圳湾实验室高毅勤传授课题组联合推出蛋白质多序列比对（Protein MSA）数据集，心愿在标准化的数据集根底上，撑持钻研人员开发先进的 AI 模型，加深对蛋白质构造、性能和进化的认知，并进行蛋白设计与革新。此数据集将公布于华为云 AI Gallary 平台，相干代码及数据集阐明将依靠于华为全场景 AI 计算框架 MindSpore 进行开源凋谢、定期扩大与保护，旨在为全世界相干的产、学、研团队提供优质的数据共享解决方案。

本次开源的 Protein MSA 数据集齐全笼罩最新版本（2021 年 2 月公布）的 UniRef50 数据库中的蛋白质序列，采纳学术界的“金规范”搜寻办法，对约 0.5 亿条蛋白序列进行了充沛的 MSA 搜寻与比对（MSA 均匀深度大于 1000），是目前世界范畴内规模最大、参考数据集最新、覆盖度最广的开源蛋白质 MSA 数据集（之前最大的开源 MSA 数据集蕴含 10 万个蛋白 MSA）【1】。

人类已知的蛋白质序列曾经超过 4.4 亿条，但仅凭这些蛋白质单序列数据库，很难理解蛋白之间的关系。Protein MSA 数据库是一个对不同蛋白质序列之间的关系进行了标记的大规模“关系型”数据库，被标记为关联的蛋白质序列之间的类似度、进化关系、渐变所在位点的散布等信息对蛋白质构造和性能的预测极为重要。

为了更好地服务于跨畛域的钻研人员，Protein MSA 数据集将被组织成具备多重状态的数据格式。原始数据集（近 30T）将以 UniRef 系列数据库【2】和 UniClust 数据库【3】的规范文本模式存储，并依照序列长度进行宰割与压缩。为了便于 AI 畛域的钻研人员间接应用，Protein MSA 数据集还会将文本格式的数据集转化为浮点数张量类型压缩存储，并对已有的 AI 框架如 MindSpore 进行数据接口的反对。

高毅勤传授示意：“咱们激励并期待来自生物信息学、数据迷信和 AI 钻研等畛域的专家和人才充沛碰撞与单干，引入、改良或设计全新的 AI 模型，来充沛地开掘 Protein MSA 数据集中所暗藏的‘天然的机密’”。

从迷信的角度看，MSA 的数量和品质很大水平上影响了目前最先进构造模型的预测速度和精度，而且产生 MSA 的非参数化算法仍是诸多蛋白预测办法中决定速度的次要步骤之一。因而，Protein MSA 数据库自身能够作为这些构造预测模型的预训练资料，用来开掘序列信息甚至疾速生成新的序列特色，这对解决钻研、设计蛋白质中所面临的高变异序列和孤儿序列等问题具备微小的潜在价值。

此次数据库的公布，依靠于华为云 AI Gallery 平台，可能充沛保障国内外用户对于数据集的拜访和下载，并提供可继续更新与裁减的先进数据保护计划以及上游 AI 利用与部署的相干反对，交融了产、学、研相结合的钻研模式的劣势。此外，华为也与北京大学高毅勤课题组联合开发并开源了首个国产分子动力学软件 MindSponge。将来，华为将牵手更多的学术科研界合作伙伴，在资料、生物、医药等更宽泛的科学计算畛域打造数据推动的钻研新模式。

附：

数据集开源阐明：https://gitee.com/mindspore/m…

数据集下载地址：https://marketplace.huaweiclo…

【1】AlQuraishi, Mohammed. “ProteinNet: a standardized data set for machine learning of protein structure.” BMC bioinformatics 20.1 (2019): 1-10.

【2】Suzek, B. E., Wang, Y., Huang, H., McGarvey, P. B., Wu, C. H., & UniProt Consortium. (2015). UniRef clusters: a comprehensive and scalable alternative for improving sequence similarity searches. Bioinformatics, 31(6), 926-932.

【3】Mirdita M., von den Driesch L., Galiez C., Martin M. J., Söding J.#, and Steinegger M.#, Uniclust databases of clustered and deeply annotated protein sequences and alignments, Nucleic Acids Res. 2016.

点击关注，第一工夫理解华为云陈腐技术~