关于华为云:华为云与北大BIOPIC联合发布蛋白质多序列比对开源数据集

摘要：近日，华为与北京大学生物医学前沿翻新核心（BIOPIC）、北京大学化学与分子工程学院、深圳湾实验室高毅勤传授课题组联合推出蛋白质多序列比对（Protein MSA）数据集

本文分享自华为云社区《华为云与北大BIOPIC联结公布蛋白质多序列比对开源数据集》，作者： MKT 黄不正。

近日，华为与北京大学生物医学前沿翻新核心（BIOPIC）、北京大学化学与分子工程学院、深圳湾实验室高毅勤传授课题组联合推出蛋白质多序列比对（Protein MSA）数据集，心愿在标准化的数据集根底上，撑持钻研人员开发先进的AI模型，加深对蛋白质构造、性能和进化的认知，并进行蛋白设计与革新。此数据集将公布于华为云AI Gallary平台，相干代码及数据集阐明将依靠于华为全场景AI计算框架MindSpore进行开源凋谢、定期扩大与保护，旨在为全世界相干的产、学、研团队提供优质的数据共享解决方案。

本次开源的Protein MSA数据集齐全笼罩最新版本（2021年2月公布）的UniRef50数据库中的蛋白质序列，采纳学术界的“金规范”搜寻办法，对约0.5亿条蛋白序列进行了充沛的MSA搜寻与比对（MSA均匀深度大于1000），是目前世界范畴内规模最大、参考数据集最新、覆盖度最广的开源蛋白质MSA数据集（之前最大的开源MSA数据集蕴含10万个蛋白MSA）【1】。

人类已知的蛋白质序列曾经超过4.4亿条，但仅凭这些蛋白质单序列数据库，很难理解蛋白之间的关系。Protein MSA数据库是一个对不同蛋白质序列之间的关系进行了标记的大规模“关系型”数据库，被标记为关联的蛋白质序列之间的类似度、进化关系、渐变所在位点的散布等信息对蛋白质构造和性能的预测极为重要。

为了更好地服务于跨畛域的钻研人员，Protein MSA数据集将被组织成具备多重状态的数据格式。原始数据集（近30T）将以UniRef系列数据库【2】和UniClust数据库【3】的规范文本模式存储，并依照序列长度进行宰割与压缩。为了便于AI畛域的钻研人员间接应用，Protein MSA数据集还会将文本格式的数据集转化为浮点数张量类型压缩存储，并对已有的AI框架如MindSpore进行数据接口的反对。

高毅勤传授示意：“咱们激励并期待来自生物信息学、数据迷信和AI钻研等畛域的专家和人才充沛碰撞与单干，引入、改良或设计全新的AI模型，来充沛地开掘Protein MSA数据集中所暗藏的‘天然的机密’”。

从迷信的角度看，MSA的数量和品质很大水平上影响了目前最先进构造模型的预测速度和精度，而且产生MSA的非参数化算法仍是诸多蛋白预测办法中决定速度的次要步骤之一。因而，Protein MSA数据库自身能够作为这些构造预测模型的预训练资料，用来开掘序列信息甚至疾速生成新的序列特色，这对解决钻研、设计蛋白质中所面临的高变异序列和孤儿序列等问题具备微小的潜在价值。

此次数据库的公布，依靠于华为云AI Gallery平台，可能充沛保障国内外用户对于数据集的拜访和下载，并提供可继续更新与裁减的先进数据保护计划以及上游AI利用与部署的相干反对，交融了产、学、研相结合的钻研模式的劣势。此外，华为也与北京大学高毅勤课题组联合开发并开源了首个国产分子动力学软件MindSponge。将来，华为将牵手更多的学术科研界合作伙伴，在资料、生物、医药等更宽泛的科学计算畛域打造数据推动的钻研新模式。

附：

数据集开源阐明：https://gitee.com/mindspore/m…

数据集下载地址：https://marketplace.huaweiclo…

【1】AlQuraishi, Mohammed. “ProteinNet: a standardized data set for machine learning of protein structure.” BMC bioinformatics 20.1 (2019): 1-10.

【2】Suzek, B. E., Wang, Y., Huang, H., McGarvey, P. B., Wu, C. H., & UniProt Consortium. (2015). UniRef clusters: a comprehensive and scalable alternative for improving sequence similarity searches. Bioinformatics, 31(6), 926-932.

【3】Mirdita M., von den Driesch L., Galiez C., Martin M. J., Söding J.#, and Steinegger M.#, Uniclust databases of clustered and deeply annotated protein sequences and alignments, Nucleic Acids Res. 2016.

点击关注，第一工夫理解华为云陈腐技术~

关于华为云:华为云与北大BIOPIC联合发布蛋白质多序列比对开源数据集

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于华为云:华为云与北大BIOPIC联合发布蛋白质多序列比对开源数据集

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复