资讯中心

资讯中心

资讯中心

业界首创AI MSA引擎,让所有人都能做蛋白质结构预测

2022.08.09

前言

蛋白质结构预测是获得蛋白质功能结构和构象的过程,近半个世纪以来,这一问题一直被誉为“21世纪的生物物理学”最重要的课题之一。

在过去,因蛋白质构象数量巨大,计算过程复杂,通过AI来对蛋白质结构进行预测一直未能取得实质性突破,获取蛋白质空间结构的方法仍然以冷冻电镜、X-ray等实验技术为主,单个蛋白质的观测成本高达数月及数百万人民币。

直至AlphaFold 2的出现,使得这一问题迎来新的曙光。AlphaFold 2凭借其接近实验精度的成绩取得CASP14蛋白质空间结构预测比赛的榜首,这一成就也被Nature誉为“前所未有的进步”。

2021年7月DeepMind团队宣布对AlphaFold 2的推理源代码进行开源,华为与北京昌平实验室、北京大学生物医学前沿创新中心(BIOPIC)和化学与分子工程学院、深圳湾实验室高毅勤课题组第一时间对其进行了复现及优化,并于同年11月开源了基于昇思MindSpore的推理工具,效率同比提升2-3倍。

日前,华为与北京昌平实验室、北京大学生物医学前沿创新中心(BIOPIC)和化学与分子工程学院、深圳湾实验室高毅勤教授课题组,在全场景AI框架昇思MindSpore上推出全流程蛋白质结构预测工具MEGA-Protein。



一 AlphaFold 2的缺陷

为了满足预测精度,AlphaFold 2必须引入多序列比对的信息。MSA的数量决定了AlphaFold 2的预测精度,因此AlphaFold 2有着自己的缺陷:

自然界中的「孤儿序列」以及人造序列存在着缺少MSA或没有MSA的情况,导致AlphaFold 2等模型对相关的结构预测准确度大幅下降。

AlphaFold 2等标准检索 MSA 流程,数据库规模大,搜索时间长,不利于展开研究。


二 AI MSA引擎

昇思MindSpore社区与昌平实验室、北京大学生物医学前沿创新中心(BIOPIC)和化学与分子工程学院、深圳湾实验室高毅勤教授课题组新提出的AI MSA引擎具有如下几个优势:

对于原始MSA质量不高或者数量少的蛋白,将AI MSA引擎接入AlphaFold 2后可以明显改善结构预测的质量。

端到端推理性能大幅提升,训练完成的AI MSA引擎不需要额外配置数据库。

AI MSA引擎是一种对下游结构模型普适的预训练方案,可直接接入下游结构预测模型。


三 昇思MindSpore AI框架

AI MSA引擎训练参数量,数据量巨大,训练要求高,昇思MindSpore AI框架充分发挥以下优势,支撑完成AI MSA引擎的训练。

昇思MindSpore在昇腾AI基础软硬件平台上与昇腾CANN深度结合,通过深度协同优化的高性能算子库,充分释放硬件的算力。

昇思MindSpore采用了多段并行流水线的方式来构建数据处理pipeline,大幅提高了数据处理过程的吞吐量。

昇思MindSpore支持大集群高效训练,实现了优质的计算通信比,通过三层AI分布式编程范式,大幅提升分布式并行程序开发效率。

全流程蛋白质结构预测工具MEGA-Protein

MEGA-Protein包含AI MSA引擎、蛋白质折叠训练推理流程、蛋白质结构打分、蛋白质结构预测数据集PSP等关键技术,能够高精度高性能地预测蛋白质结构和功能,其中AI MSA引擎能够在MSA少样本甚至零样本的情况下,帮助AlphaFold 2等模型维持甚至提高推理精度,有效突破了AlphaFold 2的缺陷。

这是在实现AlphaFold 2从训练到推理全流程打通且效率同比提升2至3倍后,取得的又一次成功。


8月11至15日,昇思MindSpore社区举办第二季「MindSpore SPONGE暑期学校」。

14位国内知名专家全程手把手授课,覆盖典型蛋白结构预测模型、结构预测模型训练等内容。

我们希望MindSpore SPONGE被更多的老师,学生和业界开发者使用,并吸引到更多的开发者加入社区共同开发,丰富MindSpore SPONGE套件,共同探索开源科学软件的未来。

1.png

2.png

3.png

4.png


MindSPONGE官方资料

MindSpore SPONGE Gitee:https://gitee.com/mindspore/mindscience/tree/master/MindSPONGE

MindSpore官网:https://www.mindspore.cn/

MindSpore Gitee:https://gitee.com/mindspore/mindspore