资讯中心

资讯中心

资讯中心

旗思妙想|AI的光辉还没有照亮RNA结构预测:CASP 15比赛结果详解

2022.12.14

RNA结构预测可能比蛋白质结构预测更重要,因为核酸药物、靶向RNA小分子药物的开发都需要RNA结构预测;对于基础研究来说就更重要了,如果没有结构的信息来引导,我们对人体内的绝大多数非编码RNA都一无所知。今年暑假,CASP 15第一次对RNA结构预测进行了比赛,比赛结果在12月12日土耳其的会议中宣布。结果表明:跟蛋白质不一样,在预测RNA结构时,传统的、基于能量函数的方法要远胜过基于深度学习的方法!这个胜利是智峪生科公司熊鹏博士带领的团队利用在我们组开发的RNA-BRiQ能量函数实现的,这是RNA结构预测上的一个巨大进展,可喜可贺!

1.png

在蛋白质结构比赛CASP14中,AlphaFold2出乎意料地对蛋白质的结构进行了高精度的预测。这个蛋白质结构预测问题的大幅度进展,使得CASP比赛的组织者决定把蛋白质-蛋白质复合物结构预测(原来CAPRI比赛的内容),以及RNA结构预测(原来RNA puzzles比赛的内容)加入到CASP15比赛中。由于新的、即将解析的RNA结构太少、并且间断性的,以前RNA puzzles是有一个RNA就让大家预测一个。这次CASP15一下子放出来12个RNA序列,充分体现了CASP组织者的能力和AlphaFold2给CASP带来的品牌效应。不过,这一打的RNA序列和有100多个蛋白结构域的预测比赛相比,还是差得很远。

正如上一篇文章我对CASP15蛋白质结构预测结果分析所显示(▷旗思妙想|又一个渐进时代的开始:CASP 15蛋白质结构单体预测结果揭晓):在方法上,没有大的发展,还是CASP14的AlphaFold2在起着主要作用,因为最好的几个方法或者利用AlphaFold2预测的结构作为他们方法的一部分,或者对AlphaFold2同源序列的输入进行了优化。但是,这次CASP15的RNA结构预测的结果却给大家带来了新的惊喜。智峪生科公司熊鹏带领的团队,作为RNA三维结构预测的新手,一举超越多个在这个领域耕耘多年的专家,成为第一人,这是一件很了不起、非常不容易的事情。

2.png

图 1 RNA结构预测方法的排名(Rhiju Das, CASP 15会议报告)

值得注意的是,被邀请在12月12日CASP 15总结会议上做报告的前四名(Peng Xiong, Shi-Jie Chen, Marta Szachniuk, 以及 Janusz Bujnicki )都是基于能量函数的传统方法。其中熊鹏主导的Alchemy RNA2是基于他在我们组工作时开发的RNA-BRiQ 统计势函数【1】。Chen(密苏里大学陈世杰组)是基于他们组开发的Vfold3D,IsRNA,RNAJP三个方法的综合。RNApolis 是基于RNAcomposer。GeneSilico是基于SimRNA。

熊鹏博士这次为什么能够一举超越多个经典方法,实现“屌丝”逆袭?他的方法对12结构的预测有4个小于6Å RMSD,而其它方法只有1个。这次他能大幅度领先其他方法,跟他不久前所建立的一个全新的能量函数RNA-BRiQ密切相关(▷BRiQ-RNA:周耀旗课题组成功实现对RNA近天然态结构的高精度优化修正)。RNA-BRiQ相互作用不再由简单的距离和角度来表示,而是考虑了在三维结构上的云分布,这个全方位的能量函数在RNA结构预测上特别重要,因为稳定RNA结构的主体能量是极性相互作用、有着强烈的空间方向分布。

3.png

图2 氧原子在碱基附近的分布(摘自【1】)

但是,27个参与的团队,18个使用了AI深度学习。他们或者进行了端到端的预测,或者先进行AI结构约束的预测再进行能量优化。这些方法并没有能够出现在前四名,也就是说,AI的光辉还没有照亮RNA结构预测。这个现象充分体现了目前存在的RNA已知结构少、同源序列难寻,跟深度学习需要大数据之间的矛盾。怎样让AI模型小数据的训练也能够泛化,从而预测从来没有见过的结构,还需要一段时间来摸索、去解决。

不管是AI还是传统能量函数方法,对于大多数RNA来说,预测结果的偏差都太大(RMSD>6Å)。这样的精确度是远远满足不了应用的需求,因为高精度的结构预测事实上需要RMSD<2.5Å。所以RNA结构预测问题的解决任重道远,急需科研基金的长期支持和科研人员的努力。只有这样,才能有希望让AI在RNA结构预测中起到应该起的作用。

【1】P. Xiong, R. Wu, J. Zhan, and Y. Zhou, “Pairing a high-resolution statistical potential with a nucleobase-centric sampling algorithm for improving RNA model refinement.”, Nature Communications , 12,2777 (2021).

周耀旗.png

周耀旗 

资深研究员

周耀旗教授从2021年3月起全职加入了深圳湾实验室,他是1984年中国科技大学近代化学系的学士,1990年美国纽约州立石溪大学化学物理的博士,1994-2000年北卡州立大学、哈佛大学的博士后,2000年任纽约州立布法罗大学助理教授,2004年升为终身副教授,2006年成为印第安纳大学信息学院和医学院终身正教授,2013-2021年任澳大利亚格里菲斯大学糖组学研究所正教授。他长期在结构生物信息学方面工作,曾经多次在国际蛋白质结构预测和功能预测比赛中名列前茅。到目前为止共发表论文200余篇,引用1万多次,H因子62。目前,周耀旗课题组通过计算和实验的结合,从事蛋白质/RNA的序列、结构与功能关系方面的基础研究和生物分子检测、药物开发方面的应用研究。寻找在RNA/蛋白方面有AI计算、分子和细胞生物学实验相关经验的博士后、科研助理和助理研究员。

▷ 深圳湾实验室周耀旗资深研究员课题组招聘