谷歌AlphaFold2在去年底第14届蛋白质结构预测的比赛(CASP14)中对大部分的蛋白实现了原子精度或者接近原子精度的结构预测,把学术界的预测远远甩在后面,一举震惊了计算生物学家和实验结构生物学家。多数人可能没有注意到的是结构没有被AlphaFold2预测好的蛋白质往往是固有无序的,也就是说它们本来没有结构,只有形成复合物或者说在外界的帮助下才能具有结构。还有些固有无序的蛋白一直以无结构的状态在生命和各种疾病过程中起着各种作用,据估计,51%人源蛋白质是完全固有无序或者有较长的一段是固有无序的,我们对它们的了解还很少。所以怎样预测、发现这些固有无序的蛋白质对优化结构测定与预测、挖掘新功能、发现药物新靶点有着重要意义。
最近,类似于CASP,科学家们利用个人工新标注的固有无序蛋白,组织了蛋白质固有无序预测比赛(CAID),一共32个方法参加了比赛,比赛结果刚刚发表在NatureMethods()上,其中周耀旗组与格里菲斯大学Paliwal组合作的SPOT-Disorder2获得了第一名。
SPOT-Disorder2是通过多个不同深度学习模型的聚合来实现上述的成果。这些模型包括长短期记忆(LSTM)双向神经网络以及挤压和激励剩余开始(Squeeze-and-Excitationresidualinception)神经网络的组合。文章发表在GenomicsProteomicsBioinformatics,17,()[1].SPOT-Disorder2预测工具(服务器和独立程序)以及后续开发的无序功能区预测(SPOT-MoRF,Bioinformatics,36:-())[2]可以从