导读 新加坡国立大学(NUS)新加坡癌症科学研究所(CSISingapore)的一个研究团队成功利用人工智能(AI)和深度学习技术,根据初级RNA序列对原子级RNA3...

新加坡国立大学(NUS)新加坡癌症科学研究所(CSISingapore)的一个研究团队成功利用人工智能(AI)和深度学习技术,根据初级RNA序列对原子级RNA3D结构进行建模。与传统方法相比,这种基于人工智能的新颖方法被称为DRfold,将RNA模型的准确性提高了70%以上。

该团队由CSI新加坡和新加坡国立大学计算机学院的张杨教授领导,于2023年9月16日在《自然通讯》上发表了他们的发现。

RNA是由单链核苷酸组成的大生物分子,其序列顺序源自转录过程中的双链DNA分子。RNA因其在转录和翻译过程中的作用而广为人知,这有助于将DNA序列中包含的基因信息转移到蛋白质氨基酸序列中。

近年来,人们发现RNA在调节各种生物过程中发挥着重要作用,因此将其定位为新型药物靶点。

据估计,与传统的蛋白质靶向药物发现相比,用小分子靶向RNA将成倍扩展药物设计领域。因此,RNA生物学及其在开发新疗法中的应用代表了一个重要的新兴领域,在全球范围内吸引了大量学术和行业投资。

预测RNA结构

与折叠良好的蛋白质结构相比,由于相对较浅的能量景观,RNA结构及其折叠通常被认为不太稳定。因此,传统的基于物理和统计学的力场往往容易出错,无法准确描述RNA优雅而复杂的折叠相互作用

同时,蛋白质数据库(PDB)中实验RNA结构的有限可用性进一步限制了这些传统的基于知识的力场的准确性,这些力场源自PDB结构的统计数据。

为了应对这些挑战,DRfold创建了两个互补的深度学习网络管道——一个专注于端到端学习,另一个专注于几何约束学习。这种创新方法显着提高了基于人工智能的力场的准确性。这两个网络的协同耦合也进一步提高了基于单一神经网络的人工智能潜力的准确性。

关键创新在于引入深度学习方法来预测RNA结构。传统方法依赖同源建模或基于物理的折叠模拟,受到力场精度的限制,而DRfold使用自注意力变压器网络来预测RNA序列的3D结构,标志着解决这一关键挑战的革命性转变。

DRfold的新策略是集成两个基于端到端和几何学习的并行互补网络,有助于提高势函数和RNA模型预测的准确性,使其轻便、高度灵活、可扩展,因此成为首选的预测方法。

CSI新加坡研究科学家、本研究的第一作者LiYang博士说:“由于RNA的生物学功能取决于特定的结构,因此确定RNA的3D结构变得越来越重要和必要,以便促进基于RNA的功能注释和药物发现。”

他补充道,“结构生物学的黄金标准,例如使用生物物理实验——X射线晶体学、低温电子显微镜(Cryo-EM)和核磁共振(NMR)光谱——来确定RNA结构,通常成本低且成本低。劳动密集型,将其应用限制在已知RNA的一小部分。”

“目前,RNA中央数据库中有超过3000万条已知的RNA序列,但只有不到500个(或0.0017%)具有通过实验解析的结构。令人沮丧的是,超过99%的RNA目标没有结构信息。因此,我们研究的核心目标是开发能够预测高质量RNA结构模型的新计算方法,填补这一巨大的信息空白。”

在药物设计和虚拟筛选中的潜在应用

CSI新加坡高级首席研究员、该研究的通讯作者张教授表示:“我们这项研究的主要目标是弥合实验性RNA结构的稀缺性与RNA生物学领域和制药行业日益增长的需求之间的差距。在这方面,高置信度的DRfold模型可以作为指导RNA药物设计和虚拟筛选的起点,或者帮助阐明细胞中RNA分子的生物学功能。”

“考虑到mRNA疫苗在对抗流行病方面的效力和有效性,DRfold等工具在预测和优化RNA结构以及疫苗的稳定性方面发挥着至关重要的作用。此外,这些工具可用于研究RNA的生物学功能,尤其是非RNA的生物学功能。-编码RNA,并使用遵循序列到结构到功能范式的预测模型设计新颖的RNA实验,”张教授补充道。

下一步

展望未来,该团队设想将其人工智能策略扩展到涵盖蛋白质-RNA相互作用,目前该领域缺乏可靠的人工智能方法来预测高质量的蛋白质-RNA复杂结构。这些工具与RNA功能注释和RNA药物发现高度相关。

此外,团队希望进一步提高DRfold在单链RNA结构预测方面的准确性。固有的障碍之一源于实验性RNA结构的有限可用性,这影响了深度学习模型的准确性,特别是对于大尺寸RNA(大约超过200个核苷酸)。

需要新的策略和想法来突破高精度RNA结构预测的瓶颈,研究人员目前正在为此努力并取得了令人鼓舞的进展。