借助人工智能从氨基酸序列预测蛋白质三维结构已成为现实,但哥伦比亚大学生物物理学家Hashim Al-Hashimi表示,生物学研究更核心的目标是预测RNA和DNA编码分子在细胞环境中的功能表现,即分子在细胞内执行生物学功能的效率。
Al-Hashimi指出,结构预测的意义在于服务功能理解,而现有人工智能模型尚难直接给出分子“活性”的预测结果。其团队近日在《Cell》发表研究称,至少对一类在细胞内调控基因活性的小型RNA群体,可以基于生物物理原理实现从序列到活性的预测。

研究团队认为,预测RNA活性的关键在于把握序列如何改变RNA可采取的“构象集合”。Al-Hashimi表示,多数RNA分子具有高度柔性,会在时间尺度上不断采样多种结构形态;其中部分构象更稳定、在集合中占主导,而另一些构象持续时间极短,可能仅为皮秒级,但可能与生物学活性密切相关。因此,要从序列推断RNA在细胞内的活性,需要将构象集合纳入考量。
在模型构建与验证方面,团队首先通过实验测定了HIV RNA元件TAR的构象集合,并测量了其27个核苷酸中多数单点突变对应的构象集合,同时评估了这27种不同TAR序列的活性。研究介绍,TAR可与HIV蛋白结合,从而启动感染细胞内的病毒复制。

团队随后发现,RNA活性可借助现有生物物理模型从序列中进行预测。这些模型通常用于预测RNA二级结构。基于相关方法,研究人员直接从序列计算了数千种不同TAR序列的生物活性。
研究结果还提出了“构象集合保守”的概念,用以解释为何TAR的若干残基高度保守。Al-Hashimi表示,多数TAR突变之所以被排除,并非主要因为改变了与其他分子的直接接触,而是因为通过改变构象集合显著影响了活性;这意味着分子序列的进化需要维持不同构象状态之间的适当平衡。

Al-Hashimi称,同一预测模型对另一种HIV RNA元件RRE同样有效,并认为该方法应可推广至任何生物体的类似RNA。团队下一步计划是将模型优化至更大、更复杂的RNA,并提升其对细胞内活性预测的准确性。
研究团队同时指出,许多疾病与能够在不同构象间切换的RNA调控有关。Al-Hashimi表示,许多遗传疾病与非编码RNA(如TAR)中的单核苷酸多态性相关;若能预测哪些突变会改变构象集合、哪些不会改变,将有助于构建相关遗传疾病的机制模型。
此外,研究认为,这类模型可能加速新型药物研发:通过改变RNA构象集合来调节细胞内活性,或干扰构象集合中最具活性的成员。Al-Hashimi表示,当前药物研发多依赖“锁钥机制”,若将构象集合纳入考虑,或可拓展调控手段并提升药物效力。