将人工智能驱动的蛋白质设计工具普及到全球生物学家手中

人工智能(AI)已经在加速药物开发和深化疾病理解方面展现出巨大潜力。然而,要将AI转化为创新疗法,关键在于让最新、最强大的模型真正落到科学家的手中。问题是,大多数科学家并非机器学习专家。为此,OpenProtein.AI公司推出了一个无需编程的平台,使科学家能够轻松访问强大的基础模型和一整套蛋白质设计、结构与功能预测及模型训练工具。

该公司由Tristan Bepler博士(2020年毕业)和前MIT副教授Tim Lu博士(2007年毕业)创立,已为各类规模的制药和生物技术公司提供内部开发的蛋白质工程基础模型和工具。同时,OpenProtein.AI也免费向学术界科学家开放其平台。

Bepler表示:“现在是一个令人振奋的时代,这些模型不仅能提升蛋白质工程的效率,缩短治疗和工业应用的开发周期,还能增强我们设计具备特定功能蛋白质的能力。我们也在考虑将这些方法应用于非蛋白质的生物分子。总体目标是创造一种描述生物系统的语言。”

利用AI推动生物学进步

Bepler于2014年进入MIT计算与系统生物学博士项目,师从应用数学Simons教授Bonnie Berger。在此期间,他意识到我们对构成生命基础的分子了解甚少。

他回忆道:“我们对生物分子和蛋白质的表征还不够充分,难以建立准确预测全基因组电路或蛋白质相互作用网络行为的模型。这激发了我对蛋白质更细致理解的兴趣。”

Bepler开始探索通过分析进化数据预测蛋白质氨基酸链的方法,这一研究早于谷歌发布强大的蛋白质结构预测模型AlphaFold。他们团队开发了首批用于理解和设计蛋白质的生成式AI模型,即所谓的蛋白质语言模型。

“我对蛋白质的经典框架及其序列、结构与功能之间的关系非常感兴趣,但我们对这些联系的理解还很有限。于是我们思考,如何利用基础模型跳过‘结构’环节,直接从序列预测功能?”Bepler说。

2020年获得博士学位后,Bepler进入MIT生物工程系Lu教授实验室做博士后。

Lu回忆:“那时AI与生物学结合的理念开始兴起。Tristan帮助我们构建了更好的生物设计计算模型。我们也意识到,最先进的工具与生物学家之间存在鸿沟——他们渴望使用这些工具,却不懂编程。OpenProtein的想法就是为了让更多人能用上这些工具。”

Bepler在博士期间一直处于AI前沿,深知这项技术能助力科学家加速研究。

他说:“我们最初的想法是打造一个通用平台,将机器学习融入蛋白质工程。我们希望它用户友好,因为机器学习概念较为晦涩,涉及实现、GPU计算、微调和设计序列库,尤其对生物学家来说学习成本很高。”

OpenProtein的平台提供直观的网页界面,方便生物学家上传数据并利用机器学习进行蛋白质工程。平台集成了多种开源模型,包括旗舰蛋白质语言模型PoET(Protein Evolutionary Transformer)。

PoET经过蛋白质群组训练,能生成相关蛋白质集合。Bepler及其团队证明,PoET能泛化蛋白质进化约束,且无需重新训练即可整合新序列信息,允许研究者添加实验数据以优化模型。

“研究人员可以用自己的数据训练模型,优化蛋白质序列,然后用我们的其他工具分析这些蛋白质。大家在计算机上生成蛋白质序列库,再通过预测模型进行验证和结构预测。平台基本实现了无代码操作,同时也提供API供有编程需求的用户使用。”Bepler说。

这些模型帮助研究者更快设计蛋白质,筛选出值得进一步实验验证的候选蛋白。用户还可输入感兴趣的蛋白质,模型则能生成具有相似特性的新品种。

自成立以来,OpenProtein团队不断为平台添加新工具,支持不同规模和资源的实验室。

Bepler表示:“我们努力让平台成为一个开放式工具箱,虽然有特定工作流程,但不局限于某一蛋白质功能或类别。模型的优势在于它们对蛋白质的广泛理解,涵盖了蛋白质的整个可能空间。”

推动新一代疗法的诞生

大型制药公司勃林格殷格翰于2025年初开始使用OpenProtein平台。近期双方宣布深化合作,将OpenProtein的平台和模型嵌入其蛋白质工程项目,针对癌症、自身免疫和炎症等疾病开发治疗方案。

去年,OpenProtein发布了新一代蛋白质语言模型PoET-2,性能优于许多更大规模模型,但仅需极少计算资源和实验数据。

Bepler说:“我们真正想解决的是如何描述蛋白质。生成蛋白质时,怎样用有意义的、领域特定的语言表达蛋白质约束?如何引入更多进化约束?如何描述蛋白质催化的酶促反应,使模型能生成执行该反应的序列?”

未来,创始团队希望开发能考虑蛋白质功能动态变化和多机制交互的模型。

Lu现任公司顾问,他说:“我最感兴趣的是超越蛋白质结合事件,利用模型预测和设计动态特性,比如蛋白质需同时参与两到四个生物机制,或结合后改变功能。”

随着AI技术飞速发展,OpenProtein始终坚持其使命:为科学家提供最佳工具,加快新疗法研发。

Lu强调:“随着研究复杂度提升,涉及蛋白质逻辑和动态疗法,现有实验工具显得有限。构建开放的AI与生物学生态系统至关重要。AI资源若过度集中,普通研究者将难以使用。开放获取对科学进步极为重要。”


分享:


发表评论

登录后才可评论。 去登录