用计算方法研究地球上最优秀的单细胞化学家——微生物

richlovec 1500_400 (1)
 

地球上估计有约1万亿种生物,其中99.999%是微生物——包括细菌、古菌、病毒和单细胞真核生物。在地球漫长的历史中,微生物一直主宰着地球,能够在极端环境中生存和繁衍。直到近几十年,科学家们才开始真正面对微生物的多样性。据估计,已知基因中只有不到1%经过实验室验证其功能。计算方法为研究者提供了战略性解析这庞大信息量的可能。

作为一名环境微生物学家和计算机科学家,麻省理工学院新任教员黄允哈教授致力于探索地球上最丰富多样生命形式所揭示的新颖生物学。在生物学系担任Samuel A. Goldblith职业发展教授,同时兼任电气工程与计算机科学系及MIT施瓦茨曼计算学院助理教授的她,正致力于计算与生物学的交叉研究。

问:是什么吸引您研究极端环境中的微生物?研究这类微生物面临哪些挑战?

答:极端环境是发现有趣生物学现象的绝佳场所。小时候我梦想成为宇航员,而研究地球上的极端环境是最接近天体生物学的方式。那些环境中唯一能生存的生命形式是微生物。一次在墨西哥海岸的采样探险中,我们发现了约2公里深海底的多彩微生物垫,这些细菌以硫而非氧呼吸而繁盛,但我希望研究的微生物却无法在实验室培养。

研究微生物的最大难题是大多数微生物无法培养,因此只能通过宏基因组学方法研究它们的生物学。我的最新工作是基因组语言模型。我们希望开发一种计算系统,尽可能通过“计算机内”即序列数据来探测生物体。基因组语言模型本质上是大型语言模型,只不过语言是DNA而非人类语言。训练方式类似,只是用生物语言代替英语或法语。如果目标是学习生物学语言,就应利用微生物基因组的多样性。尽管数据庞大,且样本不断增加,我们对微生物多样性的认识仍只是冰山一角。

问:鉴于微生物的多样性及我们对它们的有限了解,如何通过基因组语言模型等计算方法推进对微生物基因组的理解?

答:基因组包含数百万个碱基,人类无法直接理解。我们可以编程让机器将数据划分为有用片段,这也是生物信息学处理单个基因组的方式。但一克土壤中可能含有数千个独特基因组,数据量巨大,必须依靠人机协作来处理。

在攻读硕士和博士期间,我们刚开始发现许多新基因组和新谱系,这些与已知或实验室培养的生物差异巨大,被称为“微生物暗物质”。面对大量未被描述的生物,机器学习尤为有用,因为它能寻找模式,但这不是最终目的。我们希望将这些模式映射到基因组、微生物及生命实例之间的进化关系。

过去,我们通常将蛋白质视为独立实体,这能提供一定信息,因为同源蛋白可能具有相似功能。

微生物学已知蛋白质编码于基因组中,且蛋白质所在的基因组上下文——前后区域——在进化上是保守的,尤其当它们功能相关时。这很合理,因为需要协同表达的蛋白质往往基因相邻。

我希望在搜索和注释蛋白质及理解其功能时,更多地结合基因组上下文信息,超越序列或结构相似性,加入上下文信息以更准确推测蛋白质功能。

问:您的研究如何助力发挥微生物的功能潜力?

答:微生物可能是世界上最优秀的化学家。利用微生物代谢和生物化学,将推动更可持续、高效的新材料、新疗法和新型聚合物的生产。

这不仅关乎效率,微生物进行的化学反应甚至超出我们现有认知。理解微生物的工作机制、基因组构成及功能能力,对应对全球气候变化至关重要。大部分碳固定和养分循环由微生物承担,如果不了解某种微生物如何固氮或固碳,将难以准确模拟地球养分流动。

在治疗领域,传染病是日益严峻的威胁。理解微生物在多样环境中的行为及其与人体微生物组的关系,对未来抗击病原体至关重要。


分享:


发表评论

登录后才可评论。 去登录