研究癌症患者细胞中的基因表达,有助于临床生物学家了解癌症的起源并预测不同治疗方案的效果。然而,细胞结构复杂,包含多个层面,生物学家采用的测量方法直接影响所获得的数据类型。例如,测量细胞内的蛋白质与测量基因表达或细胞形态,所反映的癌症影响信息可能截然不同。
细胞内信息的来源位置至关重要。为了全面捕捉细胞状态信息,科学家通常需要使用多种技术进行多次测量,并逐一分析这些数据。尽管机器学习方法能够加快这一过程,但现有方法往往将不同测量方式的数据混合处理,难以区分数据来自细胞的哪个部分。
为解决这一难题,麻省理工学院和哈佛大学的Broad研究所与苏黎世联邦理工学院(ETH Zurich)及保尔谢勒研究所(PSI)的研究人员共同开发了一种人工智能驱动的框架,能够识别不同测量方式中共享的细胞状态信息以及各自独有的信息。
该方法通过明确区分信息来源的细胞部位,提供了细胞状态的更全面视角,帮助生物学家更清晰地理解细胞内的相互作用。这对于揭示疾病机制、追踪癌症、阿尔茨海默症等神经退行性疾病以及糖尿病等代谢疾病的进展具有重要意义。
正如该研究的主要作者、前MIT电气工程与计算机科学系研究生张欣怡(Xinyi Zhang)所说:“研究细胞时,单一测量往往不足以全面反映细胞状态。科学家们开发了多种技术来测量细胞的不同方面。尽管我们有多种观察细胞的方式,但细胞的本质状态只有一个。通过智能整合这些测量方式的信息,我们能够获得更完整的细胞状态图景。”
张欣怡与苏黎世联邦理工学院健康科学与技术系教授、PSI多尺度生物成像实验室负责人G.V. Shivashankar以及MIT电气工程与计算机科学系教授、数据系统与社会研究所(IDSS)成员、Broad研究所Eric和Wendy Schmidt中心主任Caroline Uhler共同发表了这项研究,成果刊登于《Nature Computational Science》杂志。
多模态测量的挑战与解决方案
科学家们可以利用多种工具捕捉细胞状态信息,例如测量RNA以判断细胞是否处于生长状态,或测量染色质形态以了解细胞是否在应对外部物理或化学信号。
Shivashankar教授指出:“多模态分析中,科学家通过多种测量方式收集信息并整合,以更好地理解细胞的内在状态。有些信息仅由单一测量方式捕获,而有些则在多种方式间共享。要全面理解细胞内发生的事情,了解信息的具体来源非常关键。”
传统上,科学家需要进行多次独立实验并对比结果,这一过程既缓慢又繁琐,限制了信息的获取量。
新研究中,团队构建了一个机器学习框架,能够明确区分不同测量方式之间的共享信息和各自独有的信息。
张欣怡介绍:“用户只需输入细胞数据,系统即可自动识别哪些数据是共享的,哪些是特定于某种测量方式的。”

为了实现这一目标,研究人员重新设计了机器学习模型的结构。传统的自动编码器模型为每种测量方式建立独立模型,分别编码对应数据的压缩表示,去除无关细节。
而MIT团队的方法则设有一个共享表示空间,用于编码多种测量方式重叠的信息,同时为每种测量方式设立独立空间,编码其特有信息。
可以将其比作细胞数据的维恩图(Venn Diagram)。
此外,研究团队采用了特殊的两步训练程序,帮助模型处理识别多模态数据共享信息的复杂性。训练完成后,模型能够准确区分新输入数据中的共享信息与独有信息。
实验验证与应用前景
在合成数据集上的测试表明,该框架能够准确捕捉已知的共享和特定信息。应用于真实的单细胞数据集时,模型能够全面自动地区分由转录组学和染色质可及性两种测量方式共同捕获的基因活性,同时正确识别仅由其中一种方式获得的信息。
研究人员还利用该方法确定了某种指示癌症患者DNA损伤的蛋白质标记是由哪种测量方式捕获的。这一信息对于临床科学家选择合适的检测技术至关重要。
Uhler教授表示:“细胞中测量方式众多,我们不可能全部测量,因此需要预测工具。关键问题是:哪些测量方式应当直接测量,哪些可以通过预测获得?我们的模型能够回答这个问题。”
未来,研究团队计划使模型提供更具解释性的细胞状态信息,并开展更多实验以确保模型准确区分细胞信息,进而将其应用于更广泛的临床研究领域。
Uhler教授总结道:“仅仅整合所有测量方式的信息是不够的。通过仔细比较不同测量方式,我们可以深入了解细胞各组成部分如何相互调控,从而更全面地认识细胞状态。”
本研究部分资金支持来自Broad研究所Eric和Wendy Schmidt中心、瑞士国家科学基金会、美国国立卫生研究院、美国海军研究办公室、阿斯利康、MIT-IBM Watson人工智能实验室、MIT机器学习与健康J-Clinic以及Simons Investigator Award。
