密歇根州立大学团队用机器学习预测化学物质对基因表达影响,助力药物筛选提速

在病变细胞中,部分基因可能被异常激活而过度产生蛋白质,另一些基因活性则被压低。研究人员指出,若能找到合适分子逆转特定基因的失调,有望恢复细胞内的表达秩序。然而,传统路径往往需要对数百万种化学物质进行筛查,并评估其对数百至数千个基因的影响,成本与时间压力巨大。

由密歇根州立大学(MSU)牵头的研究团队提出一种替代方案:利用基于大量已发表数据训练的机器学习模型,仅根据化学物质结构预测其对基因表达的影响。相关研究近日发表于《Cell》。研究团队表示,该方法已在两种疾病方向上完成验证,并筛选出具有潜在治疗价值的化合物,分别面向最具侵袭性的肝癌类型以及目前缺乏治愈方案的慢性肺病。

论文资深作者之一、MSU人类医学学院儿科与人类发展系及药理与毒理学系副教授陈斌表示,这一成果来自多年跨学科、多机构合作,参与研究人员超过20名。他的研究方向聚焦与计算机科学家、实验科学家及临床医生协作,开发用于药物发现的计算方法与工具。

研究团队首先利用数百万条实验测量数据训练“基于化学结构的基因表达谱预测器”(GPS)。陈斌与另一位资深作者、前MSU研究人员、现任密歇根大学的周佳宇共同完成了这一阶段。陈斌将该过程类比为训练神经网络识别图像类别,但在该研究中,模型的任务是判断某一化合物会使特定基因表达上调或下调。

周佳宇指出,生物数据往往存在噪声与不一致性,模型需要在“强信号”与“弱信号”之间做出区分,以避免被噪声误导。研究团队表示,其方法旨在提升模型从复杂数据中学习的能力。

在评估该工具对多种疾病的理论适用性后,团队选择肝细胞癌(HCC)与特发性肺纤维化(IPF)进行实际测试。研究人员在论文中提到,HCC是全球癌症相关死亡的第三大原因;IPF为慢性肺病,诊断后中位生存期约三年。

在HCC方向,陈斌此前曾发现一种驱虫药可能用于治疗HCC,并与论文贡献作者、斯坦福大学亚洲肝脏中心高级研究科学家蔡美思(Tsai Mei-Sze)长期合作,推进面向HCC患者的化合物开发。蔡美思表示,团队以往工作主要集中在对美国食品药品监督管理局(FDA)已批准药物的再利用,而新方法显著扩展了可供筛选的潜在活性化合物库。论文中同时引述苏医生观点称,随着美国HCC发病率持续上升,能够更直接应对HCC分子异质性的创新化合物符合临床未满足需求。

在IPF方向,MSU资深作者之一、MSU人类医学学院儿科与人类发展系副教授李晓鹏表示,过去20年寻找新药多次受挫,而引入人工智能相关方法有助于以更系统的方式推进探索。

研究团队强调,计算筛选只是起点,仍需实验验证。MSU药物化学设施主任、药理与毒理学系教授埃德蒙·埃尔斯沃思(Edmund Ellsworth)作为贡献作者之一,负责合成平台筛选出的相关化合物,并推动其向安全有效的药物方向优化。他表示,药物发现过程复杂,需要多领域专家协作推进。

在实验环节,团队先在细胞系中测试化合物以确认其对基因表达的影响,并筛选进入活体测试的候选物。在HCC的小鼠实验中,研究人员发现两种新化合物可缩小肿瘤体积。针对IPF,团队鉴定出一种可再利用药物以及两种新化合物显示出潜力。

IPF相关测试同样从小鼠实验起步,随后扩展至人类肺组织样本。研究团队称,这得益于与位于大急流城(Grand Rapids)的Corewell Health肺移植项目开展临床研究合作。该项目为密歇根州最繁忙的肺移植项目之一。论文贡献作者、该项目医疗主任、肺病学家Reda Girgis表示,由于肺纤维化是肺移植的主要指征之一,项目能够提供较多切除组织,供研究人员作为活体培养样本进行测试;他同时指出,临床医生、生物学家与计算研究人员的协作对推动研究进展至关重要。

研究团队已共享相关代码,并建立网络门户(https://apps.octad.org/GPS/),供研究人员使用GPS进行虚拟化合物筛选。陈斌表示,希望更多研究者测试并使用该方法以推动新疗法发现;李晓鹏则称,平台已在两种差异较大的疾病中展示可用性,未来可望拓展至其他疾病研究。


分享:


发表评论

登录后才可评论。 去登录