圣犹达团队开发BOUQUET算法:用机器学习构建三维“超级增强子”图谱以定位细胞身份调控因子

科学界长期以来多从线性、二维基因组视角研究基因表达调控机制,但DNA及其结合蛋白在细胞核内以三维方式组织并发挥作用。为更好刻画超级增强子等关键调控元件在三维环境中的作用,圣犹达儿童研究医院研究人员开发了一种新算法BOUQUET,用于在三维基因组框架下解析增强子与基因的调控关系。

研究团队表示,BOUQUET通过机器学习揭示,一组基因及其调控元件可在细胞核内的蛋白质凝聚体中发生相互作用,这类凝聚体表现为高密度、无膜的液滴结构。相关论文已于今日发表于《核酸研究》(Nucleic Acids Research)。

研究人员指出,细胞通过表达特定基因组合来执行特定功能,例如血细胞与脑细胞会表达不同的情境特异性基因。人类DNA约含30亿碱基对,与细胞身份相关的基因分布广泛;同时,作为激活基因表达的DNA元件,增强子与其目标基因之间可能相隔数千个碱基对,这使得在大尺度基因组范围内准确匹配增强子、相关蛋白与目标基因面临挑战。

圣犹达计算生物学系Brian Abraham博士团队表示,跨越较大基因组距离去寻找与每个基因表达相关的完整增强子集合及其伴随蛋白并不容易。为此,团队将三维增强子结构纳入基于机器学习的图论框架,构建BOUQUET方法,从而识别可能位于转录蛋白凝聚体内的基因。

Abraham作为通讯作者称,BOUQUET可量化与每个基因相关联的“激活蛋白装置”,并带来两项进展:一是从蛋白结合图谱预测基因表达;二是识别可能与转录凝聚体相互作用的基因。

将三维结构纳入细胞身份调控因子识别

增强子通常通过结合特定蛋白并与目标基因发生接触来激活基因表达。研究团队提到,在Abraham此前研究中,曾观察到被称为“超级增强子”的增强子集合在线性基因组上往往靠近编码细胞身份关键蛋白的基因,例如分化调控因子或执行身份特异性任务的蛋白。

共同第一作者、计算生物学系Kelsey Maher博士表示,线性超级增强子在细胞身份控制中的作用已帮助研究人员理解多种疾病过程,但增强子在三维空间中运作的事实也早已为人所知,因此团队尝试将两者结合。Maher同时指出,三维相互作用测量数据复杂且噪声较大,促使研究人员采用图论与机器学习方法,以更全面地捕捉网络环境并学习增强子群体。

团队还表示,尽管已有研究对增强子进行分组,但其工作进一步整合了蛋白结合图谱。Abraham称,过去普遍假设与某基因相关的激活蛋白数量应与该基因表达水平相关,但在不清楚哪些基因组区域对每个基因表达关键的情况下,验证这种相关性较为困难。研究团队表示,据其所知,他们首次展示了增强子/蛋白结合模式与基因表达之间存在定量相关。

“群落”与三维超级增强子:指向多基因转录凝聚体

Abraham实验室将其增强子分组称为“群落”。共同第一作者、计算生物学系Jie Lu博士表示,数据表明群落可能是基因调控的基本单位:群落内部组成部分表现出相关活性,对群落某一部分的扰动会影响整个群落。

研究人员称,不同群落含有不同水平的相关蛋白,其中蛋白含量最高的群落被命名为“三维超级增强子”,以体现其与线性超级增强子的对应关系。结果显示,所有先前已发现与转录凝聚体相互作用的基因均位于三维超级增强子内;这些富含蛋白的群落数量也与早期对转录凝聚体的计数相符。

Lu表示,团队认为三维超级增强子可能以某种方式与凝聚体相连,因为两者都富含蛋白。研究人员称,他们不仅预测并确认了一个新的凝聚体相关基因,还观察到两个基因共享同一凝聚体并在其中共同转录:这两个来自同一群落、相距50万个碱基对的基因,同时处于相同的生化与转录环境中。

研究团队表示,其工作旨在从转录调控角度理解细胞身份的分子机制。Lu指出,转录失调是恶性细胞身份的核心,因此理解其发生机制具有重要意义。Abraham则称,当致病基因出现异常表达时,厘清其是否由特定蛋白及/或特定蛋白复合体控制十分关键;BOUQUET为进一步探究凝聚体是否可能控制疾病基因表达提供了切入点。


分享:


发表评论

登录后才可评论。 去登录