西湖大学生命科学学院振兴讲席教授杨健领衔的研究团队开发了“泛基因组指导的基因组组装”(PIGA)方法,并据此构建了超过1000个个体的人类泛基因组。研究团队表示,该方法通过长短读长结合的成本效益混合测序策略,突破了以往泛基因组研究样本量偏小的限制,为医学研究与群体遗传学提供了新的基础设施。相关论文已发表在《自然》。
自人类基因组计划完成以来,单一线性参考基因组(如GRCh38)长期作为生物医学研究的重要基础。但研究人员指出,由于人群间遗传背景差异显著,单一参考基因组难以覆盖全部遗传多样性,导致传统分析中结构变异(SVs)和串联重复(TRs)等复杂变异形式容易被遗漏。为应对这一问题,泛基因组被提出为代表群体遗传多样性的基因组序列集合。

随着长读长测序技术发展,高质量二倍体基因组组装成为可能,但高昂成本使既往泛基因组研究的样本规模多停留在数十个个体。研究团队认为,小样本规模难以准确估计群体中遗传变异频率,也不利于解析低频变异与高复杂度区域,因此亟需面向大规模人群、经济高效的泛基因组构建策略,以支持复杂变异功能影响研究并提升临床诊断能力。
为解决大规模构建的成本与数据利用问题,研究团队提出PIGA工作流程。与依赖单一样本测序数据的de novo组装不同,PIGA采用泛基因组引导框架,整合整个队列的序列信息,并结合适度覆盖度的Illumina短读长与PacBio长读长全基因组测序(WGS)数据,形成混合测序策略。研究团队称,该流程在降低测序成本的同时,实现了基于适度覆盖数据的基因组组装,为群体规模的混合测序研究提供了可行路径。

基于该方法,研究团队构建了由1,116个二倍体基因组组成的人类泛基因组,平均质量值(QV)为46。研究显示,该泛基因组识别出4.053亿碱基对(Mb)的非参考序列,这些序列在现有参考基因组GRCh38和CHM13中缺失;其中26.2 Mb被注释为功能性基因区和预测的调控元件。
依托大规模组装数据集,研究人员进一步编制了遗传变异目录。除3,540万个小变异外,该目录还包含110,530个结构变异、485,575个串联重复以及86万个嵌套变异;其中嵌套变异位于非参考序列之中。

研究团队表示,基于该目录可对医学相关变异进行多层次表征,覆盖基因改变的结构变异、致病性串联重复扩增、基因簇变异以及HLA基因单倍型等,并认为该变异目录可为致病突变的临床筛查提供参考。
此外,研究团队整合基因表达数据开展泛变异表达数量性状位点(eQTL)映射,识别出3,256个涉及复杂变异(结构变异、串联重复及嵌套变异)的eQTL,用于刻画不同变异类型的调控复杂性。
研究团队称,该工作推进了对复杂遗传变异及其功能影响的理解,并为人类健康研究及其他物种的泛基因组研究提供了新的技术范式。
