西湖大学团队提出PIGA方法以混合测序构建逾千人规模人类泛基因组

科学 2026-06-01 基因组学, 泛基因组, 结构变异, 生物医学研究, 西湖大学 2 次浏览

西湖大学生命科学学院振兴讲席教授杨健领衔的研究团队开发了“泛基因组指导的基因组组装”（PIGA）方法，并据此构建了超过1000个个体的人类泛基因组。研究团队表示，该方法通过长短读长结合的成本效益混合测序策略，突破了以往泛基因组研究样本量偏小的限制，为医学研究与群体遗传学提供了新的基础设施。相关论文已发表在《自然》。

自人类基因组计划完成以来，单一线性参考基因组（如GRCh38）长期作为生物医学研究的重要基础。但研究人员指出，由于人群间遗传背景差异显著，单一参考基因组难以覆盖全部遗传多样性，导致传统分析中结构变异（SVs）和串联重复（TRs）等复杂变异形式容易被遗漏。为应对这一问题，泛基因组被提出为代表群体遗传多样性的基因组序列集合。

随着长读长测序技术发展，高质量二倍体基因组组装成为可能，但高昂成本使既往泛基因组研究的样本规模多停留在数十个个体。研究团队认为，小样本规模难以准确估计群体中遗传变异频率，也不利于解析低频变异与高复杂度区域，因此亟需面向大规模人群、经济高效的泛基因组构建策略，以支持复杂变异功能影响研究并提升临床诊断能力。

为解决大规模构建的成本与数据利用问题，研究团队提出PIGA工作流程。与依赖单一样本测序数据的de novo组装不同，PIGA采用泛基因组引导框架，整合整个队列的序列信息，并结合适度覆盖度的Illumina短读长与PacBio长读长全基因组测序（WGS）数据，形成混合测序策略。研究团队称，该流程在降低测序成本的同时，实现了基于适度覆盖数据的基因组组装，为群体规模的混合测序研究提供了可行路径。

基于该方法，研究团队构建了由1,116个二倍体基因组组成的人类泛基因组，平均质量值（QV）为46。研究显示，该泛基因组识别出4.053亿碱基对（Mb）的非参考序列，这些序列在现有参考基因组GRCh38和CHM13中缺失；其中26.2 Mb被注释为功能性基因区和预测的调控元件。

依托大规模组装数据集，研究人员进一步编制了遗传变异目录。除3,540万个小变异外，该目录还包含110,530个结构变异、485,575个串联重复以及86万个嵌套变异；其中嵌套变异位于非参考序列之中。

研究团队表示，基于该目录可对医学相关变异进行多层次表征，覆盖基因改变的结构变异、致病性串联重复扩增、基因簇变异以及HLA基因单倍型等，并认为该变异目录可为致病突变的临床筛查提供参考。

此外，研究团队整合基因表达数据开展泛变异表达数量性状位点（eQTL）映射，识别出3,256个涉及复杂变异（结构变异、串联重复及嵌套变异）的eQTL，用于刻画不同变异类型的调控复杂性。

研究团队称，该工作推进了对复杂遗传变异及其功能影响的理解，并为人类健康研究及其他物种的泛基因组研究提供了新的技术范式。

发表评论

登录后才可评论。去登录