HarmonyGNN在四个高难度基准上将GNN准确率最高提升9.6%

研究人员提出了一种可显著提升图神经网络(GNN)准确率的新型训练技术。GNN是一类专门处理图结构数据的人工智能模型,广泛应用于药物发现、天气预报等领域。

在这类模型中,输入数据以“图”的形式组织:数据点被表示为节点,节点之间通过边相连。边刻画了节点之间的某种关系。若边连接的是相似节点,则称为同质性关系;若连接的是不相似节点,则称为异质性关系。

例如,在描述神经系统的图中,两个相互兴奋的神经元节点之间会有一条边,而两个相互抑制的神经元之间同样会通过一条边来表示这种抑制关系。

由于图结构可以表示从社交网络到分子结构等多种复杂系统,GNN在捕捉复杂关系方面往往优于许多其他类型的人工智能模型。


半监督学习的局限

当前训练GNN的常见做法,是将图输入模型,让GNN学习识别节点之间的连接模式及其原因。其中一种主流方法是半监督学习:图中一部分节点会事先被标注类别或属性,模型利用这些标注来学习关系模式。

然而,这种方式存在明显不足:如果GNN只在含有标注节点的图上训练,当面对一个完全没有标注节点的新图时,模型往往难以准确识别节点间的关系。而在真实应用中,节点通常并不会被预先标注,这就造成了训练与应用场景之间的脱节。

为缓解这一问题,研究者提出在完全无标注节点的图上训练GNN,即采用自监督学习。但这又引出了新的挑战。


HarmonyGNN:应对异质性图的自监督框架

“在没有任何节点标注的情况下,GNN虽然能看到节点之间存在边,但很难区分哪些是同质边,哪些是异质边。”论文通讯作者、北卡罗来纳州立大学电气与计算机工程系副教授吴天福表示,“这一问题在异质性图中尤为严重,因为此类图中异质关系多于同质关系。这正是我们这项工作的核心目标。”

针对这一难题,研究团队提出了名为 HarmonyGNN 的训练框架。它是一套完整的训练流程,旨在在自监督场景下:

  • 提升GNN在异质性图中识别复杂关系的能力;
  • 同时保持甚至不降低其在以同质关系为主的图上的表现。

换言之,HarmonyGNN试图在同质性与异质性之间实现“协调”,让模型在两类图结构上都能保持较高的准确率。


基准测试与性能提升

为评估HarmonyGNN的效果,研究人员基于该框架训练了一个GNN模型,并在11个广泛用于GNN评测的图数据集上进行了系统测试。

结果显示:

  • 在7个同质性图数据集上,采用HarmonyGNN训练的模型达到了当前同类方法的最先进水平;
  • 在4个异质性图数据集上,模型创下了新的最高准确率,准确率提升幅度在 1.27% 至 9.6% 之间。

“这在GNN训练方法上是一个重要进展。”吴天福指出,“此外,HarmonyGNN框架还带来了训练计算效率的提升。”


论文与代码发布

相关研究论文题为《HarmonyGNNs:通过自监督节点编码协调GNN中的异质性与同质性》(HarmonyGNNs: Harmonizing Heterophily and Homophily in GNNs via Self-Supervised Node Encoding),将于 2026 年 4 月 23 日至 27 日在巴西里约热内卢举行的第十四届国际学习表征会议(ICLR 2026)上发表。

论文第一作者为北卡罗来纳州立大学博士生薛睿。研究团队已在 GitHub 上公开了相关代码,方便社区复现与进一步研究。


分享:


发表评论

登录后才可评论。 去登录