研究称AlphaZero式自我对弈在尼姆游戏中暴露局限：仅靠模式学习难以掌握最优策略

科学 2026-03-14 人工智能, 机器学习, 游戏AI, 自我对弈, 尼姆游戏 20 次浏览

《机器学习》期刊近日发表的一项研究指出，仅依靠模式学习来训练游戏人工智能存在明显不足，引入抽象表示或与其他方法结合，可能更有助于系统掌握游戏的深层规律。

许多人工智能研究者常把游戏视作人工智能的“一级方程式”：规则清晰、胜负标准明确，是检验算法能力的理想试验场。研究团队正是借助这一视角，选取了一个极其简单、面向儿童的火柴游戏——尼姆。尼姆的最优策略早已被数学完全求解，因此非常适合作为诊断工具，用来评估自我对弈系统是否真正学会了游戏的底层结构。

在尼姆游戏中，每一种局面下的最优走法都是已知的。借助这一点，研究人员可以精确衡量智能体在整个状态空间中是否能做出最优决策。实验结果显示：

研究由此推断，对于像尼姆这样拥有清晰数学结构的公平游戏，仅依赖从原始局面中提取模式的学习方式并不足够，更需要某种解析性或抽象性的内部表示，才能在整个状态空间内保持稳定的最优表现。

对机器游戏研究的启示

研究团队强调，自我对弈的人工智能在国际象棋、围棋等复杂棋类游戏中已展现出惊人的实力，这项工作并非否定这些成果，而是试图更精细地划定现有方法的适用边界。

在尼姆这类双方共享“棋子”、且制胜策略可以用抽象算术规则精确刻画的游戏中，仅凭对局面图像或棋子分布的模式识别，往往难以完全捕捉到关键的数学结构。结果表明：

因此，研究者认为，未来的游戏人工智能可能需要引入能够表达抽象结构的机制，或采用将模式学习与符号推理、解析方法相结合的混合框架，以减少这类系统性盲点。

更广泛地看，这项研究提醒我们：

伦敦玛丽女王大学的索伦·里斯（Søren Riis）博士指出：“尼姆是一个拥有完整数学解的儿童游戏，但采用AlphaZero风格的自我对弈时，系统仍会产生盲点——在许多局面中看似能保持竞争力，却依然错过真正的最优走法。”

他进一步表示：“这说明，在未来的人工智能研究中，令人印象深刻的表面表现并不能证明系统已经掌握了底层原理。我们可能需要能够捕捉抽象结构的方法，来系统性地减少这些盲点。”

登录后才可评论。去登录