自我对弈

科学 2026-03-14

新发表在《机器学习》期刊上的研究利用尼姆这一已被完全求解的儿童火柴游戏，系统检验了AlphaZero风格自我对弈方法的能力。结果显示，仅依赖从局面中学习模式的策略，在状态空间放大后会出现明显盲点和性能退化，提示未来需要引入抽象表示或混合方法。