研究称AlphaZero式自我对弈在尼姆游戏中暴露局限:仅靠模式学习难以掌握最优策略
新发表在《机器学习》期刊上的研究利用尼姆这一已被完全求解的儿童火柴游戏,系统检验了AlphaZero风格自我对弈方法的能力。结果显示,仅依赖从局面中学习模式的策略,在状态空间放大后会出现明显盲点和性能退化,提示未来需要引入抽象表示或混合方法。
新发表在《机器学习》期刊上的研究利用尼姆这一已被完全求解的儿童火柴游戏,系统检验了AlphaZero风格自我对弈方法的能力。结果显示,仅依赖从局面中学习模式的策略,在状态空间放大后会出现明显盲点和性能退化,提示未来需要引入抽象表示或混合方法。