博弈论中,通才算法有时胜过专家算法

richlovec 1500_400 (1)
 

无论是在扑克游戏中与单个对手对战,还是在购房竞价中与其他买家竞争,你都处于信息不完全的环境中。你知道自己手中的牌,也清楚自己能出价的最高金额,但你无法得知对手的牌面或对方愿意出价的最高金额。

麻省理工学院(MIT)的研究人员在今年四月于里约热内卢举行的国际学习表征会议(ICLR)上发表了一篇论文,虽然没有直接告诉你在这些情况下该如何行动,但为两人零和不完全信息博弈提供了新的见解。在这种博弈中,一方的收益必然意味着另一方的损失。

参与该研究的MIT成员包括电气工程与计算机科学系(EECS)及信息与决策系统实验室(LIDS)的博士生Sobhan Mohammadpour和助理教授兼LIDS主要研究员Gabriele Farina。其他合作者来自德克萨斯大学奥斯汀分校(UT)、加州大学伯克利分校(UCB)、卡内基梅隆大学(CMU)、纽约大学等。

研究重点是用于训练神经网络参与不完全信息博弈的算法。传统观点认为,基于博弈论原理的专用算法在此类环境中应明显优于通用的策略梯度方法。策略梯度方法起源于1990年代,主要用于决策制定,策略即为行动方案,梯度则指向最大变化方向。通过连续的小步调整,策略梯度方法训练神经网络逐步接近目标状态。

尽管策略梯度方法最初并未针对战略博弈设计,研究团队仍好奇这类算法在双人博弈中的表现。Farina指出,多智能体环境下分析这类方法更为复杂,因为对手的行动会不断改变最优改进方向,且变化迅速。

研究员Sokota表示:“长期以来,专用博弈算法被视为解决此类问题的最佳方案。我们的研究表明,策略梯度方法在某些情况下表现更佳,而专用算法的效果可能被高估了。这也引发了一个有趣的社会学问题:为何这一点长期未被发现?部分原因是该领域缺乏对算法的严谨工程评估,难以判断哪些方法真正有效。”

因此,该研究的重要贡献之一是提出了一种公平评估不同算法的基准测试方法,用于训练神经网络在不完全信息博弈中竞争。Rudolph强调:“与许多提出新算法的论文不同,我们提供的是一个评测平台,而非新的算法。”

简单来说,基准测试是一套软件,用于衡量算法的表现。Farina解释:“我们提供了一个测试场,研究者可以在此训练算法,检验其完成特定任务的能力。”

团队通过“可被利用性”(exploitability)指标衡量玩家表现,该指标反映玩家面对“最强对手”时的表现。Sokota解释:“在扑克中,这种对手不知道我的牌,但了解我在任何牌面下的行为策略。可被利用性为零意味着完美策略,数值越高则策略越差。”

实验涵盖五种游戏:两种“幻影井字棋”(玩家看不到对手动作)、两种不完全信息版本的棋盘游戏Hex,以及欺骗类游戏“骗子骰子”。

研究最大挑战是将可被利用性指标应用于状态空间高达300亿的复杂游戏中。这里的“状态”不仅包括所有可能的棋盘布局,还涵盖游戏的完整历史,包括每一步操作。Mohammadpour形象地比喻:“这就像在一间黑暗房间里摸索看不见的物体,必须推断它们的位置及形成过程。”此前研究多集中于规模小100,000倍的游戏。

实验结果显示,采用策略梯度算法训练的神经网络在可被利用性指标上优于基于博弈论的算法。在后续的直接对抗中,策略梯度训练的网络也击败了博弈论训练的对手。Rudolph称:“这些结果增强了我们对基准测试方法的信心。”

团队已将基准测试软件免费开放,且易于使用。Mohammadpour表示:“不需要超级计算机,普通笔记本即可运行。只需在广泛使用的OpenSpiel软件库中添加一行代码即可。”

Farina希望将此研究放在更广泛的背景下理解:“‘博弈’一词涵盖任何多智能体战略互动,因此我们的研究成果远不止于娱乐游戏。”

Vinitsky补充:“隐藏信息是现实世界的重要特征,存在于军事行动、交易和谈判等多个领域。提升这类博弈的表现,意味着我们也能在这些实际场景中取得进步。”

谷歌DeepMind的计算机科学家兼博弈论专家Ian Gemp对此表示认可:“这项工作提醒我们,现代化经典工具(如策略梯度方法)依然是解决复杂战略问题的有效途径。”


分享:


发表评论

登录后才可评论。 去登录