通过玩“战舰游戏”教AI智能体提出更优问题

richlovec 1500_400 (1)
 

2026年,人工智能智能体的热度空前高涨。这些半自主程序能够“思考”并执行诸如客户服务和软件开发等明确任务,通常依赖语言模型(LMs)。然而,在医疗诊断和科学发现等领域,AI需要在不确定环境中探索大量解决方案,这正是语言模型的弱项。

麻省理工学院计算机科学与人工智能实验室(CSAIL)和哈佛大学工程与应用科学学院(SEAS)的研究人员深入分析了语言模型在高风险环境中的主要问题。他们选择了经典猜测游戏“战舰”作为测试工具,该游戏长期以来被认知科学家用来研究人类如何获取信息。

研究团队对游戏进行了创新改造,设计了“协作战舰”模式:一名参与者担任“舰长”,通过自然语言提问寻找隐藏的舰船位置,另一名队友作为“观察员”实时回答这些问题。

首先,研究人员让40多名人类玩家参与游戏,收集他们的提问和是非回答,建立了“BattleshipQA”数据集。随后,他们用该数据集对比测试了最先进的语言模型(如GPT-5)和较小模型(如Llama 4 Scout)。未经专门训练的模型中,顶尖语言模型能以更少回合完成游戏,胜过人类;而小型模型表现则较为欠佳。

问题的关键在于许多模型难以提出有效的问题。为此,研究人员为每个模型引入了蒙特卡洛推理策略,动态评估不同选项的正确概率。结果显示,采用该策略的AI模型无论大小,都能击败普通玩家。

其中,Llama 4 Scout的提升尤为显著。作为相对小型的语言模型,它最初仅有8%的胜率,但经过推理策略优化后,胜率飙升至82%,不仅超过了GPT-5,还将运行成本降低至其约1%。

此外,研究团队还缩小了人类与语言模型在回答问题准确度上的差距。GPT-5作为观察员表现稳定,帮助模型更快完成游戏;而小型模型则常因错误回答舰船位置而受限。通过将问题转化为代码指令(例如让模型快速搜索指定区域以验证舰船位置),模型的回答准确率平均提升了15%。

MIT博士生兼CSAIL研究员Gabriel Grand表示:“当前语言模型主要优化于回答复杂问题,但是否能自主提出好问题尚不明确。我们的研究表明,提出信息丰富的问题依赖于预测和模拟世界的能力。赋予智能体‘世界模型’后,它们能提出更优问题,更高效地发现信息。”

研究团队首先专注于提升语言模型提问能力。通过蒙特卡洛推理,模型将潜在猜测视为独立粒子,根据观察员的回答动态调整权重,类似游戏中气球的充气与放气,使舰长能提出更具信息量的问题。

随后,科学家们利用Python语言辅助观察员回答。每个提问自动转换为编码指令,例如“第一列是否有跨两行的舰船?”被转为搜索并评估该区域的程序指令。通过这种模型擅长的明确指令,系统的正确回答率显著提升。轻量级模型GPT-4o-mini的表现提升近30%,大型模型Claude 4 Opus也提升了约8个百分点。

MIT电气工程与计算机科学副教授、CSAIL首席研究员Jacob Andreas表示:“自动形式化策略让语言模型生成代码验证答案已取得成功。令人兴奋的是,这项工作展示了利用这些技术提升模型探索和信息收集能力,从而生成更优解的可能性。我们期待将此方法推广至编码和数学问题解决等领域。”

研究团队还测试了改进后的语言模型在另一款游戏“猜猜谁?”中的表现。该游戏要求模型从100个选项中猜出隐藏角色。Llama 4 Scout的成功率从30%提升至72%,GPT-4o则从62%跃升至90%。GPT-5作为观察员确保问题回答准确。

尽管取得进展,模型在回答复杂问题上仍落后于人类。OpenAI研究员、哈佛毕业生Valerio Pepe指出:“GPT-5能击败普通‘战舰’玩家,且通过我们的方法表现略有提升,但专家玩家仍难以被所有模型超越,这与国际象棋中AI轻松战胜顶尖选手不同。”

研究结果表明,AI智能体在“针尖大海捞针”式的发现任务中潜力巨大,如科学研究中寻找稀有解决方案。尽管“协作战舰”是较简单的测试平台,研究人员希望未来能在更复杂环境中考察模型处理更多选项的能力。

Grand计划让人类与AI模型协作,研究双方合作的效果。模型也可能通过游戏模拟微调获益,更多计算资源将增强其推理能力,预测游戏发展趋势。

斯坦福大学语言学助理教授Robert Hawkins评价:“随着AI系统变得更具代理性,最难的问题是社会性问题:追踪共同认知、解决误解、适应不同伙伴。该研究在受控协作环境中优雅地捕捉了这些现象,强调AI智能体的瓶颈不仅是计算最优问题,更是利用答案的语用推理能力。”

本文由Grand和Pepe与CSAIL两位首席研究员MIT副教授Jacob Andreas及MIT教授Joshua Tenenbaum共同撰写。研究部分由MIT Siegel Family Quest for Intelligence、MIT-IBM Watson AI Lab、FinTechAI@CSAIL、Sloan研究奖学金、Intel、美国空军科研办公室、国防高级研究计划局、海军研究办公室及国家科学基金会支持。论文于4月在国际学习表征会议(ICLR)作口头报告。


分享:


发表评论

登录后才可评论。 去登录