通过玩“战舰游戏”教AI智能体提出更优问题

AI 2026-06-04 人工智能, 语言模型, 蒙特卡洛推理, 协作游戏, 机器学习 18 次浏览

2026年，人工智能智能体的热度空前高涨。这些半自主程序能够“思考”并执行诸如客户服务和软件开发等明确任务，通常依赖语言模型（LMs）。然而，在医疗诊断和科学发现等领域，AI需要在不确定环境中探索大量解决方案，这正是语言模型的弱项。

麻省理工学院计算机科学与人工智能实验室（CSAIL）和哈佛大学工程与应用科学学院（SEAS）的研究人员深入分析了语言模型在高风险环境中的主要问题。他们选择了经典猜测游戏“战舰”作为测试工具，该游戏长期以来被认知科学家用来研究人类如何获取信息。

研究团队对游戏进行了创新改造，设计了“协作战舰”模式：一名参与者担任“舰长”，通过自然语言提问寻找隐藏的舰船位置，另一名队友作为“观察员”实时回答这些问题。

首先，研究人员让40多名人类玩家参与游戏，收集他们的提问和是非回答，建立了“BattleshipQA”数据集。随后，他们用该数据集对比测试了最先进的语言模型（如GPT-5）和较小模型（如Llama 4 Scout）。未经专门训练的模型中，顶尖语言模型能以更少回合完成游戏，胜过人类；而小型模型表现则较为欠佳。

问题的关键在于许多模型难以提出有效的问题。为此，研究人员为每个模型引入了蒙特卡洛推理策略，动态评估不同选项的正确概率。结果显示，采用该策略的AI模型无论大小，都能击败普通玩家。

其中，Llama 4 Scout的提升尤为显著。作为相对小型的语言模型，它最初仅有8%的胜率，但经过推理策略优化后，胜率飙升至82%，不仅超过了GPT-5，还将运行成本降低至其约1%。

此外，研究团队还缩小了人类与语言模型在回答问题准确度上的差距。GPT-5作为观察员表现稳定，帮助模型更快完成游戏；而小型模型则常因错误回答舰船位置而受限。通过将问题转化为代码指令（例如让模型快速搜索指定区域以验证舰船位置），模型的回答准确率平均提升了15%。

MIT博士生兼CSAIL研究员Gabriel Grand表示：“当前语言模型主要优化于回答复杂问题，但是否能自主提出好问题尚不明确。我们的研究表明，提出信息丰富的问题依赖于预测和模拟世界的能力。赋予智能体‘世界模型’后，它们能提出更优问题，更高效地发现信息。”

研究团队首先专注于提升语言模型提问能力。通过蒙特卡洛推理，模型将潜在猜测视为独立粒子，根据观察员的回答动态调整权重，类似游戏中气球的充气与放气，使舰长能提出更具信息量的问题。

随后，科学家们利用Python语言辅助观察员回答。每个提问自动转换为编码指令，例如“第一列是否有跨两行的舰船？”被转为搜索并评估该区域的程序指令。通过这种模型擅长的明确指令，系统的正确回答率显著提升。轻量级模型GPT-4o-mini的表现提升近30%，大型模型Claude 4 Opus也提升了约8个百分点。

MIT电气工程与计算机科学副教授、CSAIL首席研究员Jacob Andreas表示：“自动形式化策略让语言模型生成代码验证答案已取得成功。令人兴奋的是，这项工作展示了利用这些技术提升模型探索和信息收集能力，从而生成更优解的可能性。我们期待将此方法推广至编码和数学问题解决等领域。”

研究团队还测试了改进后的语言模型在另一款游戏“猜猜谁？”中的表现。该游戏要求模型从100个选项中猜出隐藏角色。Llama 4 Scout的成功率从30%提升至72%，GPT-4o则从62%跃升至90%。GPT-5作为观察员确保问题回答准确。

尽管取得进展，模型在回答复杂问题上仍落后于人类。OpenAI研究员、哈佛毕业生Valerio Pepe指出：“GPT-5能击败普通‘战舰’玩家，且通过我们的方法表现略有提升，但专家玩家仍难以被所有模型超越，这与国际象棋中AI轻松战胜顶尖选手不同。”

研究结果表明，AI智能体在“针尖大海捞针”式的发现任务中潜力巨大，如科学研究中寻找稀有解决方案。尽管“协作战舰”是较简单的测试平台，研究人员希望未来能在更复杂环境中考察模型处理更多选项的能力。

Grand计划让人类与AI模型协作，研究双方合作的效果。模型也可能通过游戏模拟微调获益，更多计算资源将增强其推理能力，预测游戏发展趋势。

斯坦福大学语言学助理教授Robert Hawkins评价：“随着AI系统变得更具代理性，最难的问题是社会性问题：追踪共同认知、解决误解、适应不同伙伴。该研究在受控协作环境中优雅地捕捉了这些现象，强调AI智能体的瓶颈不仅是计算最优问题，更是利用答案的语用推理能力。”

本文由Grand和Pepe与CSAIL两位首席研究员MIT副教授Jacob Andreas及MIT教授Joshua Tenenbaum共同撰写。研究部分由MIT Siegel Family Quest for Intelligence、MIT-IBM Watson AI Lab、FinTechAI@CSAIL、Sloan研究奖学金、Intel、美国空军科研办公室、国防高级研究计划局、海军研究办公室及国家科学基金会支持。论文于4月在国际学习表征会议（ICLR）作口头报告。

发表评论

登录后才可评论。去登录