人类与机器的博弈:解开战略推理助力人工智能发展

加布里埃莱·法里纳成长于意大利北部一个丘陵葡萄酒产区的小镇。虽然他的父母都没有大学学历,且自认为“数学不行”,但他们支持他购买技术书籍,并鼓励他选择理科高中而非文科高中。

14岁时,法里纳便对一个核心理念产生了浓厚兴趣——机器能够比人类更精准地做出预测和决策。他说:“人类创造的数学和算法能够构建出在某种意义上超越创造者的系统,这种基于简单构件的复杂表现一直令我敬畏。”

16岁时,他编写代码解决了与13岁妹妹玩的棋盘游戏中的最优策略问题,“我用一局又一局的游戏计算最优走法,向妹妹证明她早已输定了,只是我们自己还没察觉。”不过妹妹对他的系统兴趣不大。

如今,法里纳是麻省理工学院电气工程与计算机科学系助理教授,同时也是信息与决策系统实验室的主要研究员。他将博弈论与机器学习、优化和统计等工具结合,推动决策理论与算法基础的发展。

大学期间,他在米兰理工大学学习自动化与控制工程,逐渐从应用技术转向理论研究,同时注重理论的实际应用。他的导师尼古拉·加蒂教授引导他进入计算博弈论领域,并鼓励他攻读博士学位。尽管当时对博士学位了解不多,毕业一个月后,他便进入卡内基梅隆大学计算机科学系攻读博士,期间获得多项研究奖项及Facebook经济与计算奖学金。

博士毕业前,他曾在Meta的基础人工智能研究实验室工作一年,参与开发了Cicero——一款能在涉及结盟、谈判及识别虚张声势的游戏中击败人类玩家的AI。法里纳解释道:“Cicero设计时确保只有在符合自身利益时才会结盟,也能判断对手是否在说谎,因为对方若按其提议行动将违背自身利益。”

《MIT科技评论》2022年文章指出,Cicero代表了AI在解决需要妥协的复杂问题上的进步。

随后,法里纳加入MIT教职,并于2025年获得美国国家科学基金会CAREER奖。他的研究基于博弈论及其数学语言,描述不同参与方目标冲突时的“均衡”状态,即无人有动力改变策略的稳定点。现实中计算此类均衡可能耗时数十亿年,他致力于通过优化和算法高效寻找这些稳定点,揭示理论数学基础,更好地控制和预测复杂动态系统,并应用于大规模多智能体交互的优良解算。

法里纳特别关注“信息不完全”的场景,即部分智能体掌握其他参与者未知的信息。在这种情况下,信息具有价值,参与者必须策略性地利用信息,避免泄露以保持其价值。扑克游戏中的虚张声势即为典型例子。

他说:“如今机器在虚张声势方面远胜人类。”

面对“海量不完全信息”的挑战,法里纳回归了他的棋盘游戏起点——战略游戏《军旗》。这是一款军事策略游戏,曾有数百万美元投入研发能击败人类顶尖玩家的系统,但一直未能实现超越人类的表现。通过新算法和不到一万美元的训练成本,法里纳团队击败了历史最佳玩家,战绩为15胜4平1负。他对此成果感到非常兴奋,并希望这些技术能被未来的AI系统广泛采用。

“我们见证了算法在面对庞大行动空间和信息不完全时,依然能进行战略推理和做出合理决策的持续进步。我期待这些算法能融入正在席卷全球的人工智能革命中。”


分享:


发表评论

登录后才可评论。 去登录