专访谷歌DeepMind首席执行官Demis Hassabis:从棋盘游戏到人工智能“珠穆朗玛峰”

richlovec 1500_400 (1)
 

1988年,伦敦一名少年在自家Amiga 500家用电脑上,为经典棋盘游戏黑白棋(又称翻转棋)编写了一个软件版本。对当时的他而言,让程序学会下棋是一项雄心勃勃的编程尝试。这个少年就是后来创立DeepMind的Demis Hassabis。

他回忆称,这款黑白棋程序“击败了我当时只有五岁的弟弟”。这一经历成为他对人工智能兴趣的起点。“那是我的‘啊哈’时刻,因为我当时想,‘哇,居然能做出一个无生命的程序,它能代表你去做事情,真是不可思议。’”

多年之后,这一早期体验被证明具有决定性意义。Hassabis在2010年共同创立了人工智能初创公司DeepMind。在被谷歌于2014年收购前后,这家公司在推动人工智能技术发展方面发挥了重要作用。2023年,谷歌将DeepMind与其另一人工智能部门Google Brain合并,组建为Google DeepMind,并任命Hassabis出任首席执行官。他目前负责的人工智能模型Gemini,已成为谷歌面向数十亿用户产品体系的核心组成部分。

在DeepMind的研究成果广泛应用之前,这家公司最初是一家专注于训练算法玩游戏的实验室。这一方向与Hassabis早年的黑白棋项目一脉相承,也延续了人工智能研究的传统——自该领域诞生以来,游戏一直被视为重要的试验平台。Hassabis表示,游戏之所以是强有力的研究工具,是因为它们是“现实生活中某些重要事物的缩影”,“我们可以在一个既严肃又不那么严肃的环境中反复练习”。

AlphaGo与“现代人工智能时代”的起点

上个月,人工智能研究史上的一个关键节点迎来十周年纪念。2016年3月9日至15日,在首尔举行的一场围棋人机大战中,DeepMind开发的AlphaGo以4比1战胜了当时的围棋世界冠军李世石。Hassabis曾将中国古老的围棋称为“游戏人工智能的珠穆朗玛峰”。在此之前,多年来计算机程序在围棋上的表现长期停留在较低水平。

Hassabis认为,这场胜利的影响远超当时少数关注者的预期。“也许,现在回头看,那是我们所认为的现代人工智能时代的开端,”他表示。这一事件被视为人工智能能力跃升的直观证明。随后,谷歌大脑团队于2017年6月发表了关于“transformers”的研究论文,为后来的生成式人工智能奠定了基础。

AlphaGo的成功也成为DeepMind发展的转折点。围棋这一长期被视为“珠穆朗玛峰”的目标被攻克后,游戏领域不再有同等象征意义的挑战。DeepMind开始将注意力转向更具现实影响力的问题。

2018年,DeepMind发布了蛋白质结构预测算法AlphaFold的首个版本。这一成果被认为在药物发现和材料研究等领域具有变革性意义,并促使谷歌母公司Alphabet成立了新公司Isomorphic Labs。Hassabis与DeepMind科学家John Jumper因在该领域的工作,共同获得2024年诺贝尔化学奖。

目前,Google DeepMind在其官网上展示了涵盖多个方向的研究项目,包括天气预测、量子纠错以及海豚交流研究等。尽管研究范围已大幅拓展,Hassabis在谈及游戏时并未将其视为过去式。他在回顾AlphaGo胜利背后的长期积累时,表现出的投入程度与谈论Google DeepMind当前项目时相当。他表示,游戏是最早激发他对人工智能想象力的领域,其中积累的经验至今仍然适用。

“从16、17岁起,我就很清楚人工智能将是我职业生涯的方向,”他说,“如果它能成功,那将是史上最伟大的事情。”

从棋类神童到游戏设计师

在Amiga电脑上编写黑白棋程序之前,Hassabis已是棋盘游戏老手。他四岁开始学习国际象棋,八岁时通过比赛奖金购买了自己的第一台电脑。13岁时,他在14岁以下组别中位列世界第二,仅次于著名棋手Judit Polgár。

Hassabis认为,作为国际象棋神童的经历锻炼了他的解题能力、形象思维以及在压力下保持清晰思考的能力,也显著增强了自信心。“五六岁时,孩子们能在最高水平与成年人竞争的事情不多,”他表示。他建议将国际象棋纳入学校课程,并至今仍在深夜在线下棋,将其视为“心智的健身房”。

17岁时,他通过参加Amiga用户杂志举办的比赛,获得了游戏工作室Bullfrog的实习机会。不久后,他参与共同创作了游乐园模拟游戏《主题公园》。这款游戏销量达数千万份。

与传统棋盘游戏或当时大多数电脑游戏不同,《主题公园》为玩家提供了开放式的经营体验。玩家不仅可以选择游乐设施,还要负责定价、雇佣员工、经营小吃摊、出售股票等,借助算法驱动的系统优化业务运营。

Hassabis回忆称,看到游戏中出现并未被明确编程的行为令他印象深刻。“关键是每次有人玩游戏时,体验都是独一无二的,因为人工智能会根据他们的玩法做出反应,”他说。他提到,团队曾收到儿童玩家寄来的截图,展示他们构建的复杂终局乐园,“即使是我们做游戏的人,也没想到能做到那样”。

从《主题公园》发布到DeepMind成立,中间相隔16年。其间,Hassabis完成了计算机科学学士学位和认知神经科学博士学位,并多次回到游戏行业工作。

Atari游戏与深度强化学习

2010年前后,Hassabis与Shane Legg、Mustafa Suleyman共同创办DeepMind。他们设定的长期目标,是开发在典型人类任务上至少能匹敌人类认知能力的算法。Legg将这一目标称为“人工通用智能”(AGI),这一术语随后被整个领域广泛采用。

在公司初创阶段,三位联合创始人选择了一个相对可控的切入点:训练人工智能在早期Atari家用游戏机上的经典游戏中取得优异表现,包括《乒乓球》《打砖块》和《太空入侵者》等。

这一尝试在当时并非被普遍看好。“我们可能早了20年,”Hassabis回忆,“没人知道结果,所以我们必须尝试。”这些诞生于20世纪70年代的极简游戏,在项目初期并未带来立竿见影的成果。“赢得乒乓球游戏的第一分花了几个月,”他说。最终,系统实现了以21比0获胜,“一年后,我们能玩所有Atari游戏”。

DeepMind在Atari项目中采用的关键技术是深度强化学习。这一方法随后在游戏之外的人工智能应用中得到广泛使用。随着在Atari游戏上取得进展,DeepMind开始将目光转向围棋。

围棋“珠穆朗玛峰”与“37手”

从简单的Atari游戏跨越到复杂的围棋,看似跨度巨大,但在人工智能研究者看来,这一转向具有一定必然性。自20世纪70年代以来,围棋一直被视为人工智能研究中的大胆目标。Hassabis本人虽只是业余围棋爱好者,但这一目标在他脑海中存在了约20年。

在剑桥大学攻读本科学位期间,他曾与同学David Silver讨论人工智能与围棋。2008年,Silver参与开发的程序MoGo在让子条件下,成为首个击败职业围棋选手的软件。Silver后来加入DeepMind,参与Atari项目,并领导了AlphaGo的开发工作。

在IBM“深蓝”战胜当时的国际象棋世界冠军加里·卡斯帕罗夫之前,国际象棋人工智能也经历了数十年的探索。但与围棋相比,国际象棋的复杂度要低得多。Hassabis指出,围棋可能的棋盘布局数量约为10的170次方,远超宇宙中原子的数量,这使得类似“深蓝”那样依靠穷举搜索的策略在围棋上难以奏效。

DeepMind最终采用了深度神经网络结合强化学习的方法,仅在围棋棋盘上探索具有意义的落子选择。Hassabis将这种方式比作赋予算法“人类直觉”。不同之处在于,AlphaGo能够在此基础上考虑远超人类棋手的数据量,从而做出既出人意料又极具效果的决策。

这一点在AlphaGo与李世石的第二局比赛中得到集中体现。比赛早期,AlphaGo在第37手落下一子,这一手后来被广泛称为“37手”。当时在场观战者一度怀疑,负责在棋盘上代为落子的DeepMind科学家黄士杰是否出现失误。

Hassabis回忆称,“李世石选择那个时刻去阳台抽烟,他回来看到37手,脸色变化,既惊讶又困惑。”在场各方都清楚,没有人类顶尖棋手会选择这样的下法。但直到比赛后期,才逐渐显现出这手棋的意义。

最终证明,“37手”在整局棋中起到了关键作用。“几乎就像AlphaGo为100手之后的胜利布下了这颗棋子,”Hassabis说。他认为,这不仅是一手不同寻常的棋,更是赢棋的关键布局,“这使它成为历史上最伟大的围棋手之一”。

2017年上映的纪录片《AlphaGo》详细记录了这场比赛。“37手”此后成为课程、演讲、博客和播客中的常见案例,被认为是迄今为止人工智能领域被分析最多的单一决策之一。

从游戏到科学:AlphaFold与Gemini

在Hassabis看来,如果“37手”只是棋盘上的精彩一招,其意义不会如此突出。AlphaGo通过这手棋展示了人工智能不仅可以模拟人类思维,还可以在某些维度上超越人类。DeepMind当初选择围棋,正是希望在更高层次的推理能力上取得突破。

后续研究项目如AlphaFold,同样被设计为在现实世界中产生类似的“跃迁效应”。“现实世界比游戏难多了,”Hassabis表示,“但你需要在数据中发现新的洞见或结构。这正是科学所追求的。”他补充称,这种类似“37手”的思维方式,也体现在谷歌当前的产品中,例如针对科学、数学和工程应用优化的Gemini Deep Think版本。

在谈及“37手”时,Hassabis毫不犹豫地将其称为“创造性”的体现。但他同时强调,这与人类最具灵感的创造力仍有差距。“这不是纯粹的原创创造,”他指出。如果要达到那一层级,应该是“告诉人工智能系统,‘设计一个优雅的游戏,玩一局只需几小时,学规则只需五分钟,但要精通则需数代人时间,而且极具深奥美感。’”

在他看来,要证明人工智能具备真正意义上的创造力,不仅要能下出类似“37手”的妙招,还需要能够发明出像围棋一样深邃且富有美感的全新游戏。“显然,现有系统还远未达到那个水平。”这为Google DeepMind及其他研究机构设定了新的长期目标,也意味着在人类设计复杂规则体系这一领域,人工智能距离“珠穆朗玛峰”仍有相当距离。


分享:


发表评论

登录后才可评论。 去登录