谷歌DeepMind开放Project Genie测试:AI生成交互式游戏世界

richlovec 1500_400 (1)
 

Google DeepMind近日开始向部分用户开放其实验性AI工具Project Genie,允许用户通过文本提示或图像生成可交互的游戏世界。

从周四起,美国地区的Google AI Ultra订阅用户可体验这一研究原型。DeepMind表示,Project Genie由其最新世界模型Genie 3、图像生成模型Nano Banana Pro以及Gemini共同驱动。

距Genie 3研究预览发布约五个月,DeepMind称,此次开放测试是其加速开发更强大世界模型、并通过真实用户使用收集反馈和训练数据的更广泛举措之一。

世界模型竞赛升温

DeepMind介绍,世界模型是一类能够在内部构建环境表征的AI系统,可用于预测未来结果和规划行动。包括DeepMind在内的一些研究机构认为,世界模型是迈向人工通用智能(AGI)的关键环节之一。

在当前阶段,相关实验室规划的应用路径主要集中在视频游戏和其他娱乐内容上,随后再扩展到在模拟环境中训练具身代理(如机器人)。

DeepMind推出Project Genie之际,世界模型领域的竞争正在加剧。李飞飞创立的World Labs在去年底发布了首款商业产品Marble;AI视频生成初创公司Runway近期也推出了世界模型;前Meta首席科学家Yann LeCun创立的AMI Labs同样将世界模型作为重点方向。

DeepMind研究总监Shlomi Fruchter在接受TechCrunch视频采访时表示,对让更多用户参与测试并提供反馈“感到兴奋”,并对Project Genie的公开测试抱有期待。

生成流程与使用限制

据DeepMind研究人员介绍,Project Genie目前仍处于实验阶段,生成效果并不稳定:有时能生成结构清晰、可玩性较高的世界,有时则会出现结果混乱的情况。

在使用流程上,用户首先通过文本提示提供“世界草图”,包括环境设定和主角形象,随后可选择以第一人称或第三人称视角操控主角在世界中移动。Nano Banana Pro会根据提示生成一张图像,用户理论上可以对该图像进行修改,然后Genie再以此图像为基础构建交互式世界。

DeepMind称,图像编辑功能在多数情况下有效,但模型偶尔会出现偏差,例如用户指定绿色头发却生成了紫色。用户也可以上传真实照片作为构建世界的基础,不过效果“时好时坏”。

当用户对图像满意后,Project Genie会在数秒内生成一个可探索的世界。用户还可以基于已有提示进行再创作,在画廊中浏览策划好的世界,或通过随机生成工具寻找灵感。完成探索后,用户可以下载一段记录该世界的短视频。

目前,DeepMind仅允许生成和导航时长为60秒的世界。DeepMind解释称,这一限制与预算和算力资源有关。由于Genie 3采用自回归架构,计算成本较高,限制时长有助于在既定资源下服务更多用户。

Fruchter表示,限制在60秒“是为了让更多用户能够使用”,因为在用户会话期间,会有一块芯片专门用于该用户的计算。他补充称,进一步延长时长在当前测试阶段的增量价值有限。

他同时指出,由于交互程度有限,这些环境的动态性也受到约束,这是团队认为需要改进的方向之一。

安全与内容风格表现

在实际测试中,Project Genie已启用多项安全防护措施。测试者表示,无法生成任何接近裸体的内容,也无法生成带有迪士尼或其他受版权保护素材特征的世界。去年12月,迪士尼曾向谷歌发出停止侵权通知,指控其AI模型通过训练迪士尼角色和知识产权生成未经授权内容等行为侵犯版权。测试者称,甚至无法生成“美人鱼探索水下奇幻世界”或“冰雪女王在冬季城堡”的场景。

在风格表现方面,Project Genie在艺术化世界生成上表现较为突出。测试者称,模型在水彩画、动漫风格或经典卡通美学等提示下,能够生成风格统一、细节丰富的世界。例如,在提示构建“由棉花糖组成的云端城堡,周围有巧克力酱河流和糖果树,并以黏土动画风格呈现”时,模型生成了一个色彩柔和、结构完整的幻想世界。

但在追求照片级真实感或电影级画面时,模型表现不如艺术风格稳定,生成结果更接近电子游戏画面,而非逼真的人物和场景。

真实照片与交互性表现

在基于真实照片生成世界方面,Project Genie的表现存在差异。测试者向模型提供了一张办公室照片,并要求严格基于该照片构建世界。生成结果中,部分家具元素如木桌、植物和灰色沙发得以保留,但整体布局发生变化,场景呈现出较为冷清、数字化的效果。

在另一项测试中,用户上传了一张桌面与毛绒玩具的照片。Project Genie在生成的世界中让毛绒玩具在空间中移动,并在玩具经过时让其他物体偶尔做出反应,交互性有所体现。

DeepMind表示,团队正在努力提升交互性。目前,角色仍会出现穿墙或穿越其他实体物体的情况。

在Genie 3最初发布时,研究人员曾强调其自回归架构能够“记住”已生成内容。测试者在返回已探索环境的部分区域时发现,大多数情况下场景保持一致。但也出现了局部差异,例如在一段“猫探索桌面”的场景中,只有当视角转向桌子右侧时,模型才生成第二个杯子。

操作体验与后续方向

在操作体验方面,测试者使用方向键环视、空格键跳跃或上升、W-A-S-D键移动角色。对于不熟悉游戏操作的用户而言,这一控制方式被认为不够直观,且按键有时无响应或导致移动方向偏差,尝试从房间一侧走向门口时,常出现路线混乱的情况。

Fruchter表示,团队已注意到这些问题,并再次强调Project Genie目前仍是实验性原型。未来,团队希望在现实感和交互能力方面进行改进,包括为用户提供更多对动作和环境的控制权。

他称,DeepMind并不将Project Genie视为“用户会每天回归的端到端产品”,但认为该项目已经展示出其他方式难以实现的“独特且有趣的潜力”。


分享:


发表评论

登录后才可评论。 去登录