旧金山机器人初创公司 Physical Intelligence 近日公布一项新研究,称其最新模型 π0.7 能够在未针对具体任务进行显式训练的情况下,指挥机器人完成相关操作。公司研究人员表示,其中部分表现超出他们对训练数据所能推导出的预期。
迈向“通用机器人大脑”的新模型
Physical Intelligence 成立仅两年,已在湾区人工智能创业公司中受到广泛关注。公司将 π0.7 描述为其长期目标——“通用机器人大脑”的早期但重要一步。该目标指的是:机器人能够在陌生环境中,通过普通自然语言获得任务说明,并完成此前未见过的任务。
研究论文使用了较为谨慎的表述,称 π0.7 展现出“早期泛化迹象”和“新能力的初步演示”。研究团队强调,这些成果仍处于研究阶段,而非已投入市场的产品。
从“机械记忆”到组合泛化
论文核心论点是所谓“组合泛化”能力:即模型可以将不同场景中学到的技能重新组合,用于解决训练过程中从未直接遇到的新问题。
此前,机器人训练的主流路径是针对单一任务进行数据采集和模型训练,每增加一个新任务就重复这一流程。Physical Intelligence 表示,π0.7 不再完全依赖这种“机械记忆”式方法。
公司联合创始人、加州大学伯克利分校教授 Sergey Levine 指出,当模型不再局限于训练数据中的具体任务,而是能够以新方式重组既有技能时,其能力随数据规模提升的效果“超过线性”,这一更有利的扩展特性在语言和视觉等领域也曾出现。
空气炸锅实验:极少样本下的任务执行
论文中一项引人关注的实验涉及空气炸锅。研究团队回溯训练数据后发现,模型几乎没有接触过该设备:整个训练集中仅有两段相关记录——一段是另一台机器人关闭空气炸锅,另一段来自开源数据集,内容为机器人按指令将塑料瓶放入空气炸锅。
研究人员称,模型似乎将这两段有限数据与更广泛的网络预训练数据结合,形成了对空气炸锅工作方式的某种功能性理解。
Physical Intelligence 研究员、斯坦福大学计算机科学博士生 Lucy Shi 表示,很难追踪模型知识的具体来源,也难以准确预测其成功或失败的时刻。在未获得任何额外指导的情况下,模型尝试使用空气炸锅烹饪红薯,表现被描述为“尚可”;在研究人员以自然语言分步骤口头引导——类似人类向新员工解释任务的方式——进行提示后,机器人成功完成了烹饪过程。
研究团队认为,这种在语言指导下完成新任务的能力,意味着机器人在新环境中部署时,可能无需额外数据采集或重新训练模型,就能通过实时交互改进表现。
提示工程影响显著 研究者称部分失败“在我们这边”
研究人员在论文和采访中多次提及模型的局限性,并指出部分失败源自人类给出的指令方式。
Shi 提到,在一次早期空气炸锅实验中,机器人成功率最初仅约 5%。在团队花费约半小时优化任务描述和提示方式后,成功率提升至约 95%。她表示,有时问题不在机器人或模型本身,而在于“提示工程做得不好”。

目前,π0.7 仍无法在单一高层指令下自主完成复杂的多步骤任务。Levine 表示,用户尚不能简单地发出“帮我烤面包”这类抽象指令,但如果将任务拆解为“打开烤面机这一部分”“按下那个按钮”等具体步骤,模型通常能够较好地执行。
缺乏统一基准下的内部对比
研究团队同时承认,机器人领域目前缺乏被广泛接受的标准化评测基准,这使得外部验证其主张存在难度。为此,公司将 π0.7 与自身此前针对单一任务训练的专用模型进行了对比。
根据论文描述,在制作咖啡、叠衣服、组装盒子等多项复杂任务上,这一通用模型的表现与专用模型大致相当。研究人员认为,相比精心编排的单一炫技演示,能够在多类任务上展现泛化能力的系统更具代表性。
Levine提到,外界对机器人泛化演示的常见质疑是“任务太无聊”,例如“机器人没有做后空翻”。他区分了“令人印象深刻的单次演示”和“真正具备泛化能力的系统”,认为后者在形式上可能不如前者戏剧化,但在研究意义上更为关键。
研究人员自称“被模型惊到”
参与研究的 Physical Intelligence 科学家 Ashwin Balakrishna 表示,过去自己通常能根据训练数据大致判断模型的能力边界,很少感到意外。但在最近几个月,他首次明显感到“惊讶”。
他举例称,自己随意购买了一套齿轮,并向机器人发出“你能转动这个齿轮吗?”的指令,模型随后完成了该操作。在他看来,这类表现与早期大型语言模型出现的“意外组合”现象有一定相似之处。
Levine 回忆了研究人员首次看到 GPT-2 生成关于安第斯山独角兽故事时的反应,并以“它到底从哪里学到秘鲁的独角兽?”来形容当时的困惑。他认为,如今在机器人领域看到类似难以直接从训练数据推断出的组合现象,“非常特别”。
质疑与时间表:团队保持谨慎
在语言模型拥有整个互联网作为训练资源的背景下,批评者指出,机器人系统在可用数据规模上存在天然劣势,再精细的提示也难以完全弥补这一差距。
当被问及外界可能的质疑时,Levine 并未直接回应数据规模问题,而是再次提到任务设计本身的“戏剧性”与泛化能力之间的差异。
对于何时能将类似 π0.7 的系统投入实际应用,Levine 拒绝给出时间预期。他表示,进展速度“比几年前预期的要快”,但仍“很难回答”具体时间表。
融资与估值:超 10 亿美元资金支持
在资本层面,Physical Intelligence 已累计融资逾 10 亿美元,最新一轮估值约为 56 亿美元。知情人士称,公司目前正在洽谈新一轮融资,目标估值接近翻倍至约 110 亿美元。公司方面对此不予置评。
投资者对该公司的兴趣,被认为与联合创始人 Lachy Groom 的背景有关。Groom 曾是硅谷活跃的天使投资人,早期支持过 Figma、Notion 和 Ramp 等公司,随后将 Physical Intelligence 视为其长期寻找的项目。这一背景被认为有助于公司在尚未向投资者提供明确商业化时间表的情况下,仍获得大量机构资金支持。
