Sakana AI 推出多模型协作系统「Sakana Fugu」：在部分基准测试中超越 Mythos Preview

AI 2026-06-24 Sakana AI, 多智能体系统, 大语言模型, AI 编排, 基准测试 4 次浏览

Sakana AI 于 2026 年 6 月 22 日正式发布全新的多模型协作 AI 系统「Sakana Fugu」，通过动态组合多个 AI 模型来处理复杂任务，并以商用 API 的形式对外提供服务。

画像の出典：sakanaAI{target=“_blank”}

Sakana Fugu 采用多智能体（Multi-Agent）架构，将多个具备不同专长的模型整合在一个统一接口之下。对用户而言，只需像调用单一模型那样发出指令；在系统内部，Fugu 会根据任务内容自动选择合适的模型，进行分工协作与结果整合。 ## 在单一 API 中利用多模型“集合智能” 与传统的“在多个基础模型之间切换”不同，Sakana Fugu 的核心在于：让各模型发挥各自优势，通过协作来完成任务。用户无需自行管理不同模型的 API Key、路由策略或调用逻辑，这些工作都由 Fugu 自动完成，包括： - 选择适合的基础模型 - 将任务拆分并委派给不同模型 - 对中间结果进行验证 - 汇总并统一输出最终回答 Sakana AI 早在 2026 年 4 月就启动了 Sakana Fugu 的 β 测试。在测试阶段，小型模型会“学习如何调用外部 LLM”，并在需要时再次调用自身，从而形成一种自我调用与外部协作并存的编排机制。本次正式发布，意味着这一套模型编排与协作机制已经以稳定的商用 API 形态对外开放。 ## 提供 Fugu 与 Fugu Ultra 两种型号 Sakana Fugu 系列目前包括两款模型： - 标准版 **Fugu** - 高难度任务向的 **Fugu Ultra** 两者均可通过与 OpenAI 兼容的 API 接口进行调用。 ### Fugu：注重速度与实用性的标准版 Fugu 更强调性能与响应速度的平衡，适合需要高交互性和实时性的日常场景，例如： - 编码与代码审查 - 日常对话型聊天机器人 - 需要快速反馈的业务辅助工具在数据合规与隐私方面，用户可以根据自身的安全、隐私或合规要求，将特定模型或云服务提供商从 Fugu 的“代理池”（agent pool）中排除，避免这些模型参与任务处理。 ### Fugu Ultra：面向复杂任务的高精度版 Fugu Ultra 则优先追求回答质量与推理深度。它会调用更大、更广泛的专业代理池，适用于多阶段、复杂度高的任务，例如： - 学术论文复现与结果验证 - Kaggle 等数据科学竞赛任务 - 网络安全分析与威胁研判 - 文献与专利检索、综述与比对在这些场景中，Fugu Ultra 更看重准确性与分析深度，而非单纯的响应速度。 ## 在部分基准测试中超越 Mythos Preview 在定量评估方面，Fugu Ultra 在多项基准测试中取得了较高分数： - SWE Bench Pro：73.7 - TerminalBench 2.1：82.1 - LiveCodeBench：93.2 - GPQA-D：95.5 标准版 Fugu 也在若干测试中表现不俗： - LiveCodeBench：92.9 - GPQA-D：95.5 - SciCode：60.1 **■ Fugu / Fugu Ultra 与多款前沿模型的基准对比**

画像の出典：sakanaAI{target=“_blank”}

从官方公布的对比结果来看，Fugu Ultra 在 SWE Bench Pro、TerminalBench 2.1、LiveCodeBench、CharXiv Reasoning 等多项指标上取得了较高分数。但在 SciCode、Humanity’s Last Exam 等基准上，仍有其他对比模型表现更优。因此，这一轮评估并非宣称 Fugu Ultra 在所有维度“全面领先”，而是表明：在代码、推理以及部分科学任务等特定领域，Fugu 系列已经具备与前沿模型竞争的实力。 **■ SWE Bench Pro、TerminalBench 2.1、LiveCodeBench 等详细得分**

画像の出典：sakanaAI{target=“_blank”}

需要注意的是，对比模型的分数均来自各模型提供方公开的数据。Fable 5 与 Mythos Preview 并未被纳入 Fugu 的代理池中，Fugu / Fugu Ultra 在内部也不会调用这些模型，因此不存在“借用对手模型提升成绩”的情况。 ## 以研究成果为基础，将多模型协作落地为产品 Sakana Fugu 的设计，直接建立在 Sakana AI 两篇被 ICLR 2026 录用的论文之上： - 《TRINITY: An Evolved LLM Coordinator》 - 《Learning to Orchestrate Agents in Natural Language with the Conductor》在 TRINITY 中，研究者提出了一种轻量级协调器，将多个 LLM 分配为不同角色： - **Thinker**：负责思考与规划 - **Worker**：负责具体执行 - **Verifier**：负责检查与验证而 Conductor 则通过强化学习，自动学习多 LLM 协作策略，包括： - 代理之间如何通信 - 何时调用哪一个模型 - 应该以何种方式向各模型下达指令 Sakana Fugu 可以被视为这些研究成果的产品化版本。它并非单纯追求“把单一模型做得更大”，而是通过多个模型的组合与协作来提升整体性能与灵活性，并以商用 API 的形式提供给开发者与企业。 ## 订阅制与按量计费并行的收费模式在价格体系上，Sakana Fugu 同时提供订阅制与按量计费两种方式。 ### 月度订阅方案订阅方案分为 Standard、Pro、Max 三档。官方表示，在所有月度订阅档位中，用户都可以使用 Fugu 与 Fugu Ultra 两种模型，区别主要体现在额度与配额等方面。 ### 按量计费方案在按量计费模式下： - Fugu 按其调用到的“最高等级模型”设定单一费率计费，即便在内部同时调度多个代理，也不会将各模型费用简单叠加。 - Fugu Ultra 的型号 **fugu-ultra-20260615** 定价为： - 每 100 万输入 Token：5 美元 - 每 100 万输出 Token：30 美元 - 每 100 万缓存输入 Token：0.50 美元当上下文长度超过 272K Token 时，将适用更高的计费标准。 ## 地域限制与模型透明度 Sakana Fugu 目前支持日本以外地区的访问，但不向欧盟（EU）及欧洲经济区（EEA）成员国提供服务。在官方 FAQ 中，Sakana AI 也明确表示： - 出于技术与商业机密考虑，不会对外公开每一次请求具体调用了哪些基础模型； - 模型选择与编排逻辑被视为其核心技术的一部分，不对外披露实现细节。

发表评论

登录后才可评论。去登录