Anthropic 近日发布新模型 Claude Opus 4.6,作为其旗舰模型 Opus 4.5 的升级版本。Opus 4.5 于去年 11 月推出,此次更新主要面向代码开发和日常办公场景,预计将为 Anthropic 的编码助手 Claude Code 带来新功能。该产品当前正与基于 OpenAI Codex 的工具在开发者市场展开竞争。
Anthropic 表示,Opus 4.6 在编码能力、任务规划以及处理大规模信息时的推理表现上均较前代有所改进。公司称,当 Opus 4.6 用作 Claude Code 的底层模型时,该编码代理能够理解更大规模的代码库,并在何处以及如何添加新代码方面做出更周全的决策。
强调长上下文与持续任务能力
近年来,多家人工智能实验室均在开发具备更长上下文窗口的模型,以便在执行单一任务时纳入更多信息。但这些模型在有效利用长上下文方面仍存在限制,Anthropic 也在发布中提及这一问题。
Opus 产品经理 Dianne Na Penn 在接受《Fast Company》采访时表示,过去模型在处理中段内容时容易“迷失”,或遗忘部分细节。她称,Opus 4.6 并非“完美”,但团队认为其整体质量较此前版本有“相当显著”的提升。
Anthropic 介绍,Opus 4.6 更长的“记忆”能力,使其能够在复杂任务上持续工作更长时间。对于 Claude Code 用户而言,这意味着可以组织多个代理协同处理同一任务。公司还称,新版本在代码审查和调试方面有所增强,有助于模型发现并纠正自身错误。

Opus 4.6 发布之际,AI 编码工具的使用量持续上升,围绕软件开发者的竞争加剧。Anthropic 指出,OpenAI 的 Codex 编码工具近期以独立应用形式推出,由 GPT-5.2 模型驱动,并获得开发者普遍好评。
面向通用办公与知识工作
除编码场景外,Anthropic 表示,Opus 4.6 还针对日常工作任务进行了优化,包括财务分析、研究活动,以及文档、电子表格和演示文稿的创建与使用。该模型还将为 Anthropic 的通用工作工具 Cowork 提供支持,使其在较少人工监督下执行多任务。
在性能评估方面,Anthropic 称,Opus 4.6 在多项行业基准测试中取得最高分。其中包括复杂多学科推理测试“人类最后考试”(Humanity’s Last Exam)、代理编码评估 Terminal-Bench 2.0,以及衡量金融、法律等领域知识工作经济价值表现的 GDPval-AA。公司还表示,在 OpenAI 的 BrowseComp 测试中,Opus 4.6 在在线查找难以获取信息的能力上优于其他所有模型。
Anthropic 透露,Opus 4.6 已向使用 Claude Code 的开发者开放,按每百万令牌计费的价格与 Opus 4.5 相同。新模型已成为 Claude Code Pro 订阅用户的默认版本,并向其他订阅用户提供为可选配置。
