Anthropic 发布顶级模型 Claude Opus 4.7:大幅强化高难度软件开发与长时任务能力

Anthropic 于 2026 年 4 月 16 日(当地时间)正式发布最新一代顶级模型 Claude Opus 4.7。作为 Claude 系列中定位最高端的旗舰版本,本次升级重点围绕软件工程场景展开,显著提升了模型在高难度编码任务和长时间复杂流程上的表现。

与前一版本 Opus 4.6 相比,Opus 4.7 被定位为“直接强化版”。它不仅在解决高复杂度编程问题方面更为稳定,还增强了在长流程任务中的持续推理与自我检查能力,例如在输出前对自身结果进行验证与修正,从而减少错误与疏漏。

强化高难度编码与长时复杂任务处理

在软件开发领域,Claude Opus 4.7 的能力提升尤为明显。根据官方说明,以往需要人类工程师持续盯盘、分阶段检查的复杂任务,如大型代码库重构、跨模块功能开发等,如今有更多部分可以交由模型独立完成。

在长时间运行的任务中,Opus 4.7 更擅长保持上下文一致性,能够在多轮推理中持续跟踪目标与约束条件,并在中途自动进行阶段性验证和修正。这种更“自洽”的处理方式,使其更适合承担从需求分析、设计、编码到测试的一整套流程型工作。

基准测试:多项指标全面超越 Opus 4.6

在公开的多项基准测试中,Opus 4.7 均优于 Opus 4.6。

  • 在衡量软件开发能力的 SWE-bench Pro 上,Opus 4.7 的得分为 64.3%,相比 Opus 4.6 的 53.4% 有明显提升。
  • 在工具调用与工具链协作能力(MCP-Atlas)方面,Opus 4.7 得分 77.3%,高于 Opus 4.6 的 75.8%
  • 在金融分析(Finance Agent)等其他专业任务上也有进步,显示其性能提升并非局限于单一领域,而是覆盖更广泛的实际业务场景。

■ Opus 4.7 在编码与工具使用等多项指标上均超越 Opus 4.6 d434d15757c6abac1122af483617741776d5a114-2600x2638.jpg

实务能力升级:金融分析与文档生成更可靠

除了编码能力,Opus 4.7 在多种“可直接创造业务价值”的任务上也有明显增强。

内部评估显示:

  • 在金融分析方面,模型能够进行更严谨的量化分析与模型构建,对复杂金融产品和市场情境的理解更为细致;
  • 在演示文稿、业务报告、技术文档等内容生成上,结构化程度与专业度都有提升,更接近实际可用的成品质量。

在第三方评估 GDPval-AA(面向金融、法律等高价值知识工作)中,Opus 4.7 的得分同样高于 Opus 4.6,进一步验证了其在专业实务场景中的实用性。

此外,模型在利用文件系统进行“长时记忆”管理方面也有所改进,更擅长在多次会话之间保持任务连续性,适合处理跨天、跨周推进的长期项目。

■ 在衡量经济价值型知识工作的 GDPval-AA 测试中,Opus 4.7 也取得了优于 Opus 4.6 的成绩 9299f8b86c69359c31d15dbece4545e628bddc34-1920x1080.jpg

视觉能力与多模态支持进一步增强

在多模态方面,Claude Opus 4.7 也进行了升级。模型现在支持输入最长边为 2,576 像素(约 3.75 百万像素)的高分辨率图像。

这意味着:

  • 对复杂图表、工程图、设计稿等高密度信息图像的解析能力更强;
  • 对包含大量文字与界面元素的高分辨率截图(如仪表盘、IDE 界面、报表系统)也能进行更精细的理解与分析。

值得注意的是,这一变更是在模型层面完成的,而非通过 API 参数配置实现。用户无需额外设置,即可直接享受更高分辨率图像处理能力。

安全性与 Mythos 系列的关系

在安全性方面,Anthropic 表示 Opus 4.7 延续了 Opus 4.6 的安全性水平,并在部分指标上略有改善。

与正在开发中的更高性能模型 Mythos Preview 相比,Opus 4.7 在某些能力(尤其是网络安全相关领域)上被有意做了限制。这是 Anthropic 为分阶段验证安全措施而采取的策略:先在更受控的模型上测试安全机制,再逐步放开更强大的能力。

同时,系统中引入了自动化滥用检测与拦截机制,一旦识别到潜在的不当使用行为,会自动阻断相关请求。对于确有正当需求的网络安全等高敏感领域用户,Anthropic 提供了专门的 Cyber Verification Program 以进行合规访问管理。

■ 不当行为的发生率在 Opus 4.7 中与 Opus 4.6 大致相当或略有改善,而 Mythos Preview 在该指标上表现最佳 3a5b5c3eedb539fe20bc8dd1ecfc952c447000b8-1920x1080.jpg

上线渠道与定价策略

Claude Opus 4.7 已在 Anthropic 自家产品线及 API 中全面开放,同时也可通过多家云服务平台使用,包括:

  • Amazon Bedrock
  • Google Cloud Vertex AI
  • Microsoft Foundry

在定价方面,Opus 4.7 延续了 Opus 4.6 的价格:

  • 输入:每 100 万 token 收费 5 美元
  • 输出:每 100 万 token 收费 25 美元

这意味着用户可以在不增加成本的前提下,直接获得更高性能的模型能力。

面向开发者的功能扩展

本次发布还同步带来了多项面向开发者的新功能与增强能力:

  • effort 参数扩展:用于在推理质量与响应速度之间做权衡的 effort 参数新增了 "xhigh"(extra high) 选项,适合对准确性和深度要求极高的场景。
  • task budgets(测试版):允许开发者对单次任务的 token 消耗进行预算与控制,便于成本管理和任务规划。
  • /ultrareview 代码审查功能:提供更深入、更系统化的代码审查能力,可用于发现潜在缺陷、风格问题和架构隐患。
  • auto mode 自动执行模式:支持在一定规则下自动连续执行多步操作,更适合构建半自动或全自动的 AI 工程代理(Agent)。

总体来看,Claude Opus 4.7 是对 Opus 4.6 的一次“正统进化”:在高难度编码、复杂业务任务、多模态理解和安全性等多个维度上全面增强,同时保持价格不变。Anthropic 也将其视作迈向更高性能 Mythos 系列模型 全面开放前的重要过渡节点。


分享:


发表评论

登录后才可评论。 去登录