Anthropic 发布顶级模型 Claude Opus 4.7：大幅强化高难度软件开发与长时任务能力

AI 2026-04-18 Anthropic, Claude Opus 4.7, 大模型, 软件开发, 多模态AI 62 次浏览

Anthropic 于 2026 年 4 月 16 日（当地时间）正式发布最新一代顶级模型 Claude Opus 4.7。作为 Claude 系列中定位最高端的旗舰版本，本次升级重点围绕软件工程场景展开，显著提升了模型在高难度编码任务和长时间复杂流程上的表现。

与前一版本 Opus 4.6 相比，Opus 4.7 被定位为“直接强化版”。它不仅在解决高复杂度编程问题方面更为稳定，还增强了在长流程任务中的持续推理与自我检查能力，例如在输出前对自身结果进行验证与修正，从而减少错误与疏漏。

强化高难度编码与长时复杂任务处理

在软件开发领域，Claude Opus 4.7 的能力提升尤为明显。根据官方说明，以往需要人类工程师持续盯盘、分阶段检查的复杂任务，如大型代码库重构、跨模块功能开发等，如今有更多部分可以交由模型独立完成。

在长时间运行的任务中，Opus 4.7 更擅长保持上下文一致性，能够在多轮推理中持续跟踪目标与约束条件，并在中途自动进行阶段性验证和修正。这种更“自洽”的处理方式，使其更适合承担从需求分析、设计、编码到测试的一整套流程型工作。

基准测试：多项指标全面超越 Opus 4.6

在公开的多项基准测试中，Opus 4.7 均优于 Opus 4.6。

在衡量软件开发能力的 SWE-bench Pro 上，Opus 4.7 的得分为 64.3%，相比 Opus 4.6 的 53.4% 有明显提升。
在工具调用与工具链协作能力（MCP-Atlas）方面，Opus 4.7 得分 77.3%，高于 Opus 4.6 的 75.8%。
在金融分析（Finance Agent）等其他专业任务上也有进步，显示其性能提升并非局限于单一领域，而是覆盖更广泛的实际业务场景。

■ Opus 4.7 在编码与工具使用等多项指标上均超越 Opus 4.6

实务能力升级：金融分析与文档生成更可靠

除了编码能力，Opus 4.7 在多种“可直接创造业务价值”的任务上也有明显增强。

内部评估显示：

在金融分析方面，模型能够进行更严谨的量化分析与模型构建，对复杂金融产品和市场情境的理解更为细致；
在演示文稿、业务报告、技术文档等内容生成上，结构化程度与专业度都有提升，更接近实际可用的成品质量。

在第三方评估 GDPval-AA（面向金融、法律等高价值知识工作）中，Opus 4.7 的得分同样高于 Opus 4.6，进一步验证了其在专业实务场景中的实用性。

此外，模型在利用文件系统进行“长时记忆”管理方面也有所改进，更擅长在多次会话之间保持任务连续性，适合处理跨天、跨周推进的长期项目。

■ 在衡量经济价值型知识工作的 GDPval-AA 测试中，Opus 4.7 也取得了优于 Opus 4.6 的成绩

视觉能力与多模态支持进一步增强

在多模态方面，Claude Opus 4.7 也进行了升级。模型现在支持输入最长边为 2,576 像素（约 3.75 百万像素）的高分辨率图像。

这意味着：

对复杂图表、工程图、设计稿等高密度信息图像的解析能力更强；
对包含大量文字与界面元素的高分辨率截图（如仪表盘、IDE 界面、报表系统）也能进行更精细的理解与分析。

值得注意的是，这一变更是在模型层面完成的，而非通过 API 参数配置实现。用户无需额外设置，即可直接享受更高分辨率图像处理能力。

安全性与 Mythos 系列的关系

在安全性方面，Anthropic 表示 Opus 4.7 延续了 Opus 4.6 的安全性水平，并在部分指标上略有改善。

与正在开发中的更高性能模型 Mythos Preview 相比，Opus 4.7 在某些能力（尤其是网络安全相关领域）上被有意做了限制。这是 Anthropic 为分阶段验证安全措施而采取的策略：先在更受控的模型上测试安全机制，再逐步放开更强大的能力。

同时，系统中引入了自动化滥用检测与拦截机制，一旦识别到潜在的不当使用行为，会自动阻断相关请求。对于确有正当需求的网络安全等高敏感领域用户，Anthropic 提供了专门的 Cyber Verification Program 以进行合规访问管理。

■ 不当行为的发生率在 Opus 4.7 中与 Opus 4.6 大致相当或略有改善，而 Mythos Preview 在该指标上表现最佳

上线渠道与定价策略

Claude Opus 4.7 已在 Anthropic 自家产品线及 API 中全面开放，同时也可通过多家云服务平台使用，包括：

Amazon Bedrock
Google Cloud Vertex AI
Microsoft Foundry

在定价方面，Opus 4.7 延续了 Opus 4.6 的价格：

输入：每 100 万 token 收费 5 美元
输出：每 100 万 token 收费 25 美元

这意味着用户可以在不增加成本的前提下，直接获得更高性能的模型能力。

面向开发者的功能扩展

本次发布还同步带来了多项面向开发者的新功能与增强能力：

effort 参数扩展：用于在推理质量与响应速度之间做权衡的 effort 参数新增了 "xhigh"（extra high） 选项，适合对准确性和深度要求极高的场景。
task budgets（测试版）：允许开发者对单次任务的 token 消耗进行预算与控制，便于成本管理和任务规划。
/ultrareview 代码审查功能：提供更深入、更系统化的代码审查能力，可用于发现潜在缺陷、风格问题和架构隐患。
auto mode 自动执行模式：支持在一定规则下自动连续执行多步操作，更适合构建半自动或全自动的 AI 工程代理（Agent）。

总体来看，Claude Opus 4.7 是对 Opus 4.6 的一次“正统进化”：在高难度编码、复杂业务任务、多模态理解和安全性等多个维度上全面增强，同时保持价格不变。Anthropic 也将其视作迈向更高性能 Mythos 系列模型 全面开放前的重要过渡节点。

发表评论

登录后才可评论。去登录