OpenAI 推出 GPT-5.3-Codex 扩展编码代理至更广泛工作场景

richlovec 1500_400 (1)
 

周四,OpenAI 发布新模型 GPT-5.3-Codex,将其 Codex 编码代理从单纯的代码编写与审查工具,扩展为可执行更广泛工作任务的通用型模型。此次发布发生在多家人工智能公司加速布局 AI 编码工具、争夺市场份额的背景之下。

OpenAI 表示,GPT-5.3 结合了 GPT-5.2-Codex 的编码性能以及 GPT-5.2 的推理和专业知识能力,同时在运行速度上提升约 25%。据介绍,这一组合使 GPT-5.3-Codex 能够处理更长期、更复杂的任务,包括研究、工具调用(如网络搜索或数据库访问)、复杂执行与规划,覆盖一般办公类任务以及软件开发相关工作。

OpenAI 称,其 Codex 产品目前已覆盖超过 100 万名开发者。与此同时,Anthropic 推出的 Claude Code 也在快速被采用,但两者在实际使用中的直接对比数据仍然有限。研究机构 SemiAnalysis 的报告显示,目前约有 4% 的 GitHub 公开提交代码由 Claude Code 生成,并预计这一比例在 2026 年底可能升至 20% 或更高。

基准测试表现

在模型能力评估方面,OpenAI 表示,GPT-5.3-Codex 在 SWE-Bench Pro 基准测试中取得了当前所有模型中的最高分。SWE-Bench Pro 主要用于评估模型在多种编程语言下处理真实软件工程任务的能力。OpenAI 还称,该模型在衡量编码代理终端操作能力的 Terminal-Bench 2.0 测试中同样取得了最高成绩。

同日,Anthropic 表示,其新发布的 Claude Opus 4.6 模型在多项行业基准中获得最高分,包括用于评估复杂多学科推理的 Humanity’s Last Exam、衡量经济价值型知识工作表现的 GDPval-AA,以及测试难以检索信息搜索能力的 BrowseComp。

OpenAI 介绍,GPT-5.3-Codex 在执行任务时可以在更大信息范围内进行综合考量,并能在无人干预的情况下对任务进行更长时间的推理。在内部测试中,OpenAI 观察到,该模型可以基于“修复错误”或“改进游戏”等较为笼统的指令,在数百万个 token 的规模上持续迭代游戏开发过程。

Anthropic 则表示,其 Opus 4.6 模型能够理解更大规模的代码库,并在如何添加新代码方面做出更为审慎的决策。

OpenAI 称,GPT-5.3-Codex 被设计用于覆盖完整的软件开发生命周期,包括调试、部署和监控代码,以及撰写产品需求文档和开展相关研究工作。

应用场景延伸至知识工作

OpenAI 表示,支撑 Codex 编码能力的同一套代理机制也被用于软件开发以外的任务,例如制作演示文稿、分析电子表格数据等更广泛的知识工作场景。

在 GDPval 评估中(该评估覆盖 44 个职业的明确知识工作任务),GPT-5.3-Codex 的整体表现与 GPT-5.2 相当,同时在编码方面具备更强能力。在评估视觉桌面环境下计算机使用能力的 OSWorld-Verified 测试中,GPT-5.3-Codex 的准确率为 64.7%,高于其前一代模型的 38.2%。

Anthropic 方面也表示,正在将 Claude Code 工具向更广泛的信息工作场景延展,目标是协助更多类型的知识工作者完成多样化的业务任务。

网络安全与开放计划

OpenAI 指出,GPT-5.3-Codex 是其在内部准备框架下首个被归类为在网络安全相关任务上具备“高能力”的模型,也是首个经过专门训练以识别软件漏洞的模型。OpenAI 表示,将提供价值 1000 万美元的 API 额度,用于支持网络防御相关应用,重点面向开源软件和关键基础设施系统。

目前,GPT-5.3-Codex 已向付费 ChatGPT 订阅用户开放,可通过 Codex 应用、命令行界面、集成开发环境(IDE)扩展以及网页端使用。OpenAI 称,正推进尽快开放该模型的 API 访问权限,面向企业客户和独立开发者。


分享:


发表评论

登录后才可评论。 去登录