OpenAI 推出 GPT-5.3-Codex 扩展编码代理至更广泛工作场景

商业 2026-03-14 商业现场 OpenAI, 大模型, 编码工具, 企业技术, 网络安全 68 次浏览

周四，OpenAI 发布新模型 GPT-5.3-Codex，将其 Codex 编码代理从单纯的代码编写与审查工具，扩展为可执行更广泛工作任务的通用型模型。此次发布发生在多家人工智能公司加速布局 AI 编码工具、争夺市场份额的背景之下。

OpenAI 表示，GPT-5.3 结合了 GPT-5.2-Codex 的编码性能以及 GPT-5.2 的推理和专业知识能力，同时在运行速度上提升约 25%。据介绍，这一组合使 GPT-5.3-Codex 能够处理更长期、更复杂的任务，包括研究、工具调用（如网络搜索或数据库访问）、复杂执行与规划，覆盖一般办公类任务以及软件开发相关工作。

OpenAI 称，其 Codex 产品目前已覆盖超过 100 万名开发者。与此同时，Anthropic 推出的 Claude Code 也在快速被采用，但两者在实际使用中的直接对比数据仍然有限。研究机构 SemiAnalysis 的报告显示，目前约有 4% 的 GitHub 公开提交代码由 Claude Code 生成，并预计这一比例在 2026 年底可能升至 20% 或更高。

基准测试表现

在模型能力评估方面，OpenAI 表示，GPT-5.3-Codex 在 SWE-Bench Pro 基准测试中取得了当前所有模型中的最高分。SWE-Bench Pro 主要用于评估模型在多种编程语言下处理真实软件工程任务的能力。OpenAI 还称，该模型在衡量编码代理终端操作能力的 Terminal-Bench 2.0 测试中同样取得了最高成绩。

同日，Anthropic 表示，其新发布的 Claude Opus 4.6 模型在多项行业基准中获得最高分，包括用于评估复杂多学科推理的 Humanity’s Last Exam、衡量经济价值型知识工作表现的 GDPval-AA，以及测试难以检索信息搜索能力的 BrowseComp。

OpenAI 介绍，GPT-5.3-Codex 在执行任务时可以在更大信息范围内进行综合考量，并能在无人干预的情况下对任务进行更长时间的推理。在内部测试中，OpenAI 观察到，该模型可以基于“修复错误”或“改进游戏”等较为笼统的指令，在数百万个 token 的规模上持续迭代游戏开发过程。

Anthropic 则表示，其 Opus 4.6 模型能够理解更大规模的代码库，并在如何添加新代码方面做出更为审慎的决策。

OpenAI 称，GPT-5.3-Codex 被设计用于覆盖完整的软件开发生命周期，包括调试、部署和监控代码，以及撰写产品需求文档和开展相关研究工作。

应用场景延伸至知识工作

OpenAI 表示，支撑 Codex 编码能力的同一套代理机制也被用于软件开发以外的任务，例如制作演示文稿、分析电子表格数据等更广泛的知识工作场景。

在 GDPval 评估中（该评估覆盖 44 个职业的明确知识工作任务），GPT-5.3-Codex 的整体表现与 GPT-5.2 相当，同时在编码方面具备更强能力。在评估视觉桌面环境下计算机使用能力的 OSWorld-Verified 测试中，GPT-5.3-Codex 的准确率为 64.7%，高于其前一代模型的 38.2%。

Anthropic 方面也表示，正在将 Claude Code 工具向更广泛的信息工作场景延展，目标是协助更多类型的知识工作者完成多样化的业务任务。

网络安全与开放计划

OpenAI 指出，GPT-5.3-Codex 是其在内部准备框架下首个被归类为在网络安全相关任务上具备“高能力”的模型，也是首个经过专门训练以识别软件漏洞的模型。OpenAI 表示，将提供价值 1000 万美元的 API 额度，用于支持网络防御相关应用，重点面向开源软件和关键基础设施系统。

目前，GPT-5.3-Codex 已向付费 ChatGPT 订阅用户开放，可通过 Codex 应用、命令行界面、集成开发环境（IDE）扩展以及网页端使用。OpenAI 称，正推进尽快开放该模型的 API 访问权限，面向企业客户和独立开发者。

发表评论

登录后才可评论。去登录