OpenAI宣布推出全新的macOS版Codex应用,在桌面端进一步推进其自主编码工具布局。
这款应用延续了自去年Codex首次发布以来的产品演进路径。Codex最初于去年4月以命令行工具形式推出,随后在一个月后扩展至网页界面。此次登陆macOS平台,被公司视为在自主软件开发方向上的重要一步。
当前,业内正在探索由AI代理独立完成编码任务的自主开发模式,Claude Code和Cowork等应用被视为这一趋势的代表。OpenAI在此次发布中表示,新版Codex应用集成了过去一年间在自主编码实践中逐渐流行的多种工作方式,包括多代理并行协作、代理技能整合以及更复杂的工作流管理。
OpenAI称,macOS版Codex专为多代理场景设计,可支持多个代理同时工作,并在同一界面中协调不同技能和任务。该应用还提供后台自动化能力,用户可以设定任务在后台持续运行,待返回时集中审阅排队完成的结果。此外,用户可根据个人工作风格选择不同的代理“个性”,从偏务实到更具同理心等多种选项。
此次应用发布距离OpenAI推出其最新、也是目前最强的编码模型GPT-5.2-Codex不足两个月。公司希望通过这一桌面应用形态,吸引部分目前使用Claude Code等工具的开发者。

OpenAI首席执行官Sam Altman在新闻发布会上表示:“如果你真的想在复杂项目上做出高水平工作,5.2无疑是最强的模型。不过它使用起来更复杂,因此将这种高水平模型能力置于更灵活的界面中,我们认为这将非常重要。”
在性能评估方面,Altman对GPT-5.2表达了信心,但现有基准测试结果呈现出更为复杂的图景。据介绍,截至发稿时,GPT-5.2在TerminalBench测试中排名第一。TerminalBench是一项衡量AI处理命令行编程任务能力的基准。然而,Gemini 3和Claude Opus在该测试中的代理得分与GPT-5.2大致相当,略低但仍处于基准误差范围内。
另一项评估AI修复真实软件缺陷能力的SWE-bench测试也显示出类似情况,尚未体现GPT-5.2在该指标上具有明显优势。同时,业内普遍认为,自主代理类用例难以通过传统基准进行全面衡量,不同前沿模型在实际使用体验上的差异较大。
OpenAI将开发效率视为此次Codex应用的核心卖点之一。Altman表示:“你可以从零开始,在几小时内完成相当复杂的软件。只要我输入新想法的速度够快,构建的速度就没有限制。”
OpenAI方面认为,通过在macOS端提供集成多代理、自动化和个性化交互的Codex应用,有望进一步推动自主编码在实际软件开发流程中的应用。
