OpenAI发布全新macOS版Codex应用强调自主编码能力

商业 2026-02-13 科技最前沿 OpenAI, Codex, macOS应用, 人工智能编程, 软件开发工具 46 次浏览

OpenAI宣布推出全新的macOS版Codex应用，在桌面端进一步推进其自主编码工具布局。

这款应用延续了自去年Codex首次发布以来的产品演进路径。Codex最初于去年4月以命令行工具形式推出，随后在一个月后扩展至网页界面。此次登陆macOS平台，被公司视为在自主软件开发方向上的重要一步。

当前，业内正在探索由AI代理独立完成编码任务的自主开发模式，Claude Code和Cowork等应用被视为这一趋势的代表。OpenAI在此次发布中表示，新版Codex应用集成了过去一年间在自主编码实践中逐渐流行的多种工作方式，包括多代理并行协作、代理技能整合以及更复杂的工作流管理。

OpenAI称，macOS版Codex专为多代理场景设计，可支持多个代理同时工作，并在同一界面中协调不同技能和任务。该应用还提供后台自动化能力，用户可以设定任务在后台持续运行，待返回时集中审阅排队完成的结果。此外，用户可根据个人工作风格选择不同的代理“个性”，从偏务实到更具同理心等多种选项。

此次应用发布距离OpenAI推出其最新、也是目前最强的编码模型GPT-5.2-Codex不足两个月。公司希望通过这一桌面应用形态，吸引部分目前使用Claude Code等工具的开发者。

OpenAI首席执行官Sam Altman在新闻发布会上表示：“如果你真的想在复杂项目上做出高水平工作，5.2无疑是最强的模型。不过它使用起来更复杂，因此将这种高水平模型能力置于更灵活的界面中，我们认为这将非常重要。”

在性能评估方面，Altman对GPT-5.2表达了信心，但现有基准测试结果呈现出更为复杂的图景。据介绍，截至发稿时，GPT-5.2在TerminalBench测试中排名第一。TerminalBench是一项衡量AI处理命令行编程任务能力的基准。然而，Gemini 3和Claude Opus在该测试中的代理得分与GPT-5.2大致相当，略低但仍处于基准误差范围内。

另一项评估AI修复真实软件缺陷能力的SWE-bench测试也显示出类似情况，尚未体现GPT-5.2在该指标上具有明显优势。同时，业内普遍认为，自主代理类用例难以通过传统基准进行全面衡量，不同前沿模型在实际使用体验上的差异较大。

OpenAI将开发效率视为此次Codex应用的核心卖点之一。Altman表示：“你可以从零开始，在几小时内完成相当复杂的软件。只要我输入新想法的速度够快，构建的速度就没有限制。”

OpenAI方面认为，通过在macOS端提供集成多代理、自动化和个性化交互的Codex应用，有望进一步推动自主编码在实际软件开发流程中的应用。

发表评论

登录后才可评论。去登录