OpenAI表示,其AI编程助手产品 Codex 正处于快速扩张阶段。
根据该公司向《Fast Company》披露的数据,自今年年初以来,Codex 的每周活跃用户数量已增长三倍,整体使用量(按令牌计)增长了五倍。OpenAI称,通过云端、应用和命令行等所有访问方式,每周至少有逾一百万名开发者及其他用户依赖 Codex 完成工作。
公司指出,去年12月发布的 GPT-5.2 模型、今年2月初推出的 GPT-5.3-Codex 新模型,以及数周前上线的 Codex 应用版本,是带动使用量上升的主要因素之一。OpenAI称,Codex 应用迄今下载量已超过一百万次。
从代码生成到“代理工程”
在商业应用中,自动生成计算机代码被视为最早产生可量化影响的人工智能场景之一。但 OpenAI 的 Codex 以及 Anthropic 的 Claude Code 等工具,已被定位为远超“代码生成器”的系统。
这些工具由更强大的大模型驱动,被设计为“助理工程师”,可以通过自然语言与开发者讨论新软件项目,并在此基础上迭代制定计划。相关代理随后可执行这些计划,包括分析大规模代码库、编写和修改代码、开展检索和研究、运行测试以及生成文档,并在任务完成后向人类工程师解释其推理过程和决策依据。
OpenAI称,Codex 已发展为一个“代理平台”,支持多个代理并行在同一软件项目的不同部分执行任务。例如,多个代理可以同时查找漏洞,而工程师则审查进度、处理其他工作,或暂时离开。OpenClaw 创始人、程序员 Peter Steinberger 将这种新型协作模式称为“代理工程”。
产品迭代与模型升级
当前版本的 Codex 编程助手于 2025 年 5 月首次亮相。更早在 2021 年,OpenAI 曾推出 Codex 模型,为早期 AI 编程助手 GitHub Copilot 提供底层支持。Codex 与 Claude Code 均在 2025 年上半年面向市场推出。
OpenAI Codex 团队负责人 Thibault Sottiaux 表示,2025 年 12 月发布的 GPT-5.2 模型为产品带来“重大提升”。据其介绍,该模型能够在内存中容纳更多项目数据,并在推理方面较早期版本更为有效。“该模型更可靠——能够自主工作并取得非常好的结果,”他对《Fast Company》说。
2 月 2 日,Mac 版 Codex 桌面应用上线后,用户群进一步扩大。OpenAI将该应用描述为一个“指挥中心”,用户可在其中部署和管理多个代理。公司称,目前已有超过 50 万用户通过 ChatGPT 的免费和 Go 订阅层访问 Codex。OpenAI认为,其中相当一部分用户并非专业程序员,因为经验更丰富的开发者通常会选择价格更高、使用限制更宽松且响应速度更快的套餐。
2 月 5 日发布的 GPT-5.3-Codex 被视为又一关键节点。OpenAI称,该版本显著提升了 Codex 的编程能力,以及其在涉及研究和工具调用的复杂、长期任务中的推理表现。在 X(原推特)和 Reddit 的讨论中,多名开发者表示,该工具能够为真实项目快速生成可用代码,且往往一次即可通过。
与 Claude Code 的差异
在 AI 编程代理市场中,许多产品由第三方模型驱动,而 OpenAI、Anthropic 以及谷歌(后者推出 Gemini Code Assist)则尝试基于自家前沿大型语言模型构建编程工具。OpenAI 的 Codex 与 Anthropic 的 Claude Code 在功能上存在一定共性:两者均可基于自然语言对话构建大型功能模块甚至完整应用,也都允许开发者将复杂项目拆分为子任务并分配给不同代理执行。
但在交互方式和使用体验上,两款产品存在差异。Steinberger 认为,Claude Code 相比 Codex 更具对话性和迭代性,例如在编写代码前会设置相对明确的规划阶段;而 Codex 并不刻意区分“规划”和“编码”,更倾向于直接进入代码库收集上下文并开始工作。他在 Lex Fridman 播客中以比喻方式形容,Anthropic 的旗舰模型 Opus 更像“有点傻但很有趣、你愿意留着的同事”,而 Codex 则像“角落里那个你不太想搭理但很可靠、能完成任务的怪咖”。此后,OpenAI 聘用了 Steinberger。
Sottiaux 表示,“务实”一直是 Codex 的核心特征之一,强调指出缺陷、在讨论中尽可能准确,目标是成为一个“非常可靠的工具”。
Codex 产品经理 Alex Embiricos 称,这种“务实的个性”与其主要服务对象相关。“我们非常专注于专业软件工程师群体……致力于打造一个能独立完成任务的强大代理。”

同时,OpenAI 也注意到用户结构正在变化。Embiricos 表示,务实风格更适合有经验的开发者,而经验较少或首次编程的用户可能更偏好更具同理心、对话式的界面。随着 Codex 被用于更广泛的信息工作场景,这类用户群体在增加,这也是团队在应用内提供更多“个性”选项的原因之一。
他介绍称,“1 月份我们说,‘好,我们在智能方面做得不错,显然还有提升空间,但现在要花更多精力在个性上。’”随着 GPT-5.3-Codex 上线,Codex 在默认“务实”模式之外,新增了“同理心”和“友好”模式,后两者被设计得更具对话性和互动性。
模型为何适合编程任务
在 OpenAI 看来,从基础层面看,计算机代码由单词和符号构成,符合大型语言模型擅长处理的数据类型。同时,构建 AI 模型的工程师本身就是程序员,他们有动力让系统在编程任务上表现良好。
代码也被用于模型训练和评估。尽管软件工程包含创造性,但代码最终要么能运行,要么不能,这为训练提供了大量带有明确“对/错”标记的示例。Sottiaux 解释称,“有大量带有问题陈述和解决方案的示例,可以判断解决方案是否正确,至少可以用来评估模型随时间的表现,并推动性能提升。”
OpenAI 表示,Codex 仍是一个相对年轻的产品,迭代速度较快。自从从 GPT-3.5-Codex 升级以来,部分开发者在特定编码场景中反馈了问题。有用户称,GPT-5.3-Codex 在长时间或复杂任务中可能出现失去焦点、陷入循环、卡顿,或反复请求确认而未完成工作的情况;也有用户表示,它有时会生成看似合理但实际上无效的代码,尤其是在前端修复方面。这些反馈目前为个案,尚未形成系统性统计,但也反映出开发者通常会在将 AI 生成代码用于生产系统前进行人工审核。
负责 Codex 底层模型开发的研究科学家 Amelia Glaese 表示,团队一直在识别并消除限制产品实用性的短期瓶颈。“三个月前,人们使用 Codex 的频率远低于现在,”她说,“我们两个月前和两周前做出的改动极大提升了它的实用性。”
她同时指出,像 Codex 和 Claude Code 这样的工具也要求开发者调整工作方式。与 AI 编程助手协作是一种不同的软件工程模式,更强调引导和协作,而非逐行手写代码。Sottiaux 表示,“解决工程问题没有唯一正确的方法,这全是权衡和探索权衡的问题,有了能帮助你探索这些权衡的代理,对工程师来说是非常有用的工具。”
向通用信息工作扩展
Codex 和 Claude Code 正被用于更广泛的信息工作场景。Anthropic 推出了名为 Claude Cowork 的插件(信息工作技能包),覆盖销售、财务和法律等领域。Cowork 以独立标签页形式出现在 Claude 聊天界面中,与 Claude Code 并列。Anthropic 发布相关技能后,引发软件股抛售,反映出部分投资者担忧传统 SaaS 产品可能比预期更早受到 AI 工具冲击。
OpenAI 也在为 Codex 增加信息工作相关能力。该公司在宣布 GPT-5.3-Codex 模型的博客中写道,“技能包包含指令、资源和脚本,使 Codex 能可靠连接工具、运行工作流并根据团队偏好完成任务。”Codex 应用内设有专门界面用于创建和管理这些技能。OpenAI 在其不断扩展的产品组合中,将 Codex 视为重要产品之一,并在今年的“you can just build it”(“你可以直接构建”)超级碗广告中重点展示。
Glaese 指出,软件工程师本身也有动力将 Codex 用于编程以外的任务。她表示,工程师的工作日中有相当一部分属于通用信息工作,而非纯粹写代码。“我们需要做研究、了解市场、阅读新闻、参加团队会议、进行绩效评估——这些都是非程序员也会做的事情,”她说。
对工程岗位的影响讨论
围绕 Codex 和 Claude Code 等代理的讨论中,一个突出问题是它们将如何影响人类工作,尤其是对年轻工程师岗位的影响。OpenAI 表示,希望其代理表现得像一位才华横溢的助理工程师,但并未表示这些工具将取代人类工程师。
Sottiaux 认为,编程代理是扩展团队解决问题和开发新想法的一种方式,尤其是当经验较少的工程师利用这些工具进行实验、尝试不同路径时。他表示,在这种情况下,“他们会提出完全新的想法,这些想法如果过于依赖几十年的经验可能想不到”。
OpenAI 还表示,这类助手正越来越多地参与下一代 AI 模型的开发流程。如果未来 AI 系统能够承担更多模型构建、训练、评估和部署环节的工作,相关性能提升的节奏可能会随之发生变化。