OpenAI 发布 GPT-5.5:强化复杂实务与智能代理能力,将率先登陆 ChatGPT 与 Codex

OpenAI 于 2026 年 4 月 23 日(当地时间)正式发布最新大模型 GPT-5.5。这一版本被定位为面向“real work(真实工作场景)”的模型:能够理解复杂目标、调用多种工具、自行检查与修正过程,并将任务推进到完成。

GPT-5.5 将率先在 ChatGPTCodex 中提供使用,面向开发者的 API 接口 也将在近期上线。


在知识型工作任务上表现显著提升

GPT-5.5 的核心升级方向,是覆盖广泛的知识劳动场景,包括:

  • 代码编写与调试
  • 调研与信息收集
  • 数据与信息分析
  • 文档撰写与编辑
  • 表格与数据表(Spreadsheet)制作

在用于评估知识劳动任务的基准测试 「GDPval」 中,GPT-5.5 取得了 84.9% 的成绩,相比前一代模型以及其他厂商的同类模型,都处于更高水平。

OpenAI 指出,GPT-5.5 相比以往版本,能够:

  • 更快理解任务意图
  • 在更少指令下做出更合适的行动选择

这意味着用户不必给出过于细致的步骤说明,模型也能较好地“领会需求并主动完成”。

GDPval.png

强化工具调用与实际操作能力

在衡量模型在真实计算机环境中操作能力的基准 「OSWorld-Verified」 上,GPT-5.5 取得了 78.7% 的成绩。

这一测试主要考察模型在以下场景中的综合能力:

  • 文件系统操作(如文件管理、移动、重命名等)
  • 浏览器操作(如打开网页、搜索信息、填写表单等)
  • 将多种工具组合起来完成一项完整任务

GPT-5.5 不再只是“给出答案”的对话模型,而是进一步向 “能主动执行任务的代理型 AI(Agent)” 靠拢:

  • 能根据目标选择合适工具
  • 在执行过程中自我检查与调整
  • 以更高成功率完成多步骤的实际操作任务
OSWorld-Verified.png

面向企业业务流程的高精度表现

在模拟企业业务流程的基准 「Tau2-bench Telecom」 中,GPT-5.5 的准确率达到 98.0%

该基准主要复现诸如客户服务等真实业务场景,考察模型在:

  • 多轮对话与信息收集
  • 多步骤判断与决策
  • 按流程执行复杂业务规则

等方面的稳定性与一致性。

测试结果显示,GPT-5.5 能在跨多个步骤的任务中保持较高的一致性和准确率,适合嵌入到企业的实际业务流程中,用于:

  • 客服与咨询自动化
  • 业务流程辅助决策
  • 内部流程自动化与质检

OpenAI 因此将 GPT-5.5 明确定位为 可直接融入企业工作流的生产级模型

Tau2-bench Telecom.png

代码能力升级,进一步支持开发者场景

在评估代码能力的基准 「Terminal-Bench 2.0」 中,GPT-5.5 的得分超过了上一代 GPT-5.4

该基准更贴近真实开发环境,重点考察:

  • 代码生成与重构
  • Bug 定位与修复
  • 在命令行环境中的综合操作能力

结果显示,GPT-5.5 在代码生成质量、修改准确性以及调试效率方面都有明显提升。

OpenAI 此前在 4 月披露,Codex 的周活跃开发者数量已超过 300 万,随后两周内又增长到 400 万以上。在这一快速扩张的开发者生态中,GPT-5.5 将作为 开发者向 AI 代理的核心基础模型,支撑:

  • 日常开发辅助
  • 自动化代码维护
  • 项目级别的智能协作
Terminal-Bench 2.0.png

在 ChatGPT 与 Codex 中率先上线,并面向专业用户扩展

ChatGPT 中,OpenAI 将提供两个面向不同需求的 GPT-5.5 版本:

  • GPT-5.5 Thinking

    • 侧重在复杂问题上给出更快、更简洁的回答
    • 适合调研、分析、快速决策等场景
  • GPT-5.5 Pro

    • 在回答的全面性、结构化程度和准确性方面有大幅提升
    • 面向商务、法律、教育、数据科学等对严谨性要求较高的专业领域

对于开发者与企业用户,OpenAI 也公布了 GPT-5.5 的 API 价格

  • 输入:每 100 万 tokens 收费 5 美元
  • 输出:每 100 万 tokens 收费 30 美元

API 的具体开放时间标注为 “coming soon”,意味着将在近期逐步向外部用户开放接入。


安全性评估与生物安全漏洞奖励计划

OpenAI 同时发布了 GPT-5.5 的 System Card,详细说明了该模型的设计目标与适用范围,包括:

  • 复杂实务处理
  • 在线调研与信息分析
  • 文档与表格制作
  • 跨工具协同作业

在安全性方面,OpenAI 启动了 GPT-5.5 Bio Bug Bounty 计划,聚焦生物领域相关风险的验证与防护:

  • 面向具备 AI 红队测试、安全与生物安全经验的研究人员
  • 征集可突破生物安全防护机制的通用“越狱”方法
  • 最高奖励金额为 25,000 美元

通过这一计划,OpenAI 试图在持续提升模型能力的同时,加强对高风险领域(尤其是生物安全)的防护与外部审查机制。


分享:


发表评论

登录后才可评论。 去登录