OpenAI推出两款前沿模型 GPT-5.3 与 GPT-5.4 被指体现技术路线重大调整

商业 2026-04-29 商业现场 OpenAI, GPT-5.3, GPT-5.4, 大模型, 生成式人工智能 32 次浏览

三月初，OpenAI在数日内连续发布两款前沿模型：主打高速响应的 GPT-5.3，以及面向深度分析任务的 GPT-5.4。有长期通过 API 使用 OpenAI 产品的早期测试者表示，在对这两款模型进行广泛试用后，认为它们体现出完全不同的技术路线，或预示大型科技公司在构建人工智能系统方式上的一轮调整。

GPT-5.3：面向高速交互的“执行者”

根据 OpenAI 公布的说明，GPT-5.3 被定位为“即时”（Instant）模型，重点优化响应速度和对话流畅度。该模型通常能在数秒内给出回答，被描述为“反应迅速、机智的写作者和快速的沟通者”。

OpenAI 在发布说明中称，GPT‑5.3 Instant 提供“更准确的答案”，在联网搜索时“结果更丰富且上下文更佳”，并减少不必要的“死胡同、警告和过于断言的措辞”，以避免打断对话节奏。

与此前的即时模型相比，测试者认为 GPT-5.3 的工作方式出现明显变化。早期即时模型几乎完全依赖预训练阶段获得的世界知识来回答问题，虽然响应极快，但在处理最新信息和时事方面表现有限。有测试者回忆，早期版本在对自身版本号等简单新信息的识别上也存在偏差，反映出其对训练时间点之后世界变化的理解能力不足。

OpenAI 表示，GPT-5.3 仍然大量依赖预训练知识，但已被优化为能够“快速浏览并理解互联网上及其他来源的信息”，并“更有效地平衡在线发现的信息与自身的知识和推理”，例如在处理最新新闻时，利用既有理解提供背景，而非仅仅总结搜索结果。

在安全性与上下文理解方面，OpenAI 称 GPT-5.3 对用户意图的把握更为准确。公司举例指出，针对“射箭击中靶心所需的正确轨迹”这类物理问题，以往即时模型往往先给出大量关于危险性的警告，甚至出现回答模糊、有效信息不足的情况。OpenAI 表示，新模型在识别学习、考试练习等场景时，能够更直接地给出物理解释，而不再以冗长免责声明为主。

有测试者在使用后认为，GPT-5.3 不再像此前即时模型那样更接近“思考模型的简化版”，而更像一个功能完整的前沿模型，在许多任务上接近以往“思考”系列的能力，但响应更快、文风更为生动。

GPT-5.4：聚焦复杂推理的“思考者”

与 GPT-5.3 的高速定位不同，GPT-5.4 被描述为一款专注深度分析的“思考”模型。在测试者的使用中，该模型在回答复杂请求前会进行更长时间的内部推理，部分复杂任务的响应时间可达 5 至 10 分钟。

测试者形容，GPT-5.4 的回答风格更接近科学或分析型写作，强调细节和全面性，整体语气偏向技术文档或学术论文，而非面向大众的创意写作。与此前试图在代码编写、科学分析和创意写作等多方面“通吃”的思考模型不同，GPT-5.4 被认为在创意表达和幽默感上有所收缩，从而集中资源在“处理数字、构建软件和分析数据”等 OpenAI 公告中提到的设计目标上。

在一项对比测试中，测试者向两款模型给出相同提示：“选择一个与比熊犬相关的具体话题，然后写一篇文章。”

GPT-5.3 迅速生成了一篇题为《为什么比熊犬是公寓生活的最佳犬种之一》的文章，采用列表结构，围绕体型、性格等方面展开，语言流畅、结构清晰，强调比熊犬在小户型环境中的适应性。

GPT-5.4 则选择聚焦比熊犬的泪痕问题，给出大量生化和机理层面的细节。例如，文章解释泪痕与名为卟啉的分子有关，指出卟啉是含铁色素，存在于泪液和唾液中，当泪液长时间停留在毛发上并暴露在空气中时发生氧化，从而形成眼下锈红或棕色痕迹。测试者认为，这类输出更适合税务、科学或工程等需要精细分析的场景，而不太适合作为轻松阅读材料。

使用场景分化与用户体验变化

在 OpenAI 早期产品线中，思考模型通常被视为“高端”版本，即便响应时间较长，重度用户仍倾向优先使用。而即时模型则更多被认为是面向轻量用户的低门槛选择。

在 GPT-5.3 与 GPT-5.4 发布后，部分测试者的使用习惯出现变化。上述早期测试者表示，在需要深入研究、处理数字或数据时，会选择 GPT-5.4，例如分析 YouTube 频道数据、比较 Starlink 与 Comcast Business 的优劣等任务；而在日常工作和生活中，则更多依赖 GPT-5.3 获取快速答案。

该测试者举例称，近期通过 GPT-5.3 询问了“为什么人会打哈欠”“在壁橱中发现的一枚硬币的来历”“如何清洗织物带”等问题，并在工作中使用该模型解决简单 Python 编程问题、进行背景资料查找以及计算房间面积等事务。其个人感受是，在 GPT-5.3 能提供“足够好”答案的前提下，响应速度对整体工作效率的影响比预期更大。

在此前一代产品中，由于即时模型能力受限，重度用户在大多数任务上仍需依赖思考模型，接受最长可达数分钟的等待时间。测试者认为，随着 GPT-5.3 能力提升，即时获得可用结果的价值开始凸显，日常查询对思考模型的依赖有所下降。

模型分工与成本考量的潜在影响

从目前公开信息和测试者体验来看，GPT-5.3 与 GPT-5.4 在定位上形成较为清晰的分工：前者强调速度和对话体验，后者聚焦复杂推理和数据密集型任务。

测试者推测，在这种架构下，即时模型可能更多依赖预训练世界知识，完成任务时消耗的令牌数量少于需要长时间推理的思考模型，从而在运行成本上更具优势。如果高级用户在大部分日常场景中可以依赖即时模型获得满意回答，转向成本更高的思考模型的频率或将降低。

在该测试者看来，这一策略有助于大型模型提供方在维持订阅价格的同时，通过引导更多请求流向成本更低的模型来控制整体开支，并加快产品商业化进程。

从长期趋势角度，该测试者认为，如果类似 GPT-5.3 的即时模型在能力上持续提升，未来可能出现“快速且足够好”的模型重新占据主流，而“更慢但更强”的模型则主要服务于程序开发、数据分析等专业场景。其判断是，此次 GPT-5.3 与 GPT-5.4 的发布，标志着行业在模型分工和技术路线上的一次重要转向，但相关变化仍处在早期阶段。

发表评论

登录后才可评论。去登录