OpenAI推出两款前沿模型 GPT-5.3 与 GPT-5.4 被指体现技术路线重大调整

三月初,OpenAI在数日内连续发布两款前沿模型:主打高速响应的 GPT-5.3,以及面向深度分析任务的 GPT-5.4。有长期通过 API 使用 OpenAI 产品的早期测试者表示,在对这两款模型进行广泛试用后,认为它们体现出完全不同的技术路线,或预示大型科技公司在构建人工智能系统方式上的一轮调整。

GPT-5.3:面向高速交互的“执行者”

根据 OpenAI 公布的说明,GPT-5.3 被定位为“即时”(Instant)模型,重点优化响应速度和对话流畅度。该模型通常能在数秒内给出回答,被描述为“反应迅速、机智的写作者和快速的沟通者”。

OpenAI 在发布说明中称,GPT‑5.3 Instant 提供“更准确的答案”,在联网搜索时“结果更丰富且上下文更佳”,并减少不必要的“死胡同、警告和过于断言的措辞”,以避免打断对话节奏。

与此前的即时模型相比,测试者认为 GPT-5.3 的工作方式出现明显变化。早期即时模型几乎完全依赖预训练阶段获得的世界知识来回答问题,虽然响应极快,但在处理最新信息和时事方面表现有限。有测试者回忆,早期版本在对自身版本号等简单新信息的识别上也存在偏差,反映出其对训练时间点之后世界变化的理解能力不足。

OpenAI 表示,GPT-5.3 仍然大量依赖预训练知识,但已被优化为能够“快速浏览并理解互联网上及其他来源的信息”,并“更有效地平衡在线发现的信息与自身的知识和推理”,例如在处理最新新闻时,利用既有理解提供背景,而非仅仅总结搜索结果。

在安全性与上下文理解方面,OpenAI 称 GPT-5.3 对用户意图的把握更为准确。公司举例指出,针对“射箭击中靶心所需的正确轨迹”这类物理问题,以往即时模型往往先给出大量关于危险性的警告,甚至出现回答模糊、有效信息不足的情况。OpenAI 表示,新模型在识别学习、考试练习等场景时,能够更直接地给出物理解释,而不再以冗长免责声明为主。

有测试者在使用后认为,GPT-5.3 不再像此前即时模型那样更接近“思考模型的简化版”,而更像一个功能完整的前沿模型,在许多任务上接近以往“思考”系列的能力,但响应更快、文风更为生动。

GPT-5.4:聚焦复杂推理的“思考者”

与 GPT-5.3 的高速定位不同,GPT-5.4 被描述为一款专注深度分析的“思考”模型。在测试者的使用中,该模型在回答复杂请求前会进行更长时间的内部推理,部分复杂任务的响应时间可达 5 至 10 分钟。

测试者形容,GPT-5.4 的回答风格更接近科学或分析型写作,强调细节和全面性,整体语气偏向技术文档或学术论文,而非面向大众的创意写作。与此前试图在代码编写、科学分析和创意写作等多方面“通吃”的思考模型不同,GPT-5.4 被认为在创意表达和幽默感上有所收缩,从而集中资源在“处理数字、构建软件和分析数据”等 OpenAI 公告中提到的设计目标上。

在一项对比测试中,测试者向两款模型给出相同提示:“选择一个与比熊犬相关的具体话题,然后写一篇文章。”

GPT-5.3 迅速生成了一篇题为《为什么比熊犬是公寓生活的最佳犬种之一》的文章,采用列表结构,围绕体型、性格等方面展开,语言流畅、结构清晰,强调比熊犬在小户型环境中的适应性。

GPT-5.4 则选择聚焦比熊犬的泪痕问题,给出大量生化和机理层面的细节。例如,文章解释泪痕与名为卟啉的分子有关,指出卟啉是含铁色素,存在于泪液和唾液中,当泪液长时间停留在毛发上并暴露在空气中时发生氧化,从而形成眼下锈红或棕色痕迹。测试者认为,这类输出更适合税务、科学或工程等需要精细分析的场景,而不太适合作为轻松阅读材料。

使用场景分化与用户体验变化

在 OpenAI 早期产品线中,思考模型通常被视为“高端”版本,即便响应时间较长,重度用户仍倾向优先使用。而即时模型则更多被认为是面向轻量用户的低门槛选择。

在 GPT-5.3 与 GPT-5.4 发布后,部分测试者的使用习惯出现变化。上述早期测试者表示,在需要深入研究、处理数字或数据时,会选择 GPT-5.4,例如分析 YouTube 频道数据、比较 Starlink 与 Comcast Business 的优劣等任务;而在日常工作和生活中,则更多依赖 GPT-5.3 获取快速答案。

该测试者举例称,近期通过 GPT-5.3 询问了“为什么人会打哈欠”“在壁橱中发现的一枚硬币的来历”“如何清洗织物带”等问题,并在工作中使用该模型解决简单 Python 编程问题、进行背景资料查找以及计算房间面积等事务。其个人感受是,在 GPT-5.3 能提供“足够好”答案的前提下,响应速度对整体工作效率的影响比预期更大。

在此前一代产品中,由于即时模型能力受限,重度用户在大多数任务上仍需依赖思考模型,接受最长可达数分钟的等待时间。测试者认为,随着 GPT-5.3 能力提升,即时获得可用结果的价值开始凸显,日常查询对思考模型的依赖有所下降。

模型分工与成本考量的潜在影响

从目前公开信息和测试者体验来看,GPT-5.3 与 GPT-5.4 在定位上形成较为清晰的分工:前者强调速度和对话体验,后者聚焦复杂推理和数据密集型任务。

测试者推测,在这种架构下,即时模型可能更多依赖预训练世界知识,完成任务时消耗的令牌数量少于需要长时间推理的思考模型,从而在运行成本上更具优势。如果高级用户在大部分日常场景中可以依赖即时模型获得满意回答,转向成本更高的思考模型的频率或将降低。

在该测试者看来,这一策略有助于大型模型提供方在维持订阅价格的同时,通过引导更多请求流向成本更低的模型来控制整体开支,并加快产品商业化进程。

从长期趋势角度,该测试者认为,如果类似 GPT-5.3 的即时模型在能力上持续提升,未来可能出现“快速且足够好”的模型重新占据主流,而“更慢但更强”的模型则主要服务于程序开发、数据分析等专业场景。其判断是,此次 GPT-5.3 与 GPT-5.4 的发布,标志着行业在模型分工和技术路线上的一次重要转向,但相关变化仍处在早期阶段。


分享:


发表评论

登录后才可评论。 去登录