OpenAI 发布「ChatGPT Images 2.0」:引入“思考式生成”,强化指令理解与多语言文本绘制

OpenAI 于 2026 年 4 月 21 日(当地时间)发布全新图像生成模型「ChatGPT Images 2.0」。这一版本作为 ChatGPT 内置的新一代图像生成功能,重点强化了对复杂指令的理解能力、图像中文字内容的绘制精度,以及对多种视觉风格和复杂布局的支持。

@YouTube

引入“thinking”,应对更复杂的图像指令

OpenAI 将「ChatGPT Images 2.0」称为“图像生成的新纪元(a new era of image generation)”,不仅强调画面质量的提升,还突出其基于更深层次图像理解的生成能力。在官方发布说明中,这一功能被标注为「ChatGPT 中的 ChatGPT Images 2.0」,并明确提出引入了“images with thinking”的能力。

这里的“thinking”(思考式生成),指的是在生成图像时,会综合考虑复杂构图、上下文语境以及画面中各要素之间的逻辑关系和有意义的排布。根据 OpenAI 公布的系统卡(System Card),新模型在世界知识、指令跟随能力以及文本绘制等方面都有明显改进。

■ 标题为 “Thinking Mode On” 的生成示例:在黑板上以可视化方式证明“奇数之和为平方数” image__12_.webp

■ 少年漫画风格的生成示例:包含日文对话气泡与分镜布局,可处理具有故事性的复杂指令 japanese.jpg

强化文本绘制与复杂版式表现

本次更新的一大亮点,是图像中“文字”的表现力显著增强。OpenAI 在官方页面展示了大量示例,包括海报、指示牌、教学插图、漫画页面等,这些图像都包含大量文字信息和复杂排版。

OpenAI 表示,新模型能够更好地支持多语言文本(包括日语在内)以及复杂的页面布局设计,目标不仅是生成艺术风格图片,还要覆盖更实用的视觉内容创作场景,例如宣传物料、教学内容、信息图等。

■ 1960 年代捷克斯洛伐克电影海报风格示例:从英文标题、文字排版到纸张质感,都呈现出高度一致的设计感 images-2-Czech-poster.webp

官方示例中,还包括英文海报、教室黑板上的数学证明、2000 年代初期风格的计算机教室照片、日本少年漫画页面等。这些案例表明,在包含大量文字、多个画面元素或多格分镜的复杂构图中,模型依然能保持较高的一致性和可读性,不易出现严重“崩坏”。

■ 再现 2000 年代初美国高中计算机教室的生成示例:可观察到多台显示器上的文字内容,以及整体空间布局的一致性 images-2-computer-lab.webp

面向开发者:以「gpt-image-2」形式提供 API

面向开发者,OpenAI 同步推出可通过 API 调用的图像生成模型「gpt-image-2」。在官方文档中,该模型被定位为支持高质量图像生成与编辑的最新一代模型,可通过 Responses API 与 Image API 使用。

这意味着开发者可以在自己的应用或服务中集成与 ChatGPT 内相同代际的图像生成能力,用于创意设计、内容生产、教育工具、产品原型等多种场景。

发布系统卡,说明风险评估与安全措施

与模型发布同步,OpenAI 还公开了「ChatGPT Images 2.0 System Card」。在这份系统卡中,除了介绍模型能力提升外,也对潜在风险和安全策略进行了梳理。

随着图像生成模型能力增强,误导性内容、冒充他人形象、有害内容生成等风险也随之上升。OpenAI 在系统卡中说明了其在风险评估、内容过滤和安全防护方面的做法,试图在提升创作能力的同时,降低滥用带来的负面影响。

根据 OpenAI 的发布说明,「ChatGPT Images 2.0 in ChatGPT」将向所有套餐用户开放使用。


分享:


发表评论

登录后才可评论。 去登录