OpenAI 发布「ChatGPT Images 2.0」：引入“思考式生成”，强化指令理解与多语言文本绘制

AI 2026-04-23 OpenAI, ChatGPT Images 2.0, 图像生成, AI 安全, 多语言文本生成 62 次浏览

OpenAI 于 2026 年 4 月 21 日（当地时间）发布全新图像生成模型「ChatGPT Images 2.0」。这一版本作为 ChatGPT 内置的新一代图像生成功能，重点强化了对复杂指令的理解能力、图像中文字内容的绘制精度，以及对多种视觉风格和复杂布局的支持。

@YouTube

引入“thinking”，应对更复杂的图像指令

OpenAI 将「ChatGPT Images 2.0」称为“图像生成的新纪元（a new era of image generation）”，不仅强调画面质量的提升，还突出其基于更深层次图像理解的生成能力。在官方发布说明中，这一功能被标注为「ChatGPT 中的 ChatGPT Images 2.0」，并明确提出引入了“images with thinking”的能力。

这里的“thinking”（思考式生成），指的是在生成图像时，会综合考虑复杂构图、上下文语境以及画面中各要素之间的逻辑关系和有意义的排布。根据 OpenAI 公布的系统卡（System Card），新模型在世界知识、指令跟随能力以及文本绘制等方面都有明显改进。

■ 标题为 “Thinking Mode On” 的生成示例：在黑板上以可视化方式证明“奇数之和为平方数”

■ 少年漫画风格的生成示例：包含日文对话气泡与分镜布局，可处理具有故事性的复杂指令

强化文本绘制与复杂版式表现

本次更新的一大亮点，是图像中“文字”的表现力显著增强。OpenAI 在官方页面展示了大量示例，包括海报、指示牌、教学插图、漫画页面等，这些图像都包含大量文字信息和复杂排版。

OpenAI 表示，新模型能够更好地支持多语言文本（包括日语在内）以及复杂的页面布局设计，目标不仅是生成艺术风格图片，还要覆盖更实用的视觉内容创作场景，例如宣传物料、教学内容、信息图等。

■ 1960 年代捷克斯洛伐克电影海报风格示例：从英文标题、文字排版到纸张质感，都呈现出高度一致的设计感

官方示例中，还包括英文海报、教室黑板上的数学证明、2000 年代初期风格的计算机教室照片、日本少年漫画页面等。这些案例表明，在包含大量文字、多个画面元素或多格分镜的复杂构图中，模型依然能保持较高的一致性和可读性，不易出现严重“崩坏”。

■ 再现 2000 年代初美国高中计算机教室的生成示例：可观察到多台显示器上的文字内容，以及整体空间布局的一致性

面向开发者：以「gpt-image-2」形式提供 API

面向开发者，OpenAI 同步推出可通过 API 调用的图像生成模型「gpt-image-2」。在官方文档中，该模型被定位为支持高质量图像生成与编辑的最新一代模型，可通过 Responses API 与 Image API 使用。

这意味着开发者可以在自己的应用或服务中集成与 ChatGPT 内相同代际的图像生成能力，用于创意设计、内容生产、教育工具、产品原型等多种场景。

发布系统卡，说明风险评估与安全措施

与模型发布同步，OpenAI 还公开了「ChatGPT Images 2.0 System Card」。在这份系统卡中，除了介绍模型能力提升外，也对潜在风险和安全策略进行了梳理。

随着图像生成模型能力增强，误导性内容、冒充他人形象、有害内容生成等风险也随之上升。OpenAI 在系统卡中说明了其在风险评估、内容过滤和安全防护方面的做法，试图在提升创作能力的同时，降低滥用带来的负面影响。

根据 OpenAI 的发布说明，「ChatGPT Images 2.0 in ChatGPT」将向所有套餐用户开放使用。

发表评论

登录后才可评论。去登录