过去,区分人类创作与人工智能生成的图像并不困难。就在两年前,图像模型在生成菜单等日常应用场景时,常常会出现明显错误,例如在为墨西哥餐厅生成菜单时,将“churros”“burrito”等常见菜名误写为“enchuita”“churiros”“burrto”“margartas”等不存在的词汇。
在最新发布的 ChatGPT Images 2.0 模型中,这一情况出现了明显变化。测试显示,当要求该模型生成一份墨西哥餐厅菜单时,其输出内容已经可以直接用于实际场景,整体拼写和排版接近可商用水准,普通顾客难以从中察觉明显问题。不过,测试者也指出,例如菜单中标价 13.50 美元的酸橘汁腌鱼,仍可能引发对菜品品质的主观疑虑。
作为对照,两年前在 ChatGPT 尚不支持图像生成功能时,使用 DALL-E 3 生成的类似菜单,在文字准确性方面存在较大差距。
业内普遍认为,AI 图像生成器长期在文字处理上表现不佳,与其底层技术路径有关。多数此类系统采用扩散模型,通过从噪声中逐步重构图像。Lesan AI 创始人兼首席执行官 Asmelash Teka Hadgu 在 2024 年接受 TechCrunch 采访时表示,扩散模型本质上是在“重构给定的输入”,而图像中的文字仅占极小比例像素,因此模型更容易学习覆盖更多像素区域的视觉模式,而非精确的字符信息。
此后,研究人员开始探索其他图像生成机制,包括自回归模型等更接近大型语言模型(LLM)工作方式的路径,通过对图像应有形态进行逐步预测,以期改善文字和细节的呈现效果。

对于 ChatGPT Images 2.0 具体采用的模型类型,OpenAI 在本周的新闻发布会上未予披露,并在现场拒绝回答相关问题。不过,该公司在介绍中强调,新模型具备更强的“思考能力”,可以进行联网搜索、基于同一提示生成多张图像,并对生成结果进行复核。这一设计旨在支持生成不同尺寸的营销素材以及多格漫画等复杂内容。
OpenAI 还表示,Images 2.0 在非拉丁文字方面的表现有所提升,对日语、韩语、印地语和孟加拉语等文字的理解和渲染能力更强。公司同时指出,该模型的知识截止时间为 2025 年 12 月,这一时间边界可能会影响其在涉及近期新闻事件提示时的准确性。
在官方新闻稿中,OpenAI 将 Images 2.0 描述为“在图像创作中带来了前所未有的具体性和逼真度”。公司称,该模型不仅能够构思更复杂的图像,还能更有效地将构想转化为具体画面,在遵循指令、保留细节方面表现更好,并可渲染以往常令图像模型失误的细微元素,包括小字号文字、图标、用户界面元素、密集构图以及细致的风格限制,最高分辨率可达 2K。
OpenAI 指出,这些能力的提升意味着生成图像的速度相较于直接向 ChatGPT 提问并获得文本回答要慢,但在生成多格漫画等复杂内容时,整体用时仍控制在数分钟内。
在产品开放方面,OpenAI 表示,自周二起,所有 ChatGPT 和 Codex 用户都将获得对 Images 2.0 的访问权限,其中付费用户可生成更高质量的输出。公司同时宣布推出 gpt-image-2 API,收费标准将根据输出图像的质量和分辨率进行区分。
