xAI 发布「Grok Imagine 1.5 Preview」：从单张图片生成最高 720p 视频，外部榜单夺得前二

AI 2026-06-12 xAI, Grok Imagine, 视频生成AI, 图像转视频, AI模型 1 次浏览

xAI 于 2026 年 6 月 3 日（当地时间）发布了全新的图像转视频 AI 模型 「Grok Imagine 1.5 Preview」。该模型可以从一张静态图片出发，结合描述运动方式的自然语言提示词，生成包含镜头运动、整体氛围以及物理效果在内的视频片段。目前已通过 xAI API 提供预览使用，最高支持生成 720p 分辨率 的视频片段。

在 xAI API 中，该模型以 grok-imagine-video-1.5-preview 的形式提供。xAI 表示，模型在生成视频时，会尽可能保留输入图片的细节与光照效果，不是简单“重绘”原图，而是将其自然延展为一段连续画面。用户可以在调用时指定镜头运动方式、画面节奏、声音设计、分辨率以及视频时长等参数。

从单张图片扩展到多镜头长场景

Grok Imagine 1.5 Preview 不仅支持将 单张图片 转换为视频，还被设计用于 拼接多个镜头，构成更长的场景。创作者可以为每个镜头准备一张关键帧图片，分别进行动画生成，再将这些片段串联起来，从而在整个项目中保持统一的视觉风格和角色设定。

在官方发布中，xAI 还给出了简短的代码示例。开发者只需在请求中指定：

输入图片的 URL
描述运动和氛围的文本提示词
视频时长
输出分辨率

即可通过 API 自动生成对应的视频内容。

Grok Imagine 1.5 Preview 生成示例

目前仅支持「图像转视频」，不支持「文本转视频」

根据 xAI 官方文档的说明，Grok Imagine 1.5 Preview 被归类为可处理图像和视频的模型。但文档同时明确指出：目前尚不支持从纯文本直接生成视频（text-to-video）。

因此，该模型的定位是 「image-to-video」图像转视频模型，而非从零开始生成画面的文本转视频模型。用户需要先准备好静态图片，再以此为基础生成视频，这也意味着：

可以事先精确控制主体、构图和画面风格
再通过提示词补充运动方式、情绪氛围和镜头语言

这种工作流更适合对画面设计有明确要求的创作场景，例如广告分镜、动画分镜预演等。

外部评测榜单中名列前茅

Grok Imagine 1.5 Preview 在多家第三方评测平台上取得了靠前的排名。

在视频生成 AI 排行网站 「Image-to-Video Arena」 上，模型 grok-imagine-video-1.5-preview-720p 目前位居 第 1 名。其得分为 1473±9，共获得 5564 次投票，榜单状态标注为「Preliminary（暂定）」。

在 Artificial Analysis 提供的 「Image to Video Leaderboard」 中，带声音的视频评测项目里，grok-imagine-video-1.5-preview 排名 第 2。该榜单采用盲测方式：用户在不知道模型来源的情况下，对由同一张输入图片生成的视频进行对比投票，并通过 Elo 评分体系进行排序。

在同一平台的「无声音」评测项目中，Grok Imagine 1.5 Preview 则位列 第 3 名。由于不同评测网站、不同榜单的测试条件和评价维度并不相同，在解读这些排名时，需要明确区分具体的评测平台和对应的项目类别。

API 计费：720p 输出每秒 0.14 美元

根据 xAI 公布的价格信息，Grok Imagine 1.5 Preview 的收费结构如下：

输入图片：每张 0.01 美元
输出视频（480p）：每秒 0.08 美元
输出视频（720p）：每秒 0.14 美元

在此之前，xAI 已于 2026 年 1 月推出支持图像与视频生成、编辑的 「Grok Imagine API」。此次发布的 Grok Imagine 1.5 Preview，可以视为在该 API 体系下，专门强化视频生成能力的新模型版本，主要面向需要通过 API 集成视频生成功能的开发者与企业用户。

发表评论

登录后才可评论。去登录