xAI 发布「Grok Imagine 1.5 Preview」:从单张图片生成最高 720p 视频,外部榜单夺得前二

richlovec 1500_400 (1)
 

xAI 于 2026 年 6 月 3 日(当地时间)发布了全新的图像转视频 AI 模型 「Grok Imagine 1.5 Preview」。该模型可以从一张静态图片出发,结合描述运动方式的自然语言提示词,生成包含镜头运动、整体氛围以及物理效果在内的视频片段。目前已通过 xAI API 提供预览使用,最高支持生成 720p 分辨率 的视频片段。

在 xAI API 中,该模型以 grok-imagine-video-1.5-preview 的形式提供。xAI 表示,模型在生成视频时,会尽可能保留输入图片的细节与光照效果,不是简单“重绘”原图,而是将其自然延展为一段连续画面。用户可以在调用时指定镜头运动方式、画面节奏、声音设计、分辨率以及视频时长等参数。


从单张图片扩展到多镜头长场景

Grok Imagine 1.5 Preview 不仅支持将 单张图片 转换为视频,还被设计用于 拼接多个镜头,构成更长的场景。创作者可以为每个镜头准备一张关键帧图片,分别进行动画生成,再将这些片段串联起来,从而在整个项目中保持统一的视觉风格和角色设定。

在官方发布中,xAI 还给出了简短的代码示例。开发者只需在请求中指定:

  • 输入图片的 URL
  • 描述运动和氛围的文本提示词
  • 视频时长
  • 输出分辨率

即可通过 API 自动生成对应的视频内容。

Grok Imagine 1.5 Preview 生成示例

grok1-5.jpg

目前仅支持「图像转视频」,不支持「文本转视频」

根据 xAI 官方文档的说明,Grok Imagine 1.5 Preview 被归类为可处理图像和视频的模型。但文档同时明确指出:目前尚不支持从纯文本直接生成视频(text-to-video)

因此,该模型的定位是 「image-to-video」图像转视频模型,而非从零开始生成画面的文本转视频模型。用户需要先准备好静态图片,再以此为基础生成视频,这也意味着:

  • 可以事先精确控制主体、构图和画面风格
  • 再通过提示词补充运动方式、情绪氛围和镜头语言

这种工作流更适合对画面设计有明确要求的创作场景,例如广告分镜、动画分镜预演等。


外部评测榜单中名列前茅

Grok Imagine 1.5 Preview 在多家第三方评测平台上取得了靠前的排名。

在视频生成 AI 排行网站 「Image-to-Video Arena」 上,模型 grok-imagine-video-1.5-preview-720p 目前位居 第 1 名。其得分为 1473±9,共获得 5564 次投票,榜单状态标注为「Preliminary(暂定)」。

image to video arena grok1-5.jpg

Artificial Analysis 提供的 「Image to Video Leaderboard」 中,带声音的视频评测项目里,grok-imagine-video-1.5-preview 排名 第 2。该榜单采用盲测方式:用户在不知道模型来源的情况下,对由同一张输入图片生成的视频进行对比投票,并通过 Elo 评分体系进行排序。

在同一平台的「无声音」评测项目中,Grok Imagine 1.5 Preview 则位列 第 3 名。由于不同评测网站、不同榜单的测试条件和评价维度并不相同,在解读这些排名时,需要明确区分具体的评测平台和对应的项目类别。


API 计费:720p 输出每秒 0.14 美元

根据 xAI 公布的价格信息,Grok Imagine 1.5 Preview 的收费结构如下:

  • 输入图片:每张 0.01 美元
  • 输出视频(480p):每秒 0.08 美元
  • 输出视频(720p):每秒 0.14 美元

在此之前,xAI 已于 2026 年 1 月推出支持图像与视频生成、编辑的 「Grok Imagine API」。此次发布的 Grok Imagine 1.5 Preview,可以视为在该 API 体系下,专门强化视频生成能力的新模型版本,主要面向需要通过 API 集成视频生成功能的开发者与企业用户。


分享:


发表评论

登录后才可评论。 去登录