xAI 发布视频生成模型「Grok Imagine 1.0」：支持 10 秒 720p 视频，大幅提升音频与指令理解能力

AI 2026-02-05 xAI, Grok Imagine, 视频生成AI, 生成式AI, 人工智能 65 次浏览

xAI 于 2026 年 2 月 2 日正式发布新一代视频生成 AI 模型「Grok Imagine 1.0」，并通过其官方 X 账号对外公布。

xAI 将此次更新称为迄今为止“最大的一次飞跃（our biggest leap yet）”，标志着其在生成式 AI 服务中的视频功能进入全面扩展阶段。新模型不仅支持生成更长、更清晰的视频，还重点强化了音频表现和对文本指令的理解能力。

支持最长 10 秒、720p 视频，画面与运动更自然

在 Grok Imagine 1.0 中，单条视频的生成时长被扩展至最长 10 秒，分辨率提升至 720p。xAI 表示，新模型在画面细节、清晰度以及运动流畅度方面都有明显改进，使得整个场景的展开更加自然、连贯。

官方强调，得益于对画面细节和运动轨迹的优化，模型在复杂场景、镜头运动以及多主体互动等方面的表现更加稳定，可用于更丰富的创意表达场景。

与画面能力同步升级的，还有 Grok Imagine 1.0 的音频生成能力。xAI 表示，新模型可以为角色生成带有情绪和表现力的语音，让人物对话更加自然生动。同时，模型还能根据场景自动生成背景音乐，并与视频内容进行时间轴上的同步匹配。

在交互方式上，Grok Imagine 1.0 对文本指令（Prompt）的理解也得到强化。不仅能根据初始指令生成视频，还支持通过后续补充或修改指令，对内容进行迭代调整，实现更接近“对话式”的视频创作流程。

据 xAI 介绍，Grok Imagine 在过去 30 天内共生成约 12.45 亿条视频（1.245 billion）。虽然官方并未披露具体用户数量或地区分布，但从生成规模来看，服务使用量正在快速增长。

在应用场景方面，xAI 不仅将 Grok Imagine 1.0 定位于专业创作者工具，也强调其在日常生活中的使用潜力。例如：

xAI 预计，该模型将被广泛用于个人创作、社交分享以及轻量级内容生产，而不仅限于专业级影视制作。

xAI 同时提到，Grok Imagine 的 API 模型在第三方 AI 模型评估网站 Artificial Analysis 的视频生成基准测试中获得了最高评级。xAI 将这一结果视为支撑 Imagine 1.0 的底层模型质量的重要外部佐证。

公司表示，未来将继续依托用户反馈改进模型表现，并鼓励用户在 X 上分享使用 Grok Imagine 生成的作品，同时在帖子中标记 @xai，以便收集更多真实使用场景下的意见和建议。

登录后才可评论。去登录