字节跳动正式发布视频生成模型「Seedance 2.0」，多模态输入与参考控制全面升级

AI 2026-02-14 字节跳动, Seedance 2.0, 视频生成AI, 多模态, 即梦 113 次浏览

ByteDance（抖音海外版 TikTok 母公司）正式发布新一代视频生成模型「Seedance 2.0」，并已在旗下生成式 AI 服务平台「即梦（Jimeng）」中上线。相关功能与使用方式，可在 2026 年 2 月 10 日更新的官方用户手册（Lark Wiki）以及即梦官网上查阅。

目前 Seedance 2.0 处于逐步开放阶段，官方表示将面向会员与非会员用户陆续开放使用权限。

支持图像・视频・音频・文本四种模态输入

Seedance 2.0 是一款支持多模态输入的视频生成模型，可同时处理图像、视频、音频以及自然语言文本等多种形式的素材。

根据官方使用手册，其主要输入规格如下：

图像：支持 jpeg、png、webp、bmp、tiff、gif 格式（最多 9 张，单次总大小小于 30MB）
视频：支持 mp4、mov 格式（最多 3 段，总时长 2〜15 秒，合计小于 50MB）
音频：支持 mp3、wav 格式（最多 3 段，总时长不超过 15 秒，合计小于 15MB）
文本：自然语言指令输入
混合输入总上限：最多 12 个文件
生成视频时长：约 4〜15 秒（上限 15 秒）

对于视频输入，系统还设置了总像素数量上限，以控制计算成本与生成质量。在输出端，Seedance 2.0 支持同时生成画面与声音，可在视频中直接加入音效或背景音乐。

参考功能升级，提升画面可控性

此次版本更新的核心之一，是大幅强化了「参考（Reference）」相关能力，使用户能够更精细地控制生成视频的视觉风格与运动节奏。

通过参考图像，模型可以在生成视频时尽量保持原有构图、角色外观与细节设定。
通过参考视频，用户可以指定镜头运动方式、动作节奏、视觉特效等，使新视频在动态表现上更贴近参考素材。

Seedance 2.0 还支持在现有视频基础上进行延展创作：

将已有视频向前或向后延长，生成连续镜头；
按照用户文本指令，生成风格与内容连贯的后续画面。

此外，用户可以把现有视频作为输入，对其中人物进行替换、删除或新增等编辑操作，在保持整体场景与节奏的前提下，灵活调整视频内容。

提供「首尾帧」与「全能参考」两种生成模式

在使用方式上，Seedance 2.0 主要提供两种生成模式，在界面中分别标注为「首尾帧」与「全能参考」。

首尾帧（シンプル生成）：以一张作为起始画面的图像配合文本描述，即可生成完整视频，适合快速创作、对控制精度要求不高的场景。
全能参考（マルチモーダル生成）：支持将图像、视频、音频与文本组合使用，并为不同素材指定不同的参考角色，是面向进阶用户的多模态生成模式。

在多素材组合场景中，用户可通过「@素材名」的方式，明确标注各素材的用途。例如：

指定某张图片作为视频的起始画面；
指定另一段视频作为镜头运动与节奏的参考；
指定一段音频作为背景音乐或音效。

通过这种方式，用户可以在同一条指令中，对画面内容、运动方式与声音表现进行较为细致的统一控制。

暂不支持真实人物肖像素材

根据使用手册，为满足平台合规与安全要求，目前 Seedance 2.0 不支持上传含有真实人物肖像的人脸图片或视频素材。此类素材会由系统自动识别并限制使用。

官方表示，如后续相关政策或产品规范发生调整，将在文档中同步更新说明。

发表评论

登录后才可评论。去登录