字节跳动正式发布视频生成模型「Seedance 2.0」,多模态输入与参考控制全面升级

richlovec 1500_400 (1)
 

ByteDance(抖音海外版 TikTok 母公司)正式发布新一代视频生成模型「Seedance 2.0」,并已在旗下生成式 AI 服务平台「即梦(Jimeng)」中上线。相关功能与使用方式,可在 2026 年 2 月 10 日更新的官方用户手册(Lark Wiki)以及即梦官网上查阅。

目前 Seedance 2.0 处于逐步开放阶段,官方表示将面向会员与非会员用户陆续开放使用权限。

jimeng.jpg

支持图像・视频・音频・文本四种模态输入

Seedance 2.0 是一款支持多模态输入的视频生成模型,可同时处理图像、视频、音频以及自然语言文本等多种形式的素材。

根据官方使用手册,其主要输入规格如下:

  • 图像:支持 jpeg、png、webp、bmp、tiff、gif 格式(最多 9 张,单次总大小小于 30MB)
  • 视频:支持 mp4、mov 格式(最多 3 段,总时长 2〜15 秒,合计小于 50MB)
  • 音频:支持 mp3、wav 格式(最多 3 段,总时长不超过 15 秒,合计小于 15MB)
  • 文本:自然语言指令输入
  • 混合输入总上限:最多 12 个文件
  • 生成视频时长:约 4〜15 秒(上限 15 秒)

对于视频输入,系统还设置了总像素数量上限,以控制计算成本与生成质量。在输出端,Seedance 2.0 支持同时生成画面与声音,可在视频中直接加入音效或背景音乐。

参考功能升级,提升画面可控性

此次版本更新的核心之一,是大幅强化了「参考(Reference)」相关能力,使用户能够更精细地控制生成视频的视觉风格与运动节奏。

  • 通过参考图像,模型可以在生成视频时尽量保持原有构图、角色外观与细节设定。
  • 通过参考视频,用户可以指定镜头运动方式、动作节奏、视觉特效等,使新视频在动态表现上更贴近参考素材。

Seedance 2.0 还支持在现有视频基础上进行延展创作:

  • 将已有视频向前或向后延长,生成连续镜头;
  • 按照用户文本指令,生成风格与内容连贯的后续画面。

此外,用户可以把现有视频作为输入,对其中人物进行替换、删除或新增等编辑操作,在保持整体场景与节奏的前提下,灵活调整视频内容。

提供「首尾帧」与「全能参考」两种生成模式

在使用方式上,Seedance 2.0 主要提供两种生成模式,在界面中分别标注为「首尾帧」与「全能参考」。

  • 首尾帧(シンプル生成): 以一张作为起始画面的图像配合文本描述,即可生成完整视频,适合快速创作、对控制精度要求不高的场景。

  • 全能参考(マルチモーダル生成): 支持将图像、视频、音频与文本组合使用,并为不同素材指定不同的参考角色,是面向进阶用户的多模态生成模式。

在多素材组合场景中,用户可通过「@素材名」的方式,明确标注各素材的用途。例如:

  • 指定某张图片作为视频的起始画面;
  • 指定另一段视频作为镜头运动与节奏的参考;
  • 指定一段音频作为背景音乐或音效。

通过这种方式,用户可以在同一条指令中,对画面内容、运动方式与声音表现进行较为细致的统一控制。

暂不支持真实人物肖像素材

根据使用手册,为满足平台合规与安全要求,目前 Seedance 2.0 不支持上传含有真实人物肖像的人脸图片或视频素材。此类素材会由系统自动识别并限制使用。

官方表示,如后续相关政策或产品规范发生调整,将在文档中同步更新说明。


分享:


发表评论

登录后才可评论。 去登录