ElevenLabs推出「Dubbing v2」:可在90多种语言中还原原声情绪与语气的AI配音模型

richlovec 1500_400 (1)
 

音频 AI 企业 ElevenLabs 宣布推出全新的多语言 AI 配音模型「Dubbing v2」。该模型主打在多语言环境下尽可能还原原说话者的情绪、语气和说话风格。继 2026 年 5 月 28 日(当地时间)在全球发布后,日本子公司 Eleven Labs Japan 合同会社也于 6 月 4 日宣布正式面向日本市场提供该服务。

借助 Dubbing v2,用户可以将视频或音频内容转换为 90 多种语言和口音。ElevenLabs 预计,这一能力将被广泛应用于日本出海内容,如动画、游戏、VTuber、教育内容以及企业宣传与培训视频等的多语言发行。

@YouTube

目标是实现「仿佛本人在说话」的 AI 配音

目前主流的 AI 配音流程,通常是先将原始音频转写为文本,再进行翻译,最后合成目标语言的语音。这种以文字为中心的处理方式,往往难以完整保留说话者的情绪起伏、重音、停顿、语速变化以及声音能量等细节。

ElevenLabs 将「让翻译后的声音听起来像是原说话者亲自开口」视为 AI 配音领域尚未完全解决的关键难题之一。Dubbing v2 不再只依赖文字转写,而是直接以原始语音表现为条件,对生成过程进行控制,从而在目标语言中尽可能还原原声的语气、节奏、说话方式和情感意图。

自动完成声音克隆、多说话人识别与时间同步

Dubbing v2 会基于原始音频的特征,为每一段翻译内容生成尽量接近原说话者的声音。系统会自动应用声音克隆技术,保留说话者的声线特征、音高和音色。在包含多位说话者的内容中,模型还能区分不同人物,并为各自生成带有对应声线特征的多语言配音。

在时间轴上,Dubbing v2 会根据不同语言的表达习惯,对措辞和语句节奏进行调整,使翻译后的语音与原视频或音频自然对齐。通过自动匹配开口时间、停顿和整体语速的同步翻译系统,创作者可以减少大量手动剪辑和微调的工作量。

此外,系统支持在保留背景音乐和环境音的前提下,仅替换并整合语音部分,从而简化多语言版本的后期制作流程。

面向创作者、营销团队与专业制作机构

Dubbing v2 可在 ElevenLabs 的创作平台「ElevenCreative」以及面向工作室和广播机构的服务「ElevenProductions」中使用。

对于个人创作者和内容团队,ElevenLabs 设想的典型场景包括:将 YouTube 等平台上的视频一键多语言化,同时保留创作者本人的声音特质和说话风格,让海外观众也能感受到「原汁原味」的表达。

在营销与品牌传播方面,企业可以利用 Dubbing v2 将广告片、产品介绍视频、品牌故事等内容本地化到不同国家和地区市场,同时保持一致的情绪表达和品牌语气。

面向专业制作方,如工作室和广播机构,ElevenLabs 还提供可与人工翻译、配音演员选角以及音频混音等环节结合的制作工作流程,以便在保证质量的前提下提升整体效率。

助力日本内容的多语言出海

在面向日本市场的发布中,ElevenLabs 特别提到,Dubbing v2 适用于动画、游戏、VTuber、YouTube 创作者内容、教育课程、面向访日游客的宣传视频、企业培训与内部沟通视频等多种场景。

例如,可以在保留角色或出演者表演张力和情绪表达的前提下,为动画和游戏制作多语言版本;也可以让创作者本人以「自己的声音」面向海外观众发布内容;企业则可以将内部培训、产品说明等视频快速多语言化,统一对全球员工或客户进行信息传达。

对于动画、游戏等涉及 IP 的内容,ElevenLabs 也强调,相关使用需在适当的权利处理和权利人同意的前提下进行。

API 预计将于数周内开放

目前,Dubbing v2 仅能通过 ElevenCreative 和 ElevenProductions 使用。根据官方文档,Dubbing v2 的 API 尚未正式开放,计划在未来数周内上线。

在产品页面中,ElevenLabs 也说明,目前尚不支持自助式 API 访问,后续将优先面向企业级客户提供相关能力。

对于希望将 Dubbing v2 集成到既有制作流程或自有系统中的用户,需要关注 API 的正式开放时间以及具体的使用条件和接入方式。


分享:


发表评论

登录后才可评论。 去登录