ElevenLabs推出「Dubbing v2」：可在90多种语言中还原原声情绪与语气的AI配音模型

AI 2026-06-09 AI配音, ElevenLabs, 多语言翻译, 语音克隆, 音频技术 10 次浏览

音频 AI 企业 ElevenLabs 宣布推出全新的多语言 AI 配音模型「Dubbing v2」。该模型主打在多语言环境下尽可能还原原说话者的情绪、语气和说话风格。继 2026 年 5 月 28 日（当地时间）在全球发布后，日本子公司 Eleven Labs Japan 合同会社也于 6 月 4 日宣布正式面向日本市场提供该服务。

借助 Dubbing v2，用户可以将视频或音频内容转换为 90 多种语言和口音。ElevenLabs 预计，这一能力将被广泛应用于日本出海内容，如动画、游戏、VTuber、教育内容以及企业宣传与培训视频等的多语言发行。

@YouTube

目标是实现「仿佛本人在说话」的 AI 配音

目前主流的 AI 配音流程，通常是先将原始音频转写为文本，再进行翻译，最后合成目标语言的语音。这种以文字为中心的处理方式，往往难以完整保留说话者的情绪起伏、重音、停顿、语速变化以及声音能量等细节。

ElevenLabs 将「让翻译后的声音听起来像是原说话者亲自开口」视为 AI 配音领域尚未完全解决的关键难题之一。Dubbing v2 不再只依赖文字转写，而是直接以原始语音表现为条件，对生成过程进行控制，从而在目标语言中尽可能还原原声的语气、节奏、说话方式和情感意图。

自动完成声音克隆、多说话人识别与时间同步

Dubbing v2 会基于原始音频的特征，为每一段翻译内容生成尽量接近原说话者的声音。系统会自动应用声音克隆技术，保留说话者的声线特征、音高和音色。在包含多位说话者的内容中，模型还能区分不同人物，并为各自生成带有对应声线特征的多语言配音。

在时间轴上，Dubbing v2 会根据不同语言的表达习惯，对措辞和语句节奏进行调整，使翻译后的语音与原视频或音频自然对齐。通过自动匹配开口时间、停顿和整体语速的同步翻译系统，创作者可以减少大量手动剪辑和微调的工作量。

此外，系统支持在保留背景音乐和环境音的前提下，仅替换并整合语音部分，从而简化多语言版本的后期制作流程。

面向创作者、营销团队与专业制作机构

Dubbing v2 可在 ElevenLabs 的创作平台「ElevenCreative」以及面向工作室和广播机构的服务「ElevenProductions」中使用。

对于个人创作者和内容团队，ElevenLabs 设想的典型场景包括：将 YouTube 等平台上的视频一键多语言化，同时保留创作者本人的声音特质和说话风格，让海外观众也能感受到「原汁原味」的表达。

在营销与品牌传播方面，企业可以利用 Dubbing v2 将广告片、产品介绍视频、品牌故事等内容本地化到不同国家和地区市场，同时保持一致的情绪表达和品牌语气。

面向专业制作方，如工作室和广播机构，ElevenLabs 还提供可与人工翻译、配音演员选角以及音频混音等环节结合的制作工作流程，以便在保证质量的前提下提升整体效率。

助力日本内容的多语言出海

在面向日本市场的发布中，ElevenLabs 特别提到，Dubbing v2 适用于动画、游戏、VTuber、YouTube 创作者内容、教育课程、面向访日游客的宣传视频、企业培训与内部沟通视频等多种场景。

例如，可以在保留角色或出演者表演张力和情绪表达的前提下，为动画和游戏制作多语言版本；也可以让创作者本人以「自己的声音」面向海外观众发布内容；企业则可以将内部培训、产品说明等视频快速多语言化，统一对全球员工或客户进行信息传达。

对于动画、游戏等涉及 IP 的内容，ElevenLabs 也强调，相关使用需在适当的权利处理和权利人同意的前提下进行。

API 预计将于数周内开放

目前，Dubbing v2 仅能通过 ElevenCreative 和 ElevenProductions 使用。根据官方文档，Dubbing v2 的 API 尚未正式开放，计划在未来数周内上线。

在产品页面中，ElevenLabs 也说明，目前尚不支持自助式 API 访问，后续将优先面向企业级客户提供相关能力。

对于希望将 Dubbing v2 集成到既有制作流程或自有系统中的用户，需要关注 API 的正式开放时间以及具体的使用条件和接入方式。

发表评论

登录后才可评论。去登录