DeepL推出语音到语音翻译套件,瞄准实时会议与客服场景

richlovec 1500_400 (1)
 

DeepL近日宣布推出一套语音到语音翻译产品组合,将业务从文本和文档翻译扩展至实时语音场景,覆盖在线会议、移动端与网页对话,以及一线员工使用的群组沟通等应用场景。公司同时发布API,允许外部开发者和企业基于其技术构建定制化应用,例如呼叫中心解决方案。

DeepL首席执行官Jarek Kutylowski在接受TechCrunch采访时表示,在多年专注文本翻译之后,语音翻译被视为公司业务发展的“自然下一步”。他称,DeepL在文本和文档翻译方面已取得显著进展,但公司认为市场上仍缺乏“优秀的实时语音翻译产品”。

Kutylowski指出,实时语音翻译的核心难点在于如何在降低延迟与保持翻译准确性之间取得平衡。延迟指的是从说话者开口到译文音频播放之间的时间差,这一指标对会议和客服等场景尤为关键。

在具体产品形态上,DeepL正在为Zoom和Microsoft Teams等视频会议平台推出插件。使用者在会议中可以在他人使用母语发言的同时,实时收听译音或在屏幕上查看同步显示的翻译文本。该功能目前处于早期访问阶段,DeepL正邀请机构用户加入候补名单。

除会议插件外,DeepL还推出适用于移动端和网页的对话产品,支持面对面交流或远程沟通。用户可通过二维码加入群组对话,面向培训课程、研讨会等多参与者场景。

DeepL表示,其语音到语音技术能够学习并适应用户的定制词汇,包括行业专用术语以及公司名称和个人姓名等,以提高在特定业务环境中的翻译表现。

谈及应用前景时,Kutylowski称,人工智能正在重塑未来数年客户服务的形态。他表示,在合格多语种员工稀缺且招聘成本较高的语言环境中,翻译层可以帮助企业向更多客户提供支持。

在技术路径方面,DeepL称目前掌控了语音到语音翻译的完整技术栈。现阶段系统采用分步流程:先将语音转写为文本,再进行文本翻译,最后将译文转换回语音。公司认为,凭借多年在文本翻译领域积累的经验,其在翻译质量上具备优势。DeepL同时表示,未来计划开发端到端语音翻译模型,直接在语音之间进行转换,跳过文本中间环节。

语音翻译和相关技术领域竞争正在加剧,多家初创企业已获得大量融资并推出产品。

2023年,Sanas从Quadrille Capital和Teleperformance筹集6500万美元,利用人工智能实时调整说话者口音,主要面向呼叫中心座席场景。

总部位于迪拜的Camb.AI则专注为媒体和娱乐公司提供语音合成和翻译服务,帮助客户在大规模配音和视频本地化方面提高效率。

由Reddit联合创始人Alexis Ohanian的投资机构Seven Seven Six支持的Palabra,正在开发一款实时语音翻译引擎,目标是在翻译过程中保留语义和说话者原声。该产品定位与DeepL当前的语音翻译方案形成更直接的竞争关系。


分享:


发表评论

登录后才可评论。 去登录