企业人工智能公司 Cohere 周四宣布推出首个语音模型 Transcribe。这是一款开源自动语音识别(ASR)模型,面向笔记记录、语音分析等应用场景。
据介绍,Transcribe 模型参数量为 20 亿,体量相对较小,主要面向希望在自有环境中部署模型的用户,可在消费级 GPU 上运行。该模型目前支持 14 种语言,包括英语、法语、德语、意大利语、西班牙语、葡萄牙语、希腊语、荷兰语、波兰语、中文、日语、韩语、越南语和阿拉伯语。
Cohere 表示,在 Hugging Face 开放 ASR 排行榜上,Transcribe 在平均词错误率(WER)指标上优于多款同类模型,包括 Zoom Scribe v1、IBM Granite 4.0 1B、ElevenLabs Scribe v2 和 Qwen3-ASR-1.7B Speech。该模型在该基准中的平均 WER 为 5.42,低于榜单中其他对比模型。
在人工评估方面,Cohere 称,评估员从准确性、一致性和可用性等维度对转录结果进行打分,Transcribe 的平均胜率为 61%。不过,公司同时指出,在葡萄牙语、德语和西班牙语转录任务上,该模型相较部分竞争产品表现偏弱。

在处理效率上,Cohere 表示,Transcribe 每分钟可处理 525 分钟音频,在同类模型中处于较高水平。
Cohere 计划将 Transcribe 集成至其企业代理编排平台 North,并通过 API 免费提供该模型访问能力。同时,Transcribe 也将上线 Cohere 的托管推理平台 Model Vault。
Cohere 指出,随着 Granola、Wispr Flow 等笔记和语音输入类应用需求上升,语音识别模型的使用正在增加。
今年早些时候,有报道援引 Cohere 向投资者的说明称,公司预计 2025 年年经常性收入将达到 2.4 亿美元。报道还引述首席执行官 Aidan Gomez 的表述称,这家初创公司可能“很快”推进上市进程。