微软旗下研究实验室 Microsoft AI 周四宣布推出三款新的基础人工智能模型,覆盖文本转录、语音生成和图像生成等多模态能力。
此次发布被微软视为其自建多模态模型体系的最新进展。公司表示,在继续与 OpenAI 合作的同时,将通过自研模型与其他 AI 实验室展开更直接的竞争。
三款模型功能与性能
根据微软发布的新闻稿,此次推出的三款模型分别为:
- MAI-Transcribe-1:语音转文本模型,可支持 25 种语言的语音转录。微软称,其转录速度约为 Azure Fast 产品的 2.5 倍,定价起步为每小时 0.36 美元。
- MAI-Voice-1:音频生成模型,可在 1 秒内生成 60 秒音频,并支持用户创建自定义声音。该模型的起始价格为每 100 万个字符 22 美元。
- MAI-Image-2:图像生成模型,按令牌计费,文本输入部分起价为每 100 万个令牌 5 美元,图像输出部分起价为每 100 万个令牌 33 美元。
微软在博客中表示,在当前大型语言模型竞争日趋激烈的背景下,MAI 系列模型的一个重要卖点是相较谷歌和 OpenAI 产品具有更低的使用成本。
上线渠道与发布时间线
微软介绍,MAI-Image-2 最初已于 3 月 19 日在 MAI Playground 上线。MAI Playground 是一款用于测试大型语言模型的软件环境。
目前,三款模型均已在 Microsoft Foundry 平台发布,其中转录和语音模型也已在 MAI Playground 中开放使用。

团队背景与产品定位
上述模型由微软的 MAI 超级智能团队开发。该团队由微软 AI 首席执行官 Mustafa Suleyman 领导,并于 2025 年 11 月成立并对外公布。
Suleyman 在一篇博客文章中表示,Microsoft AI 致力于构建“人文主义 AI”。他称,该团队在设计模型时采用以人为中心的视角,围绕人们实际的沟通方式进行优化,并以实用场景为训练目标。他同时表示,未来将在 Foundry 以及微软的各类产品和服务中推出更多模型。
与 OpenAI 的合作关系
在发布自有模型的同时,微软继续强调与 OpenAI 的合作。Suleyman 在接受 VentureBeat 采访时重申了微软对这一合作关系的承诺。
他在接受 The Verge 采访时还表示,微软与 OpenAI 最近对合作条款进行了重新谈判,这一调整使微软能够在超级智能研究方面“真正开展工作”。
微软此前已向 OpenAI 投资逾 130 亿美元,并通过多年期合作在其多类产品中托管 OpenAI 的模型。公司在芯片策略上采取类似做法,即一方面自研芯片,另一方面继续从外部供应商采购。