微软发布三款多模态基础模型加强自研AI版图

商业 2026-05-01 科技最前沿微软, 人工智能, 基础模型, 多模态, OpenAI 35 次浏览

微软旗下研究实验室 Microsoft AI 周四宣布推出三款新的基础人工智能模型，覆盖文本转录、语音生成和图像生成等多模态能力。

此次发布被微软视为其自建多模态模型体系的最新进展。公司表示，在继续与 OpenAI 合作的同时，将通过自研模型与其他 AI 实验室展开更直接的竞争。

根据微软发布的新闻稿，此次推出的三款模型分别为：

MAI-Transcribe-1：语音转文本模型，可支持 25 种语言的语音转录。微软称，其转录速度约为 Azure Fast 产品的 2.5 倍，定价起步为每小时 0.36 美元。
MAI-Voice-1：音频生成模型，可在 1 秒内生成 60 秒音频，并支持用户创建自定义声音。该模型的起始价格为每 100 万个字符 22 美元。
MAI-Image-2：图像生成模型，按令牌计费，文本输入部分起价为每 100 万个令牌 5 美元，图像输出部分起价为每 100 万个令牌 33 美元。

微软在博客中表示，在当前大型语言模型竞争日趋激烈的背景下，MAI 系列模型的一个重要卖点是相较谷歌和 OpenAI 产品具有更低的使用成本。

微软介绍，MAI-Image-2 最初已于 3 月 19 日在 MAI Playground 上线。MAI Playground 是一款用于测试大型语言模型的软件环境。

目前，三款模型均已在 Microsoft Foundry 平台发布，其中转录和语音模型也已在 MAI Playground 中开放使用。

上述模型由微软的 MAI 超级智能团队开发。该团队由微软 AI 首席执行官 Mustafa Suleyman 领导，并于 2025 年 11 月成立并对外公布。

Suleyman 在一篇博客文章中表示，Microsoft AI 致力于构建“人文主义 AI”。他称，该团队在设计模型时采用以人为中心的视角，围绕人们实际的沟通方式进行优化，并以实用场景为训练目标。他同时表示，未来将在 Foundry 以及微软的各类产品和服务中推出更多模型。

在发布自有模型的同时，微软继续强调与 OpenAI 的合作。Suleyman 在接受 VentureBeat 采访时重申了微软对这一合作关系的承诺。

他在接受 The Verge 采访时还表示，微软与 OpenAI 最近对合作条款进行了重新谈判，这一调整使微软能够在超级智能研究方面“真正开展工作”。

微软此前已向 OpenAI 投资逾 130 亿美元，并通过多年期合作在其多类产品中托管 OpenAI 的模型。公司在芯片策略上采取类似做法，即一方面自研芯片，另一方面继续从外部供应商采购。

登录后才可评论。去登录