Stability AI近日宣布推出新一代音频生成模型系列“Stability Audio 3.0”,可用于创作长时段音乐音轨。该公司称,其顶级模型能够生成时长超过六分钟的专业级音乐作品。
四款新模型覆盖从设备端到专业级应用
Stability Audio 3.0系列共包括四款模型:
- 小型 SFX 模型(4.59 亿参数)
- 小型模型(4.59 亿参数)
- 中型模型(14 亿参数)
- 大型模型(27 亿参数)
公司表示,两款小型模型适合在设备端运行,可生成最长两分钟的声音和音乐内容,面向本地创作和轻量级应用场景。
中型和大型模型则面向更复杂的音乐创作需求。Stability AI称,这两款模型能够生成时长为 6 分 20 秒的完整音乐作品,并在此长度内保持音乐结构和旋律音调的连贯性。与 2024 年发布的 Stable Audio 2.0 相比,新模型可生成的音轨时长超过前代产品的两倍。
开放权重与商业化路径
在开放策略方面,Stability AI将小型 SFX、小型和中型三款模型以开放权重形式发布,允许任何人下载、使用并进行修改。该公司在 2024 年曾推出 Stable Audio Open,支持生成最长 47 秒的音乐。Stability AI表示,与此前的开放版本相比,新一代模型在能力上有显著提升。
大型模型则通过 API 和自托管付费服务提供,不以开放权重形式发布。Stability AI同时规定,年收入超过 100 万美元的公司如需使用相关模型,需获得企业级许可。

授权数据与音乐行业合作
在音乐生成领域,包括谷歌和 ElevenLabs 在内的多家公司正陆续推出相关模型和工具。与此同时,围绕训练数据授权的争议持续发酵。Suno 和 Udio 目前面临的法律诉讼显示,数据授权以及与音乐厂牌的合作,被视为此类服务长期运营的重要因素之一。
Stability AI此前已与华纳音乐集团和环球音乐集团签署协议,合作开发模型和音乐创作工具。公司表示,其最新一代音频模型基于“完全授权的数据”构建。
加强音乐业务团队建设
Stability AI正在开发一套面向专业音乐人的新产品,但尚未披露具体功能细节。公司同时在扩充音乐业务管理团队。
前环球音频和 Fender 首席数字官 Ethan Kaplan 将加入 Stability AI,负责领导公司的专业音乐业务。业内多家从事生成式技术的公司也在通过引入音乐行业高管强化自身布局。
今年早些时候,Suno 聘请前 Merlin 首席执行官 Jeremy Sirota 出任首席商务官;ElevenLabs 则从独立音乐出版商 Kobalt 引入 Derek Cournoyer,负责其音乐业务战略。
