走进亚马逊Trainium实验室:支撑Anthropic、OpenAI与苹果合作的AI芯片布局

AWS押注Trainium芯片,支撑与OpenAI的500亿美元协议

在亚马逊首席执行官安迪·贾西(Andy Jassy)宣布AWS与OpenAI达成总额500亿美元的投资协议后不久,AWS在美国奥斯汀向媒体开放了其核心自研芯片实验室。此次参观由亚马逊承担主要差旅费用。

业内关注的焦点在于,该实验室研发的Trainium芯片被视为降低大模型推理成本的关键技术之一,同时被认为可能对英伟达在高端AI芯片市场的强势地位构成挑战。

根据双方公布的协议,AWS将成为OpenAI新AI代理构建平台Frontier的独家云服务提供商。若代理技术如硅谷预期般发展,Frontier被视为OpenAI未来业务的重要组成部分。与此同时,《金融时报》本周报道称,微软可能认为OpenAI与亚马逊的合作安排与其自身与OpenAI的协议存在冲突,尤其涉及微软在雷德蒙德对OpenAI全部模型和技术的访问权问题。

作为协议的一部分,AWS承诺向OpenAI提供2吉瓦规模的Trainium算力。考虑到Anthropic以及亚马逊自有的Bedrock服务已经在以快于亚马逊产能的速度消耗Trainium芯片,这一承诺在业内被视为体量可观。

AWS方面介绍称,三代Trainium芯片累计部署量已达约140万颗,其中超过100万颗Trainium2芯片用于支撑Anthropic的Claude模型运行。

从训练到推理:Trainium角色转变

Trainium最初主要面向大模型训练场景,强调在成本和速度上的优势。但AWS表示,随着市场重心转向推理性能,该系列芯片已被重点调优用于推理——即模型实际生成响应的运行过程,这一环节目前被视为行业最大的性能瓶颈。

实验室负责人Kristopher King表示,Trainium2已经承担了亚马逊Bedrock服务上大部分推理流量。Bedrock为大量企业客户提供构建AI应用的平台,并支持多种模型接入。

“我们的客户群正在以我们能提供的容量速度快速扩展,”King称。他补充说,Bedrock未来在规模上“有一天可能会像EC2一样庞大”,指的是AWS的旗舰计算云服务。

Trainium3与英伟达竞争:成本与互联架构

在与英伟达GPU的竞争中,亚马逊强调Trainium在成本结构上的优势。公司称,新一代芯片搭载在Trn3 UltraServer上,运行成本相比传统云服务器可降低多达50%,而性能“相当”。

随着2023年12月Trainium3发布,AWS团队同时推出了新的Neuron交换机。工程总监Mark Carroll表示,这一组合“具有变革性”,可让每颗Trainium3芯片以网状结构互联,降低通信延迟,从而在“每瓦性能价格”指标上取得优势。

在大模型每天处理数万亿令牌的背景下,AWS认为这类互联和能效优化在总体成本上具有显著累积效应。

2024年,苹果曾在公开场合罕见地点名肯定亚马逊芯片团队。苹果AI负责人当时介绍了该公司如何使用AWS团队设计的Graviton芯片——一款低功耗、基于ARM架构的服务器CPU,也是该团队的首款重要产品。苹果同时称赞了专为推理设计的Inferentia芯片,并对当时仍较新的Trainium给予正面评价。

AWS方面将这一系列产品视为其一贯策略的延伸:在明确市场需求后,推出具有价格竞争力的自研替代方案。

降低迁移门槛:对英伟达生态的“对冲”

芯片替代方案长期面临的关键难点在于迁移成本。为英伟达GPU编写的应用通常需要重新架构才能在其他芯片上运行,这一过程耗时且复杂,令不少开发者犹豫。

AWS芯片团队表示,Trainium目前已支持主流开源深度学习框架PyTorch,包括大量托管在Hugging Face上的开源模型。Carroll称,在许多场景下,迁移到Trainium“基本只需一行代码修改,然后重新编译,接着在Trainium上运行”。

AWS近期还宣布与Cerebras Systems合作,将后者的推理芯片集成到运行Trainium的服务器中。亚马逊表示,这一组合将带来高性能、低延迟的AI推理能力。

除芯片本身外,AWS还在服务器系统层面进行深度自研。团队设计了承载芯片的服务器托盘、配套网络组件,以及名为“Nitro”的硬件与软件一体化虚拟化技术,用于在同一服务器上安全运行多个软件实例。同时采用最新液冷技术以提升散热效率并控制能耗。

从Annapurna Labs到奥斯汀实验室

AWS定制芯片设计部门可追溯至2015年1月,当时亚马逊以约3.5亿美元收购以色列芯片设计公司Annapurna Labs。此后,该团队持续为AWS设计自研芯片,并保留了Annapurna的名称和标识。

此次开放的Trainium实验室位于奥斯汀“The Domain”区域一栋玻璃幕墙办公楼内,该区域集办公、零售和餐饮于一体,被当地部分人士称为“奥斯汀的硅谷”。

实验室所在楼层前部为常见的科技公司办公布局,后部则是实际的硬件实验空间,可俯瞰城市景观。实验室面积约相当于两个大型会议室,货架林立,设备风扇运转声较大。

这里并非芯片制造场所,因此无需无尘服。AWS介绍,Trainium3是一款采用3纳米工艺的先进芯片,由台积电代工生产;其他部分芯片则由Marvell代工。实验室的主要工作是完成所谓的“芯片激活”——即在芯片流片完成后首次上电验证设计是否按预期工作。

King形容,“硅片激活”通常是在芯片完成约18个月设计工作后进行的一次关键测试,团队会在实验室通宵值守。AWS甚至将部分Trainium3激活过程拍摄并上传至YouTube。

在Trainium3原型激活过程中,团队曾遇到散热器与芯片安装尺寸不匹配的问题,导致无法顺利点亮芯片。工程师随后临时对金属部件进行打磨调整,以完成测试。King称,这类“熬夜解决问题”的过程几乎伴随每一次新芯片激活。

实验室还配备焊接工位,用于在显微镜下焊接微小集成电路组件。硬件实验室工程师Isaac Guevara在现场演示了相关操作。信号工程师Arvind Srinivasan则展示了如何使用定制和商用测试设备,对芯片上的各个微小组件进行信号与性能验证。

托盘系统:支撑大规模集群的“明星”组件

在实验室一侧,陈列架上整齐摆放着各代服务器托盘,被团队视为这里的“明星”展品。

这些托盘用于承载Trainium AI芯片、Graviton CPU以及相关电路板和组件。与团队自研的网络模块一起叠放在服务器机架中,构成了包括Anthropic Claude在内的大规模AI集群的基础硬件系统。

AWS此前在2023年12月的re:Invent大会上曾公开展示过其中一代托盘设计。

Anthropic与OpenAI:不同阶段的合作重心

AWS与Anthropic的合作始于后者成立初期,AWS一直是其主要云平台。即便Anthropic后来新增微软作为云合作伙伴,与AWS的合作关系仍然保持。当前,最大规模的Trainium2芯片部署集中在名为Project Rainier的集群上。AWS称,该集群于2025年底上线,配备约50万颗Trainium2芯片,被描述为全球最大AI计算集群之一,由Anthropic使用。

在此次参观中,实验室工程师更多谈及的是Anthropic和亚马逊内部需求,而非OpenAI。参观者的印象是,一线工程团队目前与OpenAI的直接合作尚不多,主要精力仍放在现有客户和下一代Trainium4的设计上。

不过,在主办公区墙上的显示屏上,仍可见到关于OpenAI将使用Trainium的引用内容,AWS方面对这一合作表现出一定程度的低调自豪。

除奥斯汀实验室外,团队还运营着一个独立的数据中心,用于芯片质量和系统测试。该设施位于附近的共置机房,不承载客户工作负载,因此不属于AWS对外服务的数据中心。进入大楼及亚马逊区域均需通过严格的安全检查。

数据中心内部冷却系统噪音较大,空气中带有加热金属的气味。机房内一排排服务器机架中,装载着集成Graviton CPU、液冷Trainium3以及Amazon Nitro的最新托盘系统。工程师介绍,液冷系统采用闭环循环设计,冷却液可重复使用,有助于降低环境影响。

当前Trn3 UltraServer的外观为多块托盘上下叠放,中间通过Neuron交换机互联。硬件开发工程师David Martinez-Darrow在现场对托盘进行维护演示。

管理层关注与工程压力

随着自研芯片在AWS业务中的权重提升,该团队也受到亚马逊高层的密切关注。安迪·贾西多次在公开场合提及Trainium。2023年12月,他表示Trainium已发展为AWS的“数十亿美元业务”,并称其是自己“最期待”的AWS技术之一。在宣布与OpenAI的协议时,他也特别点名了这款芯片。

工程团队则面临紧张的交付节奏。Carroll介绍,每次新芯片激活前后,工程师通常需要连续三到四周全天候工作,以排查问题,确保芯片能够顺利量产并部署到数据中心。

“尽快验证芯片能正常工作非常重要,”Carroll说,“到目前为止,我们表现非常好。”

——

注:亚马逊为本次参观提供了往返机票及当地酒店一晚住宿,其他交通及行李费用由媒体机构自行承担。


分享:


发表评论

登录后才可评论。 去登录