走进亚马逊Trainium实验室：支撑Anthropic、OpenAI与苹果合作的AI芯片布局

商业 2026-04-16 科技最前沿亚马逊, AWS, 芯片, 人工智能, 云计算 3 次浏览

AWS押注Trainium芯片，支撑与OpenAI的500亿美元协议

在亚马逊首席执行官安迪·贾西（Andy Jassy）宣布AWS与OpenAI达成总额500亿美元的投资协议后不久，AWS在美国奥斯汀向媒体开放了其核心自研芯片实验室。此次参观由亚马逊承担主要差旅费用。

业内关注的焦点在于，该实验室研发的Trainium芯片被视为降低大模型推理成本的关键技术之一，同时被认为可能对英伟达在高端AI芯片市场的强势地位构成挑战。

根据双方公布的协议，AWS将成为OpenAI新AI代理构建平台Frontier的独家云服务提供商。若代理技术如硅谷预期般发展，Frontier被视为OpenAI未来业务的重要组成部分。与此同时，《金融时报》本周报道称，微软可能认为OpenAI与亚马逊的合作安排与其自身与OpenAI的协议存在冲突，尤其涉及微软在雷德蒙德对OpenAI全部模型和技术的访问权问题。

作为协议的一部分，AWS承诺向OpenAI提供2吉瓦规模的Trainium算力。考虑到Anthropic以及亚马逊自有的Bedrock服务已经在以快于亚马逊产能的速度消耗Trainium芯片，这一承诺在业内被视为体量可观。

AWS方面介绍称，三代Trainium芯片累计部署量已达约140万颗，其中超过100万颗Trainium2芯片用于支撑Anthropic的Claude模型运行。

从训练到推理：Trainium角色转变

Trainium最初主要面向大模型训练场景，强调在成本和速度上的优势。但AWS表示，随着市场重心转向推理性能，该系列芯片已被重点调优用于推理——即模型实际生成响应的运行过程，这一环节目前被视为行业最大的性能瓶颈。

实验室负责人Kristopher King表示，Trainium2已经承担了亚马逊Bedrock服务上大部分推理流量。Bedrock为大量企业客户提供构建AI应用的平台，并支持多种模型接入。

“我们的客户群正在以我们能提供的容量速度快速扩展，”King称。他补充说，Bedrock未来在规模上“有一天可能会像EC2一样庞大”，指的是AWS的旗舰计算云服务。

Trainium3与英伟达竞争：成本与互联架构

在与英伟达GPU的竞争中，亚马逊强调Trainium在成本结构上的优势。公司称，新一代芯片搭载在Trn3 UltraServer上，运行成本相比传统云服务器可降低多达50%，而性能“相当”。

随着2023年12月Trainium3发布，AWS团队同时推出了新的Neuron交换机。工程总监Mark Carroll表示，这一组合“具有变革性”，可让每颗Trainium3芯片以网状结构互联，降低通信延迟，从而在“每瓦性能价格”指标上取得优势。

在大模型每天处理数万亿令牌的背景下，AWS认为这类互联和能效优化在总体成本上具有显著累积效应。

2024年，苹果曾在公开场合罕见地点名肯定亚马逊芯片团队。苹果AI负责人当时介绍了该公司如何使用AWS团队设计的Graviton芯片——一款低功耗、基于ARM架构的服务器CPU，也是该团队的首款重要产品。苹果同时称赞了专为推理设计的Inferentia芯片，并对当时仍较新的Trainium给予正面评价。

AWS方面将这一系列产品视为其一贯策略的延伸：在明确市场需求后，推出具有价格竞争力的自研替代方案。

降低迁移门槛：对英伟达生态的“对冲”

芯片替代方案长期面临的关键难点在于迁移成本。为英伟达GPU编写的应用通常需要重新架构才能在其他芯片上运行，这一过程耗时且复杂，令不少开发者犹豫。

AWS芯片团队表示，Trainium目前已支持主流开源深度学习框架PyTorch，包括大量托管在Hugging Face上的开源模型。Carroll称，在许多场景下，迁移到Trainium“基本只需一行代码修改，然后重新编译，接着在Trainium上运行”。

AWS近期还宣布与Cerebras Systems合作，将后者的推理芯片集成到运行Trainium的服务器中。亚马逊表示，这一组合将带来高性能、低延迟的AI推理能力。

除芯片本身外，AWS还在服务器系统层面进行深度自研。团队设计了承载芯片的服务器托盘、配套网络组件，以及名为“Nitro”的硬件与软件一体化虚拟化技术，用于在同一服务器上安全运行多个软件实例。同时采用最新液冷技术以提升散热效率并控制能耗。

从Annapurna Labs到奥斯汀实验室

AWS定制芯片设计部门可追溯至2015年1月，当时亚马逊以约3.5亿美元收购以色列芯片设计公司Annapurna Labs。此后，该团队持续为AWS设计自研芯片，并保留了Annapurna的名称和标识。

此次开放的Trainium实验室位于奥斯汀“The Domain”区域一栋玻璃幕墙办公楼内，该区域集办公、零售和餐饮于一体，被当地部分人士称为“奥斯汀的硅谷”。

实验室所在楼层前部为常见的科技公司办公布局，后部则是实际的硬件实验空间，可俯瞰城市景观。实验室面积约相当于两个大型会议室，货架林立，设备风扇运转声较大。

这里并非芯片制造场所，因此无需无尘服。AWS介绍，Trainium3是一款采用3纳米工艺的先进芯片，由台积电代工生产；其他部分芯片则由Marvell代工。实验室的主要工作是完成所谓的“芯片激活”——即在芯片流片完成后首次上电验证设计是否按预期工作。

King形容，“硅片激活”通常是在芯片完成约18个月设计工作后进行的一次关键测试，团队会在实验室通宵值守。AWS甚至将部分Trainium3激活过程拍摄并上传至YouTube。

在Trainium3原型激活过程中，团队曾遇到散热器与芯片安装尺寸不匹配的问题，导致无法顺利点亮芯片。工程师随后临时对金属部件进行打磨调整，以完成测试。King称，这类“熬夜解决问题”的过程几乎伴随每一次新芯片激活。

实验室还配备焊接工位，用于在显微镜下焊接微小集成电路组件。硬件实验室工程师Isaac Guevara在现场演示了相关操作。信号工程师Arvind Srinivasan则展示了如何使用定制和商用测试设备，对芯片上的各个微小组件进行信号与性能验证。

托盘系统：支撑大规模集群的“明星”组件

在实验室一侧，陈列架上整齐摆放着各代服务器托盘，被团队视为这里的“明星”展品。

这些托盘用于承载Trainium AI芯片、Graviton CPU以及相关电路板和组件。与团队自研的网络模块一起叠放在服务器机架中，构成了包括Anthropic Claude在内的大规模AI集群的基础硬件系统。

AWS此前在2023年12月的re:Invent大会上曾公开展示过其中一代托盘设计。

Anthropic与OpenAI：不同阶段的合作重心

AWS与Anthropic的合作始于后者成立初期，AWS一直是其主要云平台。即便Anthropic后来新增微软作为云合作伙伴，与AWS的合作关系仍然保持。当前，最大规模的Trainium2芯片部署集中在名为Project Rainier的集群上。AWS称，该集群于2025年底上线，配备约50万颗Trainium2芯片，被描述为全球最大AI计算集群之一，由Anthropic使用。

在此次参观中，实验室工程师更多谈及的是Anthropic和亚马逊内部需求，而非OpenAI。参观者的印象是，一线工程团队目前与OpenAI的直接合作尚不多，主要精力仍放在现有客户和下一代Trainium4的设计上。

不过，在主办公区墙上的显示屏上，仍可见到关于OpenAI将使用Trainium的引用内容，AWS方面对这一合作表现出一定程度的低调自豪。

除奥斯汀实验室外，团队还运营着一个独立的数据中心，用于芯片质量和系统测试。该设施位于附近的共置机房，不承载客户工作负载，因此不属于AWS对外服务的数据中心。进入大楼及亚马逊区域均需通过严格的安全检查。

数据中心内部冷却系统噪音较大，空气中带有加热金属的气味。机房内一排排服务器机架中，装载着集成Graviton CPU、液冷Trainium3以及Amazon Nitro的最新托盘系统。工程师介绍，液冷系统采用闭环循环设计，冷却液可重复使用，有助于降低环境影响。

当前Trn3 UltraServer的外观为多块托盘上下叠放，中间通过Neuron交换机互联。硬件开发工程师David Martinez-Darrow在现场对托盘进行维护演示。

管理层关注与工程压力

随着自研芯片在AWS业务中的权重提升，该团队也受到亚马逊高层的密切关注。安迪·贾西多次在公开场合提及Trainium。2023年12月，他表示Trainium已发展为AWS的“数十亿美元业务”，并称其是自己“最期待”的AWS技术之一。在宣布与OpenAI的协议时，他也特别点名了这款芯片。

工程团队则面临紧张的交付节奏。Carroll介绍，每次新芯片激活前后，工程师通常需要连续三到四周全天候工作，以排查问题，确保芯片能够顺利量产并部署到数据中心。

“尽快验证芯片能正常工作非常重要，”Carroll说，“到目前为止，我们表现非常好。”

——

注：亚马逊为本次参观提供了往返机票及当地酒店一晚住宿，其他交通及行李费用由媒体机构自行承担。

发表评论

登录后才可评论。去登录