2025年AI芯片短缺重塑企业部署版图:供应链现实压过技术路线

richlovec 1500_400 (1)
 

AI芯片短缺成为企业AI部署“硬约束”

2025年,AI芯片供应紧张被多家机构视为企业级AI部署的关键限制因素。多名企业技术负责人在内部沟通中指出,相比软件路线图或供应商承诺,半导体产业的地缘政治环境与制造、封装、供电等物理约束,正成为决定AI项目节奏的首要变量。

这一局面最初源于美国对华先进AI芯片出口的限制措施,但随后演变为更广泛的基础设施压力:全球范围内AI算力需求快速攀升,而晶圆制造、先进封装和配套电力基础设施均难以按“软件速度”扩张。

CloudZero对500名工程专业人士的调研显示,企业在AI上的平均月支出预计在2025年达到85,521美元,较2024年增长36%。计划每月投入超过10万美元的组织占比,从2024年的20%跃升至2025年的45%。受访者普遍认为,这一增长更多反映了元器件成本和部署周期超出预期,而非AI本身价值在同等幅度提升。

出口管制扰动芯片获取节奏

美国对华AI芯片出口政策在2025年多次调整,增加了企业采购的不确定性。

2025年12月,特朗普政府决定有条件允许向中国销售Nvidia H200芯片。这一芯片被描述为迄今获准出口的性能最强AI芯片。相关安排包括:对获批的中国买家开放销售,并要求与美国政府按25%比例分成相关收入。该决定推翻了2025年4月实施的出口冻结令。

不过,政策逆转并未缓解此前数月积累的市场混乱。美国商务部长Howard Lutnick在作证时表示,2025年华为在中国境内仅能生产约20万颗AI芯片,而中国当年合法进口的、为满足出口合规而降级的Nvidia芯片约为100万颗。

在产能缺口背景下,走私活动增加。联邦检察官于2025年12月解封的文件显示,有团伙在2024年10月至2025年5月期间,试图出口至少1.6亿美元的Nvidia H100和H200 GPU。

对跨国企业而言,相关限制直接影响全球部署规划。部分在中国设有业务或数据中心的公司,面临突发的芯片获取限制;其他地区的企业则发现,其全球AI基础设施规划隐含了对芯片持续供应的假设,而这一前提在地缘政治波动下不再稳固。

存储芯片成为新的“瓶颈环节”

在出口管制之外,更深层的供应压力来自存储芯片,尤其是高带宽存储器(HBM)。HBM是AI加速器运行所需的关键配套元件,主要由三星、SK海力士和美光供应。随着产能接近满载,行业报告显示,HBM交付周期已延长至6至12个月。

价格随之大幅上行。Counterpoint Research数据显示,2025年部分类别DRAM价格同比上涨超过50%,服务器用DRAM合约价格单季涨幅最高达50%。据报道,三星已将服务器存储芯片价格上调30%至60%,并预计在需求持续超过扩产进度的情况下,2026年初存储价格可能再上涨约20%。

短缺并不限于AI专用元件。TrendForce援引路透社数据称,2025年10月DRAM供应商库存已降至2至4周,而2024年底仍为13至17周。SK海力士在与分析师沟通时表示,存储芯片短缺可能持续至2027年底,其2026年计划生产的存储芯片已全部售罄。

主要云服务商和互联网平台已提前锁定资源。Google、Amazon、Microsoft和Meta向美光下达了“愿意接收全部可供货量”的订单。中国的阿里巴巴、腾讯和字节跳动则向三星和SK海力士争取优先供应。

未来压力也在累积。市场消息称,OpenAI已与三星和SK海力士签署初步协议,其Stargate项目到2029年每月可能需要多达90万片晶圆,约为当前全球HBM月产量的两倍。

部署周期拉长:从算力短缺到电力约束

芯片与存储短缺不仅推高成本,也延长了企业AI项目的落地周期。行业分析人士指出,2025年初,企业级定制AI解决方案从立项到全面部署通常需要6至12个月;到年底,典型周期已延长至12至18个月,部分项目更久。

电力接入成为新的关键制约。贝恩公司合伙人Peter Hanbury在接受CNBC采访时表示,电力接入周期已成为数据中心扩张的最大瓶颈,部分项目仅为获得电力接入就需等待长达五年。贝恩预计,到2030年,全球数据中心用电需求将增加163吉瓦,其中大部分与生成式AI的高算力需求相关。

微软CEO Satya Nadella在公开场合指出,目前面临的主要问题并非算力过剩,而是电力供应及其建设进度。他表示,如果电力基础设施无法及时到位,“可能会有一堆芯片闲置在库存里无法使用”,并称这已是其当前面临的现实问题之一。

在企业IT环境中,传统技术采购团队也面临更高不确定性。贝恩公司Chad Bickley在2025年3月的分析中指出,在当前环境下,采购方需要更早锁定资源并承担相应风险,以确保未来供应。他同时提到,为应对生产延迟,企业可能不得不提前采购价格较高、且技术迭代较快的前沿产品库存。

隐性成本推高整体预算

公开可见的价格上涨只是企业成本压力的一部分。行业数据称,2025年HBM价格同比上涨约20%至30%,GPU云服务成本在不同地区上涨40%至300%。与此同时,多项此前未被充分计入预算的隐性成本开始显现。

先进封装产能成为关键瓶颈之一。台积电的CoWoS封装技术是将HBM与AI处理器进行堆叠集成的核心工艺。相关产能据称在2025年底前已被预订一空。随着晶圆产量提升,对该类封装的需求同步激增,形成新的次级瓶颈,进一步拉长整体交付周期。

除芯片本身外,其他基础设施成本也在上升。企业级NVMe SSD价格较一年前上涨约15%至20%,原因在于AI工作负载对耐用性和带宽的要求高于传统应用。贝恩的分析显示,计划部署AI的企业,仅因存储元件涨价,物料清单成本就增加了约5%至10%。

实施与治理相关支出同样显著。部分企业每年在监控、治理和使能基础设施上的投入在5万至25万美元之间,且不包括核心软件许可费用。基于用量计费的模式,使得高AI交互密度团队在进行大量模型训练或频繁推理时,月度账单出现超出预期的上升。

企业在2025年的应对与后续启示

在2025年的供应紧张环境下,一些企业通过调整策略缓解了冲击,其做法被业内视为后续数年采购与部署决策的重要参考。

一是提前多元化供应关系。 在短缺加剧前,与多家供应商签订长期供货协议的企业,其部署周期相对更为可预测;依赖现货采购的企业则更易受到价格与交付波动影响。

二是为元器件波动预留预算空间。 多家企业技术负责人在内部规划中,将AI基础设施预算的20%至30%作为成本缓冲,用于应对存储价格波动和供应缺口带来的不确定性。

三是优先优化再扩展。 在部分应用场景中,通过模型量化、剪枝和推理优化等技术,可减少30%至70%的GPU需求。业内观察认为,相比单纯增加硬件投入,优先提升效率的企业在经济性方面表现更为稳健。

四是采用混合基础设施模式。 多云策略以及将云GPU与自建或租赁专用集群结合的混合部署,被部分企业用于提升可靠性和成本可预测性。在高强度AI工作负载场景下,自建或长期租赁基础设施被一些企业视为相较高价云GPU租用更具成本优势的选项之一。

五是将地缘政治纳入架构考量。 芯片出口政策的快速变化,使企业在设计全球AI基础设施时,不再默认监管环境长期稳定。涉足中国市场的企业,开始在部署架构中预留更高的监管灵活性。

2026年及以后:供需失衡仍难缓解

从企业当前可见的信息来看,AI芯片及存储供应的紧张局面在短期内难以根本缓解。

新建存储芯片工厂通常需要数年建设周期。2025年宣布的多数扩产计划,预计要到2027年或更晚才能投产。SK海力士的指引显示,存储短缺至少可能持续至2027年底。

出口管制政策仍在演变。市场预期显示,2025年晚些时候可能会有新的“特朗普AI管制”规则出台,以取代早期框架,并可能将马来西亚、泰国等被视为中国转运通道的国家纳入出口管制范围。每一次政策调整,都为全球企业的采购与部署带来新的不确定性。

宏观层面,相关约束的影响已超出IT预算范畴。存储短缺可能推迟数千亿美元规模的AI基础设施投资,从而影响企业对AI驱动生产率提升的时间预期。元器件成本上涨,也被部分机构视为在全球对价格变动高度敏感的背景下,可能进一步推高通胀压力的因素之一。

多位企业高管在内部总结中提到,2025年的经验表明:软件迭代遵循数字世界的节奏,硬件扩产受制于物理世界的速度,而地缘政治则按自身逻辑推进。这三者之间的时间差,正在决定企业在现实中能够部署的AI能力范围,而不仅仅是供应商的技术路线图或市场宣传。

在这一轮考验中,被视为表现较好的企业,并非预算规模最大或AI愿景最宏大的参与者,而是那些在2025年优先正视供应链约束,并据此调整规划与节奏的公司。


分享:


发表评论

登录后才可评论。 去登录