Agentic AI 正在从传统的无状态聊天机器人,演进为能够执行复杂工作流的系统。这一转变使模型对“长期记忆”的依赖显著增加,现有内存与存储架构面临扩展瓶颈。
随着基础模型参数规模扩展至数万亿级、上下文窗口扩大到数百万 token,保存和调用历史上下文的计算成本增长速度已超过算力本身的提升。部署此类系统的机构发现,用于存储推理历史的“长期记忆”——技术上通常以键值(KV)缓存形式存在——正在突破现有硬件架构的容量与带宽极限。
目前的基础设施设计,往往要求企业在两种方案之间取舍:要么将推理上下文保存在昂贵且稀缺的高带宽 GPU 内存(HBM)中,要么将其迁移到速度较慢的通用存储系统。前者在大规模上下文场景下成本过高,后者则引入显著延迟,使实时 Agentic 交互难以实现。
在这一背景下,NVIDIA 在其 Rubin 架构中推出推理上下文内存存储(Inference Context Memory Storage,ICMS)平台,试图为 AI 工作负载中新出现的短暂、高速内存需求提供专用存储层。NVIDIA 首席执行官黄仁勋表示,AI 正在重塑整个计算堆栈,其中也包括存储层。他指出,AI 系统正从一次性聊天机器人演进为能够理解物理世界、进行长周期推理、依托事实、调用工具完成任务,并具备短期和长期记忆的“智能协作体”。
KV 缓存带来的新型数据负载
在基于 Transformer 的模型中,为避免在生成每个新 token 时重复计算全部对话历史,模型会将中间状态存入 KV 缓存。在 Agentic 工作流中,这一缓存不仅跨单次对话存在,还会在多工具、多会话之间持续保留,随序列长度线性增长。
这类数据与传统的财务记录、客户日志等业务数据不同,属于派生数据:它对推理时延和吞吐至关重要,但并不需要企业文件系统通常提供的高持久性保障。通用存储堆栈多运行在标准 CPU 上,在元数据管理和复制等方面消耗大量资源,而这些特性并非 Agentic 工作负载的核心需求。
在现有从 GPU HBM(G1)到共享存储(G4)的多级层级结构中,当上下文从 GPU(G1)溢出到系统内存(G2),再进一步迁移到共享存储(G4)时,整体效率明显下降。将活跃上下文放置在 G4 层会引入毫秒级延迟,并提高每个 token 的能耗,使高成本 GPU 在等待数据期间处于空转状态。
对企业而言,这直接体现为总拥有成本(TCO)上升,电力和硬件资源更多消耗在基础设施开销,而非实际推理计算。
新增“G3.5”层的内存架构
业界的应对思路,是在现有层级结构中插入一层专用上下文存储。NVIDIA 推出的 ICMS 平台在 G2 与 G4 之间构建了一个“G3.5”层,即面向大规模推理场景的以太网连接闪存层。
该方案将存储能力直接集成到计算节点中。通过采用 NVIDIA BlueField-4 数据处理器,平台将上下文数据管理任务从主机 CPU 中卸载,为每个节点提供 PB 级共享容量,使代理能够保留大规模历史记录,而无需长期占用昂贵的 HBM 资源,从而提升 Agentic AI 的扩展能力。
在运营层面,这一架构的效果主要体现在吞吐和能耗两个维度。通过将相关上下文保存在这一中间层——其访问速度快于传统通用存储、成本又低于 HBM——系统可以在推理前将所需上下文“预加载”回 GPU,减少 GPU 解码器的空闲时间。据介绍,在长上下文工作负载下,每秒 token 数(TPS)可实现最高约 5 倍提升。
在能耗方面,由于该架构减少了通用存储协议带来的额外开销,整体能效相较传统方法同样可提升约 5 倍。
数据平面与网络的协同
要实现上述架构,企业 IT 团队需要重新审视存储网络设计。ICMS 平台依托 NVIDIA Spectrum-X 以太网,提供高带宽、低抖动的连接,使闪存存储在使用体验上更接近本地内存。
在企业基础设施中,关键集成点位于编排层。NVIDIA Dynamo 和推理传输库(NIXL)等框架负责管理 KV 块在不同内存层级之间的流动。这些工具与存储层协同工作,确保在模型推理时,将所需上下文按需加载至 GPU 内存(G1)或主机内存(G2)。NVIDIA DOCA 框架则通过提供 KV 通信层,将上下文缓存作为一等资源进行管理。
多家存储厂商已开始围绕这一架构布局。包括 AIC、Cloudian、DDN、戴尔科技、慧与、日立万达、IBM、Nutanix、Pure Storage、Supermicro、VAST Data 和 WEKA 在内的企业,正基于 BlueField-4 构建相关平台。这些解决方案预计将在今年下半年推向市场。
基础设施规划的结构性调整
引入专用上下文内存层,正在影响企业的数据分类方式和数据中心设计思路。
- 数据重新分类:企业 CIO 需要将 KV 缓存视为独立的数据类别,其特征是“短暂但对延迟高度敏感”,区别于“持久且冷存”的合规与归档数据。新增的 G3.5 层主要承载前者,而持久性的 G4 存储则聚焦长期日志和工件。
- 编排能力要求:这一架构的有效性依赖于软件对工作负载的智能调度。通过拓扑感知的编排(例如借助 NVIDIA Grove),系统可将作业尽量调度到接近其缓存上下文的位置,减少数据在网络中的移动距离和次数。
- 功率与密度管理:在相同机架空间内容纳更多可用容量,有助于延长既有设施的使用寿命,但同时提高了单位面积的计算与存储密度,对冷却能力和电力分配提出更高要求。
随着 Agentic AI 的普及,数据中心正从物理结构上进行调整。过去将计算与缓慢、持久存储严格分离的主流模式,难以满足具备大规模“照相式记忆”的代理对实时检索的需求。
通过在架构中引入专用上下文层,企业可以在一定程度上将模型内存需求的增长与 GPU HBM 成本脱钩。该类 Agentic AI 架构允许多个代理共享大规模、低功耗的内存池,在降低复杂查询服务成本的同时,通过高吞吐推理提升整体扩展能力。
在规划下一轮基础设施投资时,企业对内存层级效率的评估,正被置于与 GPU 选型同等重要的位置。
