VAST Data与NVIDIA推出面向智能代理时代的AI推理架构

richlovec 1500_400 (1)
 

VAST Data宣布推出一套新的AI推理架构,用于支持NVIDIA推理上下文内存存储平台的部署,面向“长寿命智能代理”工作负载下的大规模推理需求。

该公司表示,VAST AI操作系统(AI OS)可原生运行在NVIDIA BlueField-4 DPU上,并结合Spectrum-X以太网网络构建AI原生存储基础设施,以加速AI原生键值(KV)缓存访问,实现跨节点的高速推理上下文共享,同时在能效方面实现提升。

VAST Data指出,随着推理从单次提示逐步演进为跨智能体的持续多轮推理,传统“局部上下文保持”的方式逐渐难以满足需求。在持续负载下,系统性能越来越取决于推理历史(KV缓存)在存储、恢复、重用、扩展与共享方面的效率,而不再仅由GPU计算速度决定。

在架构设计上,VAST Data称其通过在BlueField-4 DPU上运行AI OS,重构推理数据路径,将关键数据服务嵌入推理执行的GPU服务器以及专用数据节点架构中。公司表示,这一设计旨在减少传统客户端—服务器模式下的争用,避免并发增加时不必要的数据复制与跳转,从而抑制首次生成令牌时间(TTFT)膨胀。

VAST Data进一步称,结合其并行分离共享一切(DASE)架构,每个主机可访问共享的全局一致上下文命名空间,减少协调开销带来的瓶颈,并实现从GPU内存到持久NVMe存储的RDMA网络直通路径。

VAST Data全球技术联盟副总裁John Mao在声明中表示,推理正在成为“内存系统”,而不仅是计算任务;关键在于能否以线速移动、共享和管理上下文。他称,借助运行于NVIDIA BlueField-4上的VAST AI操作系统,公司将上下文作为共享基础设施来提供,以在智能代理AI扩展时保持可预测性。

除性能层面外,VAST Data表示,其方案也面向采用NVIDIA AI工厂的组织与企业提供生产级推理协调路径,强调在高效性与安全性之间取得平衡。公司称,随着推理从实验走向受监管与创收服务,团队需要通过策略、隔离、审计、生命周期控制及可选保护来管理上下文,同时保持KV缓存作为共享系统资源的高速与可用性。

NVIDIA网络高级副总裁Kevin Deierling在声明中表示,多轮与多用户推理改变了大规模上下文内存的管理方式;VAST Data AI OS结合NVIDIA BlueField-4,可支持NVIDIA推理上下文内存存储平台,并提供面向持续吞吐与可预测性能的统一数据平面,以满足智能代理工作负载的扩展需求。

VAST Data同时宣布,将于2026年2月24日至26日在美国犹他州盐湖城举办首届用户大会VAST Forward,称将安排与公司管理层、客户及合作伙伴的交流,并设置技术研讨、动手实验和认证项目。


分享:


发表评论

登录后才可评论。 去登录