VAST Data与NVIDIA推出面向智能代理时代的AI推理架构

AI 2026-01-07 小A聊AI VAST Data, NVIDIA, AI推理, BlueField-4, KV缓存 26 次浏览

VAST Data宣布推出一套新的AI推理架构，用于支持NVIDIA推理上下文内存存储平台的部署，面向“长寿命智能代理”工作负载下的大规模推理需求。

该公司表示，VAST AI操作系统（AI OS）可原生运行在NVIDIA BlueField-4 DPU上，并结合Spectrum-X以太网网络构建AI原生存储基础设施，以加速AI原生键值（KV）缓存访问，实现跨节点的高速推理上下文共享，同时在能效方面实现提升。

VAST Data指出，随着推理从单次提示逐步演进为跨智能体的持续多轮推理，传统“局部上下文保持”的方式逐渐难以满足需求。在持续负载下，系统性能越来越取决于推理历史（KV缓存）在存储、恢复、重用、扩展与共享方面的效率，而不再仅由GPU计算速度决定。

在架构设计上，VAST Data称其通过在BlueField-4 DPU上运行AI OS，重构推理数据路径，将关键数据服务嵌入推理执行的GPU服务器以及专用数据节点架构中。公司表示，这一设计旨在减少传统客户端—服务器模式下的争用，避免并发增加时不必要的数据复制与跳转，从而抑制首次生成令牌时间（TTFT）膨胀。

VAST Data进一步称，结合其并行分离共享一切（DASE）架构，每个主机可访问共享的全局一致上下文命名空间，减少协调开销带来的瓶颈，并实现从GPU内存到持久NVMe存储的RDMA网络直通路径。

VAST Data全球技术联盟副总裁John Mao在声明中表示，推理正在成为“内存系统”，而不仅是计算任务；关键在于能否以线速移动、共享和管理上下文。他称，借助运行于NVIDIA BlueField-4上的VAST AI操作系统，公司将上下文作为共享基础设施来提供，以在智能代理AI扩展时保持可预测性。

除性能层面外，VAST Data表示，其方案也面向采用NVIDIA AI工厂的组织与企业提供生产级推理协调路径，强调在高效性与安全性之间取得平衡。公司称，随着推理从实验走向受监管与创收服务，团队需要通过策略、隔离、审计、生命周期控制及可选保护来管理上下文，同时保持KV缓存作为共享系统资源的高速与可用性。

NVIDIA网络高级副总裁Kevin Deierling在声明中表示，多轮与多用户推理改变了大规模上下文内存的管理方式；VAST Data AI OS结合NVIDIA BlueField-4，可支持NVIDIA推理上下文内存存储平台，并提供面向持续吞吐与可预测性能的统一数据平面，以满足智能代理工作负载的扩展需求。

VAST Data同时宣布，将于2026年2月24日至26日在美国犹他州盐湖城举办首届用户大会VAST Forward，称将安排与公司管理层、客户及合作伙伴的交流，并设置技术研讨、动手实验和认证项目。

发表评论

登录后才可评论。去登录