Gcore 将 NVIDIA Dynamo 集成至 AI 推理方案,称吞吐量最高提升 6 倍

richlovec 1500_400 (1)
 

Gcore 今日宣布,已将 NVIDIA 开源推理框架 NVIDIA Dynamo 集成至其 AI 推理解决方案中。Gcore 称,此次集成可带来显著的 GPU 效率提升,吞吐量最高提升 6 倍、延迟降低一半,并支持全托管的一键部署。Dynamo 目前已在 Gcore Everywhere Inference 与 Gcore Everywhere AI 平台上线。

NVIDIA Dynamo 是一款面向大规模生成式 AI 与推理模型的开源推理框架,旨在加速与优化推理过程。Gcore 表示,Dynamo 主要针对企业在大规模推理中遇到的 GPU 利用率不足、静态资源分配、内存瓶颈以及数据传输效率低下等问题。

据介绍,Gcore 将 Dynamo 以全托管方案形式提供,并对主流推理模型进行预优化。客户可通过 Gcore 客户门户一键启用 Dynamo,无需自行管理路由、KV 缓存逻辑或 GPU 调度。该集成支持私有云、混合云及本地推理环境,覆盖 Gcore Everywhere AI 与 Everywhere Inference。

Gcore 边缘云与 AI 产品总监 Seva Vayner 表示,现代推理不仅是运行模型,还涉及批处理、路由、动态工作负载、更长上下文以及严格的服务级别目标;在此背景下,调度与利用率的细微损失可能带来显著的性能与成本影响。他称,通过将 Dynamo 作为托管服务集成至 Gcore,相关 GPU 优化能力被引入运行时路径,客户可在无需自行处理复杂性的情况下获得更高的有效吞吐量与更稳定的尾部延迟。

Gcore 还表示,除性能提升外,Dynamo 通过提高 GPU 利用率并减少解码与缓存重计算过程中的浪费周期,实现成本优化。其机制包括分离预填充与解码、采用 KV 缓存感知路由,以及利用 NIXL 实现高效的节点间通信,从而在相同硬件条件下处理更多请求,降低每个 token 的成本并提升整体投资回报率。

Gcore 称,基于 Dynamo 的推理能力已在 Gcore Inference 与 Everywhere AI 平台上线,并将于 3 月 2 日至 5 日在巴塞罗那举行的 MWC,以及 3 月 16 日至 19 日在圣何塞举行的 GTC 现场展示在 Gcore 上运行的 NVIDIA Dynamo 演示。


分享:


发表评论

登录后才可评论。 去登录