Google Research - GFT财经

Google Research

Google Research 发布 TurboQuant：将 LLM KV 缓存压缩至六分之一，实现最高 8 倍推理加速且几乎零精度损失

Google Research 发布 TurboQuant：将 LLM KV 缓存压缩至六分之一，实现最高 8 倍推理加速且几乎零精度损失

AI 2026-04-01

Google Research 提出全新 KV 缓存压缩方案 TurboQuant，通过极坐标量化等技术，将大模型 KV 缓存压缩 6 倍以上，并在长上下文场景中实现最高约 8 倍推理加速，同时几乎不损失模型精度。