Google Research 发布 TurboQuant:将 LLM KV 缓存压缩至六分之一,实现最高 8 倍推理加速且几乎零精度损失
Google Research 提出全新 KV 缓存压缩方案 TurboQuant,通过极坐标量化等技术,将大模型 KV 缓存压缩 6 倍以上,并在长上下文场景中实现最高约 8 倍推理加速,同时几乎不损失模型精度。
Google Research 提出全新 KV 缓存压缩方案 TurboQuant,通过极坐标量化等技术,将大模型 KV 缓存压缩 6 倍以上,并在长上下文场景中实现最高约 8 倍推理加速,同时几乎不损失模型精度。