Google Research 发布 TurboQuant:将 LLM KV 缓存压缩至六分之一,实现最高 8 倍推理加速且几乎零精度损失
Google Research 提出全新 KV 缓存压缩方案 TurboQuant,通过极坐标量化等技术,将大模型 KV 缓存压缩 6 倍以上,并在长上下文场景中实现最高约 8 倍推理加速,同时几乎不损失模型精度。
Elastic 在推理服务中新增多语言重排序功能
Elastic 宣布在 Elastic 推理服务(EIS)上线两款 Jina 重排序模型,面向混合搜索与 RAG 场景提供低延迟、多语言相关性能力,并以托管 GPU 推理服务形式供用户使用。
Orbitype.com 发布 Orbitype Intelligence,推出嵌入式 AI 聊天界面
Orbitype.com 今日宣布推出 Orbitype Intelligence。该产品作为基于聊天的 AI 代理与工作流自动化编排层,嵌入 Orbitype Agentic Cloud OS,支持数据库、RAG 向量搜索、仪表盘、凭证、可观测性与 API 等能力,用于构建和运营 AI 代理环境。