Elastic 在推理服务中新增多语言重排序功能

AI 2026-02-06 小A聊AI Elastic, 推理服务, 多语言搜索, 重排序, RAG 35 次浏览

Elastic（纽约证券交易所代码：ESTC）表示，已在 Elastic 推理服务（Elastic Inference Service，EIS）中推出两款 Jina 重排序器，为其生态带来低延迟、高精度的多语言重排序能力。EIS 为 GPU 加速的推理即服务，旨在简化快速、高质量推理的运行，减少复杂部署与托管工作。

Elastic 指出，随着生成式 AI 原型逐步进入生产级搜索与检索增强生成（RAG）系统，用户在相关性与推理延迟方面面临限制，尤其是在多语言场景中。重排序器可基于语义相关性对检索结果重新排序，以提升搜索质量并更准确地呈现与查询匹配的内容。该能力还可用于提升多查询聚合结果的相关性，而无需重新索引或调整现有管道，因此在混合搜索、RAG 以及上下文工程工作流中具有应用价值。

Elastic 还表示，通过将 GPU 加速的 Jina 重排序器以托管服务方式提供，团队可在无需管理模型基础设施的情况下提升搜索与 RAG 的准确性。

Elastic 搜索业务总经理 Steve Kearns 在声明中称，搜索相关性是 AI 驱动体验的基础；将 Jina 重排序模型引入 EIS 后，团队可更便捷地实现多语言搜索、RAG 与智能代理相关体验。

据介绍，此次上线的两款模型分别面向不同生产需求优化：

Jina Reranker v2（jina-reranker-v2-base-multilingual）：面向可扩展的智能代理工作流。Elastic 表示，该模型具备较强的多语言能力与低推理延迟，支持在智能代理用例中选择与用户查询最匹配的相关 SQL 表与外部函数；同时采用独立文档评分方式，可支持任意规模候选集，并在不同批次间保持评分一致性，便于开发者增量重排序而不受严格 top-k 限制。
Jina Reranker v3（jina-reranker-v3）：面向高精度候选名单重排序。Elastic 表示，该模型采用轻量级、生产友好架构，优化低延迟推理与高效部署；基准测试显示其多语言性能具备先进水平，并在排列变换下保持稳定的 top-k 排名。此外，v3 支持在单次推理调用中同时重排序最多 64 个文档，通过批量处理候选项降低推理资源消耗，适用于具有明确 top-k 结果的 RAG 与智能代理工作流。

Elastic 表示，上述模型进一步扩展了 EIS 的即用型模型目录。该目录包含由 Jina 构建、并于去年被 Elastic 收购的开源多语言与多模态嵌入模型、重排序器及小型语言模型。公司称，EIS 在托管 GPU 上的模型目录将持续扩展，后续还将增加更多模型。

可用性方面，Elastic 表示，所有 Elastic Cloud 试用用户均可访问 EIS，目前可在 Elastic Cloud Serverless 与 Elastic Cloud Hosted 上试用。

发表评论

登录后才可评论。去登录