Elastic(纽约证券交易所代码:ESTC)表示,已在 Elastic 推理服务(Elastic Inference Service,EIS)中推出两款 Jina 重排序器,为其生态带来低延迟、高精度的多语言重排序能力。EIS 为 GPU 加速的推理即服务,旨在简化快速、高质量推理的运行,减少复杂部署与托管工作。
Elastic 指出,随着生成式 AI 原型逐步进入生产级搜索与检索增强生成(RAG)系统,用户在相关性与推理延迟方面面临限制,尤其是在多语言场景中。重排序器可基于语义相关性对检索结果重新排序,以提升搜索质量并更准确地呈现与查询匹配的内容。该能力还可用于提升多查询聚合结果的相关性,而无需重新索引或调整现有管道,因此在混合搜索、RAG 以及上下文工程工作流中具有应用价值。
Elastic 还表示,通过将 GPU 加速的 Jina 重排序器以托管服务方式提供,团队可在无需管理模型基础设施的情况下提升搜索与 RAG 的准确性。
Elastic 搜索业务总经理 Steve Kearns 在声明中称,搜索相关性是 AI 驱动体验的基础;将 Jina 重排序模型引入 EIS 后,团队可更便捷地实现多语言搜索、RAG 与智能代理相关体验。
据介绍,此次上线的两款模型分别面向不同生产需求优化:

-
Jina Reranker v2(jina-reranker-v2-base-multilingual):面向可扩展的智能代理工作流。Elastic 表示,该模型具备较强的多语言能力与低推理延迟,支持在智能代理用例中选择与用户查询最匹配的相关 SQL 表与外部函数;同时采用独立文档评分方式,可支持任意规模候选集,并在不同批次间保持评分一致性,便于开发者增量重排序而不受严格 top-k 限制。
-
Jina Reranker v3(jina-reranker-v3):面向高精度候选名单重排序。Elastic 表示,该模型采用轻量级、生产友好架构,优化低延迟推理与高效部署;基准测试显示其多语言性能具备先进水平,并在排列变换下保持稳定的 top-k 排名。此外,v3 支持在单次推理调用中同时重排序最多 64 个文档,通过批量处理候选项降低推理资源消耗,适用于具有明确 top-k 结果的 RAG 与智能代理工作流。
Elastic 表示,上述模型进一步扩展了 EIS 的即用型模型目录。该目录包含由 Jina 构建、并于去年被 Elastic 收购的开源多语言与多模态嵌入模型、重排序器及小型语言模型。公司称,EIS 在托管 GPU 上的模型目录将持续扩展,后续还将增加更多模型。
可用性方面,Elastic 表示,所有 Elastic Cloud 试用用户均可访问 EIS,目前可在 Elastic Cloud Serverless 与 Elastic Cloud Hosted 上试用。
