Sakana AI 发布面向各国本地化的事后学习技术 推出日本版试验模型「Namazu」及聊天服务「Sakana Chat」

Sakana AI 于 2026 年 3 月 24 日宣布,已开发出一项事后学习(post-training)技术,可将世界最高水准的开放权重基盘模型,适配为符合各国文化与制度要求的本地化版本。作为首次技术验证成果,公司基于现有前沿模型打造了面向日本市场的试作模型系列「Namazu(α 版)」,并同步上线搭载 Namazu 模型的聊天服务「Sakana Chat」。

Sakana Chat 是一款集成 Web 搜索功能的 AI 聊天服务,可直接通过浏览器访问。服务内搭载 Namazu(α 版)模型,普通用户可以在实际对话场景中体验和检验该模型的行为表现。

通过事后学习将海外基盘模型本地化

近年来,大规模语言模型(LLM)的事前训练成本急剧攀升,使得顶级模型的开发逐渐集中在美国、中国等少数大型企业手中。与此同时,DeepSeek、Meta 等公司公开的开放权重模型性能也在快速提升。

在这一背景下,Sakana AI 选择充分利用这些高性能的既有模型,通过事后学习技术,使其适应不同国家在文化、价值观以及安全保障等方面的要求。公司持续推进相关技术的研究开发。

由于模型多在海外开发,其训练数据与安全策略往往带有开发地区的意识形态和信息管控倾向。Sakana AI 表示,已构建出一套方法,可以在不破坏模型基础能力的前提下,对这些偏差进行调整,使模型在日本国内的使用场景中表现得更加合适与稳健。

「Namazu」系列:将技术应用于多种基盘模型

「Namazu」系列是将上述事后学习技术应用到现有基盘模型后得到的一组试作模型。本次公开的模型包括以下三种:

  • Namazu-DeepSeek-V3.1-Terminus
  • Llama-3.1-Namazu-405B
  • Namazu-gpt-oss-120B

这些模型的基座均选用了在发布时点性能处于领先水平的开放权重模型。Sakana AI 强调,该事后学习技术并不依赖特定模型架构,未来可以灵活迁移到性能更高的新一代基盘模型上。

基础能力与原始基座模型保持同等水准

在性能评估方面,Namazu 系列使用多项主流基准测试,对推理能力、知识掌握程度以及代码生成能力等基础能力进行了验证。

评估采用了 AIME’25、MMLU-Redux、GPQA Diamond、LiveCodeBench、IFEval 等基准。结果显示,Namazu 系列整体性能与各自的基座模型基本相当,在推理、知识与编程等核心能力上并未出现明显损失。

namazu_basic_benchmark.png

在政治与历史议题上提升中立性与事实准确性

Sakana AI 还针对日本及国际关系相关的政治、历史、外交等敏感主题,构建了自有评测基准,用于检验模型回答的中立性与事实准确性。

评估结果表明,与原始基座模型相比,Namazu 系列在中立性和事实准确性两方面均有改善。

namazu_politicalqa.png

在具体调查中,DeepSeek-V3.1-Terminus 对约 72% 的政治敏感问题选择拒绝作答,而 Namazu-DeepSeek-V3.1-Terminus 的拒答率则降至接近 0%。Sakana AI 解释称,通过减少外部策略性限制导致的拒答,同时引导模型基于客观事实给出多角度分析,从而实现了更开放且更可靠的回答行为。

日语能力评测中表现与同级模型相当

在日语能力方面,Sakana AI 使用多项日语 LLM 评测基准,对 Namazu-DeepSeek-V3.1-Terminus 进行了验证。评估采用 Nejumi Leaderboard4、Swallow LLM Leaderboard v2、JamC-QA 等基准。

结果显示,该模型在整体表现上与其基座模型以及同规模的其他厂商模型大致处于同一水平,说明在进行本地化事后学习后,日语理解与生成能力仍然得以保持。

namazu_japanese_benchmark.png

公开搭载 Namazu 的聊天服务「Sakana Chat」

作为技术验证的一部分,Sakana AI 同步上线了搭载 Namazu 模型的聊天服务「Sakana Chat」。该服务提供整合 Web 搜索的聊天界面,能够在对话过程中实时检索最新信息,并基于检索结果生成回答。

在正式公开前,Sakana Chat 已面向约 1000 名用户进行了 β 测试。Sakana AI 计划根据用户在实际使用中的反馈,持续改进 Namazu 模型本身以及整体服务体验。

未来,Sakana AI 还将发布详细介绍事后学习方法的技术报告,并计划公开多个 Namazu 模型的权重。同时,公司也将推进多模型最优控制技术与智能体(Agent)技术的整合,开发超越单纯聊天场景的多样化 AI 解决方案。


分享:


发表评论

登录后才可评论。 去登录