东京科学大学与产综研发布推理型日语LLM「GPT-OSS Swallow」「Qwen3 Swallow」,以开放许可提供
东京科学大学与产总研联合推出两款兼具日语能力与推理能力的大规模语言模型「GPT-OSS Swallow」「Qwen3 Swallow」,基于GPT-OSS与Qwen3改良,采用Apache 2.0开源并允许商用。
新方法有望提升大型语言模型训练效率
通过利用计算资源的空闲时间,研究人员实现了模型训练速度翻倍,同时保持了准确性。
Gradient宣布推出分布式强化学习系统Echo-2
Gradient称,Echo-2可将后期训练成本较传统云端强化学习方式降低最高80%,并支持在多样化硬件环境中分布式运行,以减少对集中式数据中心的依赖。
AI挑战高维几何难题:中国团队在多维度刷新“接吻数问题”纪录
北京大学与上海人工智能实验室等团队利用强化学习与博弈论相结合的AI系统“PackingStar”,在25~31维等多个维度上刷新了接吻数问题的已知下界,并在13维合理结构及一般化接吻数上取得新突破。
