模型评估

科学 2026-04-18

韩国科学技术院团队提出一套基于时间数据库的新评估技术，可自动生成时间敏感问答题目并检测“时间错误”，显著提升大型语言模型在动态现实信息下的可靠性。

科学 2026-04-15

斯坦福团队通过全新测试发现，多款前沿多模态AI在没有任何图像输入的情况下，仍会自信地虚构出极其具体的“视觉描述”，暴露出当前视觉-语言评估体系的严重缺陷。

科学 2026-04-07

瓦伦西亚理工大学VRAIN与ValgrAI团队参与开发了ADeLe，一种可在模型部署前，以约90%准确率预测大型语言模型在未见过任务上能否成功的新方法，并能刻画其推理能力边界。

AI 2026-02-02

最新研究揭示了隐藏的错误相关性证据，并提出了提升模型准确性的方法。