人工智能修正“时间错觉”,提升医疗与法律场景可靠性
韩国科学技术院团队提出一套基于时间数据库的新评估技术,可自动生成时间敏感问答题目并检测“时间错误”,显著提升大型语言模型在动态现实信息下的可靠性。
研究发现多模态AI会为“看不见”的图像编造细节
斯坦福团队通过全新测试发现,多款前沿多模态AI在没有任何图像输入的情况下,仍会自信地虚构出极其具体的“视觉描述”,暴露出当前视觉-语言评估体系的严重缺陷。
ADeLe:高精度预测大型语言模型在全新任务上的表现
瓦伦西亚理工大学VRAIN与ValgrAI团队参与开发了ADeLe,一种可在模型部署前,以约90%准确率预测大型语言模型在未见过任务上能否成功的新方法,并能刻画其推理能力边界。
为何必须超越过度汇总的机器学习指标
最新研究揭示了隐藏的错误相关性证据,并提出了提升模型准确性的方法。