科研评估

科学 2026-05-22

佛罗里达大学研究人员系统测试多款商业AI文本检测器，发现其在学术等高风险场景中既不可靠也不稳健，简单调整就能绕过检测。

科学 2026-04-03

哥伦比亚工程学院研究团队设计了一套全新的、以伦理为基础的评估框架，专门测试大型语言模型在理解短篇小说等文学叙事上的真实能力。结果显示，即便是当前最先进的模型，在复杂叙事和潜台词分析上依然存在显著局限。