AI会走去50米外的洗车场吗?从“洗车测试”到多模型对比工具「AI Roundtable」
一个看似简单的“洗车测试”,暴露出多款AI模型在常识推理上的弱点。瑞典公司 Opper AI 基于这一实验,推出了可比较、汇总和让多模型互相辩论的工具「AI Roundtable」,用于检验AI推理能力与可靠性。
一个看似简单的“洗车测试”,暴露出多款AI模型在常识推理上的弱点。瑞典公司 Opper AI 基于这一实验,推出了可比较、汇总和让多模型互相辩论的工具「AI Roundtable」,用于检验AI推理能力与可靠性。