新基准测试显示:主流人工智能代理距离胜任白领工作仍有差距 商业 2026-01-30 科技最前沿 训练数据公司 Mercor 发布 APEX-Agents 基准,模拟咨询、投行和法律等专业服务场景测试主流模型表现,结果显示目前尚无模型能在这些真实任务中达到可替代专业人士的水平。