Google 发布 Gemini 3.1 Pro:以“Deep Think 级推理”树立复杂问题求解新基准
Google 推出最新大模型 Gemini 3.1 Pro,将研究模型 Gemini 3 Deep Think 的核心推理能力下放到通用与企业场景,在 ARC-AGI-2 中取得 77.1% 的成绩,同时保持一线的软件开发与代码生成性能。
新基准测试显示:主流人工智能代理距离胜任白领工作仍有差距
训练数据公司 Mercor 发布 APEX-Agents 基准,模拟咨询、投行和法律等专业服务场景测试主流模型表现,结果显示目前尚无模型能在这些真实任务中达到可替代专业人士的水平。
研究称人工智能代理在数学上被证明无法完成真实工作
人工智能代理(AI agents)近来被不少厂商描绘为可替代部分人力的“数字员工”,应用场景涵盖客户支持、软件项目管理乃至企业运营。不过,最新一波研究与讨论将焦点从“是否被过度营销”转向更基础的问题:基于当今大型语言模型(LLM)构建的代理系统,是否在数学层面存在难以跨越的可靠性上限,导致其难以稳定完成端到端的真实工作流程。 形式化证明引发争议 争议的起点是一项形式化证明,研究对象直指以大型语言模
