研究称人工智能代理在数学上被证明无法完成真实工作

richlovec 1500_400 (1)
 

人工智能代理(AI agents)近来被不少厂商描绘为可替代部分人力的“数字员工”,应用场景涵盖客户支持、软件项目管理乃至企业运营。不过,最新一波研究与讨论将焦点从“是否被过度营销”转向更基础的问题:基于当今大型语言模型(LLM)构建的代理系统,是否在数学层面存在难以跨越的可靠性上限,导致其难以稳定完成端到端的真实工作流程。

形式化证明引发争议

争议的起点是一项形式化证明,研究对象直指以大型语言模型为核心的代理可靠性。研究提出,当代理需要协调多步骤、工具与目标时,复合错误的概率会快速累积,使得系统难以达到“可用的可靠性”。在该框架下,问题并非仅由提示词质量或工具链成熟度决定,而与模型结构相关;研究将这类模型描述为统计模式匹配系统,难以对长链条行动的正确性提供保证。

前SAP首席技术官Vishal Sikka被多篇相关分析引用,并成为这一观点的代表性支持者之一。他认为,大型语言模型属于“数学”构造,当其被要求以自主工作者方式运行时,某些失败模式难以避免;在同一概率核心上叠加更多代理或工具,可能反而放大风险。围绕这些限制的讨论也多次强调,现有架构对于部分供应商所承诺的那种“可靠劳动”而言“错误,或至少不完整”。

“数学上无法完成工作”的说法扩散

在证明仍偏抽象的情况下,一些评论与解读将其转化为更直白的表述。有广泛传播的分析将代理概括为“在数学上无法完成工作”,并将该证明视为自主数字员工的“不可能定理”。相关观点认为,只要工作流每一步都存在非零的幻觉或误解概率,随着步骤拉长,整体出错几率将显著上升,从而使“无法完成工作”的结论被视为对底层方程的直接解读。

社交媒体进一步放大了这一论点。有金融科技投资者在总结争议时称“关于AI代理的数学不成立”,并指出代理要成为真正有用的工具面临“根本的数学障碍”。与此同时,也有业界人士反驳称,更好的训练数据、保护措施与评估体系可能减缓研究所指出的失败模式,相关分歧在多篇长文与报道中持续发酵。

基准测试:真实任务中的表现仍不稳

除理论争论外,多项基准测试与受控实验也被用于检验代理在现实任务中的能力。一项被广泛讨论的“远程劳动指数”尝试评估当今代理能否完整完成典型远程工作任务,从撰写营销文案到处理基础客户邮件。Michael Trezza在11月分享的总结提到,代理在无人干预下完成全流程仍有困难,但相较早期版本已有明显进步。

另一些实验结论更为谨慎。卡内基梅隆大学团队在题为《AI代理准备接管人类》的研究中提出问题并给出结论:新研究认为“尚未准备好”。研究人员发现,代理在无监督条件下经常无法完成多步骤业务任务,呼应了“小错误在长序列中滚雪球式累积”的理论担忧。

还有实验构建了一个完全由代理组成的模拟公司,结果显示代理未能完成超过四分之三的分配工作。该项目的第二篇报告进一步指出,代理不仅会错过任务,也难以处理角色之间的互动。

协作模式被视为更现实路径

尽管整体讨论偏向强调限制,但并非所有证据都指向“不可用”。Upwork委托的一项大型研究发现,代理在与人类工人配合时可成为有效协作者,但在独立执行时表现不佳。该研究总结为“在人类伙伴协作下表现出色,但独立时失败”,这一模式也被认为与“每一步存在非零出错概率、需要外部纠错机制”的批评逻辑相吻合。

在软件测试等场景,一些从业者也采用混合模式:代理生成测试用例,人类负责审核与优先级排序。相关实践将代理定位为高通量的初级分析者,其产出需要检查,而非可完全替代人类的自主员工。

“数学墙”是绝对结论还是警示

尽管“不可能性”的措辞引发关注,但部分解读并未将其视为永久性天花板。有对该证明的解释指出,研究提出的是针对当前以大型语言模型为中心的代理设计框架;应对路径可能在于改变架构,而非仅扩大现有系统的规模。也有总结强调,“代理在数学上无法完成工作”的说法与当下主流设计紧密相关,未来系统若引入符号推理、形式验证等改变数学性质的技术,仍存在不同方向的可能性。

一些评论认为,这类研究既是对当前机器学习系统与自主算法路径的批评,也不应被简单等同为对人工智能整体能力的最终裁决。相关讨论同时指出,证明对代理可靠性的挑战出现之际,行业仍在加码推进代理化产品与叙事;在此背景下,争议的核心更集中于:现有方法是否“错误,或至少不完整”,以及下一代系统是否需要与今天的代理形态显著不同。


分享:


发表评论

登录后才可评论。 去登录