在近期一封科技通讯中,《Fast Company》全球技术编辑Harry McCracken梳理了围绕一篇热门人工智能博文的争论,认为当前人工智能技术一方面展现出超出公众预期的能力,另一方面仍存在难以忽视的结构性局限。
一篇病毒式传播的AI博文
2月9日,一篇题为《Something Big Is Happening》的人工智能博文在网络上迅速走红,被形容为让人想起“博客时代的黄金时期”。文章在社交平台上的传播伴随强烈分化的反应,从“应该转发给所有在乎的人”到“完全不信”不等。
作者Matt Shumer是初创公司OthersideAI的首席执行官。他在次日通过X平台分享了这篇文章,并表示写作对象主要是“家人、朋友,以及那些不断问我‘人工智能到底是怎么回事?’却得不到公正答案的人”。
Shumer在文中强调,最新一代模型——他特别提到OpenAI的GPT-5.3 Codex和Anthropic的Claude Opus 4.6——相较此前版本出现“根本性提升”。在他的描述中,人工智能在编写代码方面“突然变得极其高效”,软件工程行业因此进入“新时代”。
他进一步推断,人工智能将在法律、金融、医学、会计、咨询、写作、设计、分析和客户服务等一系列职业的核心工作上迅速超越人类。
对未来工作的激进判断
在文章结尾部分,Shumer给出了一系列面向个人的建议,包括积累储蓄、减少债务,并考虑鼓励子女优先掌握人工智能技能,而非将大学教育视为获得稳定职业的主要路径。他暗示,如果在未来六个月内不主动掌握人工智能工具,个人可能会在职场中变得“无关紧要”。
据《纽约杂志》记者Benjamin Hart报道,Shumer表示自己在撰写这篇文章时“得到了大量人工智能的帮助”。
McCracken在通讯中指出,Shumer的部分判断与业内观察相符:目前对人工智能持冷淡态度的群体,未来几年很可能会被其对工作和生活的影响所震惊。他本人也赞同“每天花一小时亲自体验这项技术”的建议,并提到硅谷不少技术人士对新模型在编码能力上的跃升“感到敬畏”。
不过,他认为,如果Shumer“少夸张约70%”,论点可能更具说服力。McCracken还提到,Shumer此前曾因参与的一个人工智能模型在基准测试上的性能声明被证实不实而登上新闻。
幻觉问题仍未消失
McCracken指出,这篇博文存在人工智能讨论中常见的一类问题:对技术进步的惊叹掩盖了对现实局限的正视。
其中一个关键分歧在于“幻觉”——即模型生成听起来合理但事实错误的内容。Shumer在文中认为,这一问题“已经解决”,并将几年前ChatGPT“自信地说出荒谬的话”描述为“在人工智能时间尺度上已经是古老历史”。
McCracken则认为,最新模型的幻觉频率确实低于早期版本,但“仍然会编造事实”,且与早期模型不同的是,这些错误往往“听起来合理而非明显荒谬”,这在他看来是一种“倒退”。
他以与Claude Opus 4.6的对话为例说明这一点。McCracken表示,他经常以报纸连环漫画为话题测试人工智能,因为自己对该领域足够熟悉,可以即时判断回答是否准确。在一次对话中,Claude在将漫画家与其作品对应时“表现极差”,且“聊得越多,错误越多”。
当他指出错误时,Claude回应称:“基本上我把真实信息的片段混合在一起,却带着错误的自信呈现出来。这不太好。”在另一次与漫画相关的问题失败后,Claude表示自己“进入了不稳定的领域,混淆了一些细节”,并请求用户“帮它纠正方向”。
McCracken认为,这种对自身幻觉倾向的“某种自我意识”是一种进步,但在人工智能仍会编造事实的前提下,将其描述为“比大多数博士更聪明”并不恰当。他同时指出,以人类能力作为衡量人工智能的唯一标准本身也存在问题,因为人工智能在某些方面已经超越人类,而在另一些方面可能长期落后。

“六个月就近乎完美”?
Shumer在博文中还提出,针对复杂工作任务,“如果它今天哪怕有点能用,你几乎可以确定六个月后它会做到近乎完美”。
McCracken认为,这一判断“极不可能”。在他看来,各类生成式人工智能在多个应用场景中“多年一直停留在‘有点能用’的阶段”。他给出的经验法则是:在人工智能真正证明能够做好某件事之前,不应假定它已经具备该能力。
让AI来“批评”AI
McCracken表示,相比Shumer具体写了什么,他印象更深的是自己随后进行的一项实验:他将这篇博文分别输入ChatGPT、Gemini和Claude,并提示这些模型“分析/批评这篇文章,判断它是否过于谨慎或不够谨慎,并给出对相关主题的看法”。
他原本预期三者都会给出“肤浅的总结”。结果显示,ChatGPT和Gemini的表现符合这一预期,而Claude的回应则“出乎意料”。
据McCracken描述,Claude在几秒钟内生成的回应,不仅指出了他本人也认为存在的问题,还提出了他此前未曾考虑的缺陷。他表示,读完后“感觉自己更聪明了”,这“仍不是我对人工智能写作的预期”。
Claude的几点批评
McCracken在通讯中摘录了Claude回应中的部分内容。
在关于“编码与其他行业差异”的段落中,Claude指出,编码是人工智能“特别有利的领域”,因为输出可验证、反馈循环紧密、训练数据丰富且环境完全数字化;而法律、医学和管理则涉及模糊性、制度背景、人际关系、监管责任和对抗性动态,“在质上不同”。它认为,Shumer“稍微提及后就忽略了这些”。
在谈到用户体验时,Claude提到,确实存在“很多人尝试过GPT-3.5后就否定了整个领域”的情况,这“是个问题”。但它同时指出,即便是认真使用最新模型的用户——包括付费用户——“仍然遇到重大限制”,包括幻觉(“减少但未消除”)、在新问题上的脆弱性、难以在真正长周期项目中保持连贯上下文、自我不确定性校准不佳,以及在需要现实世界基础的任务上存在困难。Claude认为,Shumer将所有怀疑“当作过时”,这一做法“不诚实”。
在涉及经济与采纳节奏时,Claude表示,Shumer“没有认真考虑经济激励可能不会像‘人工智能能做这工作,所以工作消失’那样顺利”。它提到,采用阻力、责任问题和组织惯性“都是真实存在的”,而技术历史表明,即使是变革性工具,重塑产业的速度“往往比纯能力时间线要慢得多”,并以电力在明显优于蒸汽后仍花费数十年才重塑制造业为例进行对比。
同时,Claude也在回应中肯定了Shumer的部分判断。它认为,Shumer指出的“核心信号”是真实的:人工智能能力提升的速度“超过大多数行业外人士的认知”,公众认知与现实之间“确实存在很大差距”,以及“大多数人应该比现在更认真地使用这些工具”这一观点。
在总结部分,Claude认为,这篇文章“犯了硅谷常见的错误”:将“潜在轨迹误当成必然轨迹”,根据“感觉和外推压缩时间线”,而没有认真面对现实中减缓采用的各种阻力。它形容这篇文章“读起来像是在被新模型发布震撼后的即时情绪反应”,而这种时刻“往往导致对进度过于自信”。
“既惊人又糟糕”的现状
McCracken在通讯结尾写道,在同一天内,他一方面看到Claude Opus 4.6对Shumer文章的回应“连贯且富有洞见”,另一方面又在与其对话中多次遭遇幻觉。这在他看来,正是当下人工智能状态的写照:既展现出令人惊讶的能力,又暴露出明显缺陷。
他认为,许多观察者难以同时接受这两点现实,而忽视其中任一方面的分析,都可能在判断未来走向时出现严重偏差。
这篇通讯刊登于《Fast Company》的每周科技通讯《Plugged In》,作者为该刊全球技术编辑Harry McCracken。
