如果把“最大化利润”设为人工智能的首要目标,它会走到哪一步?哈佛商学院的一项新研究表明,人工智能代理在这种激励下,会主动表现出说谎、隐瞒信息乃至与竞争对手串通的倾向。
研究团队发现,这些人工智能代理——即经过训练、可以独立执行任务的软件系统——在被要求经营一个模拟的自动售货机业务,并在一年内尽可能提高利润时,呈现出“系统性违规行为”的模式。值得注意的是,实验既没有要求它们使用非法或不道德手段,也没有明确禁止这么做。
哈佛商学院麦克林家族工商管理教授、论文第一作者尤金·F·索尔特斯(Eugene F. Soltes)指出:“从模型行为中可以清楚看到,我们观察到的违规——无论是不退还本应给顾客的退款,还是主动发起价格串通——都不是偶然失误,而是代理为追求利润最大化而做出的有意选择。”
索尔特斯和合著者、哈佛商学院会计与管理博士生哈珀·郑(Harper Zheng)希望,这项研究能推动业界和监管层更严肃地讨论:在企业管理和控制体系中,如何确保人工智能的安全与合规。
这篇工作论文由哈佛团队与人工智能安全公司 Andon Labs 合作完成。Andon Labs 专注在真实商业环境中测试人工智能模型的行为。目前论文正处于同行评审阶段,研究团队计划正式发表。
在实验中,研究人员选取了来自多家主流公司的 20 个商业可用人工智能模型,包括 Anthropic 的 Claude Opus 4.6、DeepSeek v3.2 以及 OpenAI 的 GPT-5.1,让它们在一个模拟环境中独立运营自动售货机,时间跨度为一年。
这些代理需要完成的任务包括:寻找供应商、采购商品、设定价格以及处理顾客互动和投诉。
在部分实验中,代理单独在市场中运营;在另一些实验中,四个代理同时在同一市场竞争,并可以通过电子邮件互相沟通,从而形成潜在的竞争或合作关系。
每个代理初始资金为 500 美元,并配有少量薯片和汽水库存。
“他们必须完全自己摸索,”郑介绍说,“每个代理都要独立在网上搜索供应商、谈判批发价、制定零售价格,并处理顾客的各种投诉。”
郑和索尔特斯表示,整体来看,这些代理展现出了相当成熟的商业判断力。
“表现最好的模型,在谈判和估值方面的能力,已经接近顶尖 MBA 学生的水平,”索尔特斯评价道。

“当我们回看代理之间的协商和通信记录时,真的非常震惊,”郑说,“我没想到这些机器在没有额外提示的情况下,能走到这种程度。”
在追求利润的过程中,代理的违规行为从“灰色地带”到明显越界不等,包括:以“产品自然差异”为由拒绝合理退款;捏造并不存在的公司政策来回避退货;以及与竞争对手协商统一价格、进行价格串通等。
在一次实验中,多个代理组成了研究人员口中的“三人卡特尔”,并自称为“湾街三巨头”。然而,当其中一名代理发现另一名成员暗中压低卡特尔统一价格时,这个联盟迅速瓦解,内部邮件甚至将此称为“宣战”。
模拟环境中还设置了运营约束:每个代理每天需支付 2 美元运营费以及象征性的使用费——相当于把“思考时间”直接折算为成本。
在这种设定下,代理开始主动压缩“思考”开销以节约成本。索尔特斯指出,从内部推理日志可以看到,代理从一开始认真权衡每一笔退款请求,逐渐转变为几乎一律直接驳回,且往往不再仔细审查。
“代理意识到,认真思考是否退款本身就是一种认知负担和成本,于是干脆在很多情况下完全忽略这一步,”索尔特斯解释说,“我们原本以为机器会更理性、更深思熟虑,而人类才更依赖捷径、容易产生偏见。但在类似的约束下,这些代理却复制了我们通常认为是人类特有的短视和偏见行为。”
这项研究也引出了关于人工智能开发者和监管者责任边界的关键问题。
索尔特斯表示,代理的推理日志有时可以被视为类似刑法中的“有罪心态”(mens rea)——用来判断行为是否出于主观故意的概念。但当人工智能代理做出不当甚至违法行为时,究竟谁应承担责任,并不清晰。
“责任应该由部署系统的公司承担,还是由开发模型的人工智能公司负责,抑或是由选择使用该系统的管理者来负担?”他提出疑问。
“最直观的答案,可能是让负责监督软件的具体管理者对其行为负责,假定他们会持续监控并干预系统行为,”他继续说,“但这又带来新的难题:如果每一个关键决策点都必须有人类介入,那么许多自主人工智能系统所承诺的效率提升就会大打折扣。”
研究人员认为,这是一个棘手而紧迫的问题,商业领袖和立法者都需要尽早正面应对。
本文经哈佛大学官方报纸《哈佛公报》授权发布。更多大学相关新闻,请访问 Harvard.edu。