在多家企业的运营评审和董事会会议上,一种相似情形频繁出现:管理层要求对人工智能(AI)项目进行严格评估,项目团队据此提交详尽数据,但不少原本具有潜力的AI项目在组织真正理解其落地条件之前,就被贴上“效果不佳”的标签,随后被叫停、缩减投入,或悄然终止。
相关观察认为,这类决策有时确实避免了资源浪费,但更多情况下,问题出在评估标准本身——企业往往用成熟业务的衡量体系来审视尚处在探索期的AI项目,导致结果出现系统性偏差。
传统指标与AI项目周期错位
在成熟业务中,企业通常以限定时间内的投资回报率(ROI)、成本削减幅度、人员效率提升等指标来衡量成效,这些指标适用于运行稳定、模式清晰的业务单元。但在AI项目早期,这类指标往往难以及时反映真实价值,甚至可能产生“假阴性”判断。
与产品小幅更新或常规降本项目相比,AI项目的成熟周期更长、路径更不确定。其初期价值往往体现在决策速度加快、返工减少、数据质量提升等方面,而非立即体现在下一季度的损益表上。真正将AI嵌入日常业务的关键环节,需要对工作流程进行重塑,这一过程推进缓慢、具有一定破坏性,并且在传统财务报表中往往长期难以被直接量化。
在此背景下,当管理层要求在一至三年内给出传统意义上的ROI时,项目团队会据此调整行为:优先追求短期可量化的效率收益,回避复杂的流程重构,设计出的试点更偏向“通过财务审查”,而非“最大化学习”。这被视为对考核标准的理性回应,而非个别团队的主观选择。
这种做法被认为与当前不少企业出现的“概念验证(PoC)疲劳”现象有关——组织内部运行了大量AI试点,但真正进入规模化生产的项目寥寥。高德纳(Gartner)的预测显示,到2025年底,30%的生成式AI项目将在概念验证阶段后被放弃。相关分析指出,这一比例更多反映的是衡量方式的问题,而非技术本身的失败率。
四类常被忽视的AI项目价值
在将传统指标直接套用于AI项目时,有四类价值被认为经常被低估或忽略。
一是学习价值。
早期AI项目的重要产出之一,是帮助组织形成系统性认知:哪些业务流程适合引入AI,数据质量问题集中在哪些环节,哪些团队对变革更为开放,哪些环节阻力较大。这类“组织知识”通常不会出现在标准ROI仪表盘上。如果不对学习进行记录和衡量,相关经验难以沉淀,后续项目也难以从中受益。
二是采用现实。
有观点指出,一个在受控试点环境中表现良好、但在实际部署中遭遇失败的模型,往往并非技术本身的问题,而是衡量设计存在缺陷——试点阶段的评估标准未充分纳入真实使用者的行为和反馈。医疗领域已有多起案例显示,一些AI工具在行政指标上表现优异,但在临床医生的真实工作流程中使用效果不佳,原因在于最关键的使用场景和变量并未被纳入早期评估基准。

三是工作流程价值。
麦肯锡的研究指出,相较于模型准确率,工作流程的重塑才是AI对企业息税前利润(EBIT)影响的主要驱动因素。然而,流程重构往往成本较高、对现有运作方式冲击较大。当管理层以短期效率为核心目标评估AI项目时,项目团队有充分动机弱化甚至跳过这一步,转而选择范围更窄、风险更低、但对业务结构影响有限的试点,以便更快拿出“可辩护”的数字。这种做法难以检验AI是否真正具备改变业务运营方式的潜力。
四是能力价值。
一些组织在持续推进AI项目的过程中,会逐步积累内部判断力,包括在哪些场景下使用AI更有效、在哪些环节不适合引入AI,以及如何在不削弱人类责任的前提下进行系统整合。这类能力不会在第一年的成本节约中直接体现,但在更长周期内可能转化为竞争优势。麻省理工学院斯隆管理学院的一项研究显示,那些更新关键绩效指标(KPI)以反映AI创造价值方式的组织,实现显著财务收益的可能性是未更新KPI组织的三倍。研究指出,指标体系的调整往往先于财务层面的改善。
指标选择传递真实偏好
业内分析认为,在关于“衡量要严谨”的讨论中,一个关键点常被忽略:企业选择何种指标,本身就在向组织传递“什么才是被真正重视的”。
当管理层将传统ROI设定为AI项目的主要考核标准时,实际上是在向团队发出信号:短期财务数字是首要目标。项目团队随之围绕这一目标设计方案,最终产出的结果也就更接近考核所奖励的方向,而不一定符合企业对业务转型的长期期待。
有调查显示,超过40%的公司表示难以定义或衡量其AI项目的影响,不到一半的企业使用专门针对AI的关键绩效指标。相关观点认为,这并非单纯的数据问题,而是管理层对AI早期价值认知和衡量方式尚未同步更新的问题。在衡量框架未调整的情况下,即便具备较强的数据分析能力,也难以弥补评估逻辑上的偏差。
关注项目所处阶段的衡量方式
多位业内人士强调,问题不在于是否要进行严格衡量,而在于衡量标准是否与项目所处阶段相匹配。
在实践中,一些企业开始反思:用于评估AI项目的指标,是否与评估成熟业务线时完全相同;如果相同,其合理性何在;在项目的第一年,哪些信号足以表明正在构建具有长期潜力的能力,即便传统ROI尚未显现;项目团队当前是在优化学习和能力建设,还是主要在优化能够通过预算审查的数字表现。
相关观点指出,目标并非降低标准,而是制定更契合AI项目特性的标准。能够持续产生学习并最终实现规模化应用的项目,与仅为季度评审提供“合格数字”的项目,在本质上存在差异。合适的衡量体系有助于区分二者,而不恰当的评分标准不仅可能误判AI项目的真实价值,还可能在无形中塑造出一个更难以从AI中获得长期收益的组织环境。
