麻省理工学院 Solve 项目测试人工智能辅助初筛 提升资助评审效率与一致性

richlovec 1500_400 (1)
 

在资助评审的早期阶段,申请项目能否获得进一步考虑,往往取决于极为有限的审阅时间。据介绍,人工评审在初次拨款申请上平均仅花约四分钟,需要在此时间内判断项目契合度、资格条件、创新潜力以及团队能力,并在成千上万份申请中保持标准一致。

在麻省理工学院 Solve 项目看来,这一现实使资助方面临两难:要么放慢速度、审查更少的创意,要么加快速度、承担错过潜在变革性项目的风险。为此,该项目在过去一年中尝试第三种路径——引入人工智能处理评审中高度重复、模式化的环节,让人类评审将更多时间用于需要复杂判断的部分。

引入人工智能的背景

Solve 项目披露,2025 年其全球挑战赛共收到近 3000 份申请。即便每份申请仅用四分钟进行初步审查,总计也需要约 25 个完整工作日。项目方表示,与许多使命驱动型组织类似,他们不希望在严谨性和效率之间做出取舍,而是希望同时兼顾两者。

在此背景下,Solve 项目提出一个目前许多资助方共同关注的问题:人工智能是否能够在不削弱判断力和价值观的前提下,帮助更公平、更高效地评估更多机会。

为探索这一问题,Solve 项目与哈佛商学院、华盛顿大学以及欧洲高等商学院的研究人员合作,重点研究人工智能在资助生命周期中最耗时、申请量最大的早期拨款评审阶段所能发挥的作用。

测试设计与主要发现

研究团队开发并测试了一个基于 GPT-4o mini 的人工智能系统,用于支持申请筛选,并在不同经验水平的人类评审中进行对比试验,旨在识别人工智能在哪些环节能够提供价值,在哪些环节则作用有限。

根据介绍,测试得出三项主要发现:

  1. 在客观标准上表现突出
    系统能够较为可靠地评估基本资格条件以及与资助优先事项的契合度,包括判断申请是否满足明确规定的要求,或是否符合特定地理区域或项目重点领域等客观标准。

  2. 对经验较少评审的支持更为明显
    结果显示,经验较少的评审在人工智能辅助下,其决策表现出更高的一致性;而经验丰富的评审则更多将人工智能输出视为参考信息,选择性采纳。

  3. 规模化标准化是最大收益
    研究方称,人工智能的引入使不同评审之间的判断更趋一致,不论其经验水平如何,从而为进入第二轮评审及后续由人类作出的决策提供了更为统一的基础。

在 Solve 项目中的具体应用

在 Solve 项目的实际流程中,评审第一阶段主要任务是筛除不完整、不合格或与项目方向不匹配的申请,以便将人类评审的精力集中在最具潜力的创意上。

项目方表示,其设计的人工智能工具始终保留人类参与,将人工智能聚焦于初步筛选中重复性强、以模式识别为主的任务,被认为适合由技术进行增强。该工具主要承担两类功能:

  1. 筛除缺乏现实发展路径的申请;
  2. 通过概率评分、明确的推荐选项(通过、失败或复审)以及相应解释,为评审提供辅助信息。

在 2025 年申请周期中,Solve 项目共收到 2901 份申请。系统将这些申请划分为三类:43% 标记为“通过”,16% 标记为“失败”,41% 标记为“复审”。这意味着评审团队只需对 41% 的申请进行深入审阅。项目方称,在这一安排下,总体筛选时间缩短至 10 天,同时对筛选结果的质量保持信心。

对慈善资助流程的启示

Solve 项目认为,在早期评估阶段节省下的每一小时,都可以重新投入到更高价值的工作中,例如与创新者进行更深入的交流,推动资源有限但构想大胆的创意更接近获得资金支持。

项目方表示,初步结果显示,人工智能辅助筛选与人类判断高度一致。同时,这一实践也被视为表明,有可能设计出在尊重细微差别、保持问责的前提下,负责任地扩展决策流程的系统。

据介绍,慈善领域每年需处理数以百万计的申请,录取率往往低于 5%。在这种情况下,如果需要拒绝约 95% 的创意,资助方被认为有责任为申请者——尤其是那些历史上较少获得资助机会的群体——提供实质性的评审。

Solve 项目方面指出,通过明确分工,让人类专注于最终决策,将机械式、重复性的审查环节交由人工智能处理,有助于在大规模申请环境下更好地履行这一责任,并向实现其使命所要求的严谨性迈出一步。

文末署名显示,Hala Hanna 为麻省理工学院 Solve 项目执行董事,Pooja Wagh 为运营与影响总监。


分享:


发表评论

登录后才可评论。 去登录