Pantera与富兰克林邓普顿参与Sentient Arena企业级AI代理测试

Sentient旗下开源AI实验室近日推出企业级AI代理测试环境Arena,并宣布Pantera Capital及富兰克林邓普顿的数字资产部门成为首批参与机构。

据Sentient在周五向Cointelegraph发布的公告,Arena被定位为“生产级”基准测试平台,而非传统的静态模型测试工具。平台并非仅在固定数据集上对模型打分,而是通过一系列标准化任务,在模拟企业环境的条件下运行AI代理,这些任务涵盖处理长篇文档、应对信息不完整以及来源相互冲突等场景。

Sentient Labs产品负责人Oleg Golev在接受Cointelegraph采访时表示,在当前初始阶段,参与机构主要是对Arena项目及其开发团队提供支持。他称,合作伙伴正协助界定在分析、合规和运营等文档密集型任务中,“生产就绪的推理”应达到的表现标准。相关公司目前尚未就该计划披露任何资金承诺。

该项目推出之际,越来越多企业正在加快将AI代理引入研究和运营流程,而相关治理框架仍在完善中。根据2月4日发布的《Celonis 2026流程优化报告》,85%的受访高级业务领导者计划在三年内成为“代理企业”,但目前仅有19%的企业在使用多代理系统。

Golev将Arena描述为一个共享平台,开发者可以在其中提交AI代理执行统一设定的任务,并在一致的测试条件下对比不同代理的表现。平台会跟踪包括幻觉、证据缺失、错误引用以及推理漏洞在内的多类失败情况,以便开发者识别和诊断反复出现的问题。

根据Sentient的介绍,Arena计划通过公开排行榜展示各类AI代理的对比性能指标,并发布事后分析报告,总结常见失败模式及相应修复路径。基础设施合作伙伴包括OpenRouter和Fireworks,为首批参与方提供推理计算资源,其他合作伙伴则在工具支持和研讨会等方面参与项目。

在治理层面上,该计划推出的背景是金融和加密领域机构正探索赋予AI系统更高的经济自主性。周三,MoonPay宣布推出基础设施,使AI代理能够创建钱包并执行稳定币交易。周四,Stripe高管则表示,若AI驱动的商业活动持续扩张,区块链可能需要显著提升扩展能力。


分享:


发表评论

登录后才可评论。 去登录