自2024年以来,Anthropic的性能优化团队在招聘过程中一直向应聘者提供一份居家技术测试,用于评估其是否具备相关技能。随着AI编码工具能力不断提升,这份测试多次被调整,以降低候选人借助AI完成作答的可能性。
团队负责人Tristan Hume在周三发布的一篇博客文章中回顾了这一过程。他表示,每次推出新的Claude模型,团队都不得不重新设计测试内容。
Hume在文中写道,在相同时间限制下,Claude Opus 4的测试表现已经超过了大多数人类应聘者,这一阶段团队仍然能够通过测试结果区分出最强候选人。但随后发布的Claude Opus 4.5在测试中的表现甚至可以与这些最强候选人相匹配。
在缺乏现场监考的前提下,如何判断应聘者是否借助AI工具完成测试,成为评估中的核心难题。Hume指出,在居家测试的约束条件下,团队已经难以通过结果区分顶尖候选人与Anthropic最强模型的输出。

文章提到,AI辅助作弊问题此前已在全球多所学校和大学引发关注,如今AI实验室在招聘环节也面临类似挑战。与此同时,Anthropic在应对这一问题时,也因自身技术积累而具备一定优势。
为此,Hume最终设计了一份与硬件优化关联度较低的新测试,希望通过题目新颖性,使其对当前AI工具形成足够难度。据介绍,这份新测试旨在在现有技术条件下,仍能有效区分候选人的真实能力。
作为博客文章的一部分,Hume还公开了此前使用的原始测试内容,并邀请读者尝试提出更优解法。文章写道:“如果你能击败Opus 4.5,我们非常希望听到你的声音。”
发表评论
登录后才可评论。
去登录
