Anthropic多次调整技术面试居家测试以应对候选人借助Claude作答

商业 2026-01-27 科技最前沿 Anthropic, Claude, 技术招聘, AI工具, 职场与用工 43 次浏览

自2024年以来，Anthropic的性能优化团队在招聘过程中一直向应聘者提供一份居家技术测试，用于评估其是否具备相关技能。随着AI编码工具能力不断提升，这份测试多次被调整，以降低候选人借助AI完成作答的可能性。

团队负责人Tristan Hume在周三发布的一篇博客文章中回顾了这一过程。他表示，每次推出新的Claude模型，团队都不得不重新设计测试内容。

Hume在文中写道，在相同时间限制下，Claude Opus 4的测试表现已经超过了大多数人类应聘者，这一阶段团队仍然能够通过测试结果区分出最强候选人。但随后发布的Claude Opus 4.5在测试中的表现甚至可以与这些最强候选人相匹配。

在缺乏现场监考的前提下，如何判断应聘者是否借助AI工具完成测试，成为评估中的核心难题。Hume指出，在居家测试的约束条件下，团队已经难以通过结果区分顶尖候选人与Anthropic最强模型的输出。

文章提到，AI辅助作弊问题此前已在全球多所学校和大学引发关注，如今AI实验室在招聘环节也面临类似挑战。与此同时，Anthropic在应对这一问题时，也因自身技术积累而具备一定优势。

为此，Hume最终设计了一份与硬件优化关联度较低的新测试，希望通过题目新颖性，使其对当前AI工具形成足够难度。据介绍，这份新测试旨在在现有技术条件下，仍能有效区分候选人的真实能力。

作为博客文章的一部分，Hume还公开了此前使用的原始测试内容，并邀请读者尝试提出更优解法。文章写道：“如果你能击败Opus 4.5，我们非常希望听到你的声音。”

登录后才可评论。去登录