El equipo de optimización del rendimiento de Anthropic, que evalúa a los solicitantes de empleo desde 2024, revisa su prueba de entrevista técnica para contrarrestar las trampas asistidas por IA, según el líder del equipo Tristan Hume. Anthropic implementó una prueba para llevar a casa para los solicitantes de empleo. La mejora de las capacidades de las herramientas de codificación de IA requirió revisiones frecuentes de esta prueba, diseñada para evaluar las habilidades de los candidatos. Tristan Hume, líder del equipo, detalló estos desafíos en una publicación de blog el miércoles. Hume afirmó: “Cada nuevo modelo de Claude nos ha obligado a rediseñar la prueba”. Señaló que “cuando se le dio el mismo límite de tiempo, Claude Opus 4 superó a la mayoría de los solicitantes humanos”. Posteriormente, “Claude Opus 4.5 igualó incluso a esos”, refiriéndose a los candidatos humanos más fuertes. Este acontecimiento presentó un problema importante en la evaluación de los candidatos. La ausencia de supervisión en persona hizo imposible evitar la utilización de IA durante la prueba. Hume explicó: “Bajo las limitaciones de la prueba final, ya no teníamos forma de distinguir entre el rendimiento de nuestros mejores candidatos y nuestro modelo más capaz”. La proliferación de trampas de IA, que ya se ha observado en instituciones educativas de todo el mundo, ahora afecta a los laboratorios de IA. Anthropic, sin embargo, posee distintos recursos para abordar este problema específico. Hume finalmente desarrolló una nueva prueba. Esta evaluación revisada se centra menos en la optimización del hardware, lo que dificulta las herramientas de IA actuales. Como parte de su publicación, publicó la prueba original, invitando a los lectores a proponer soluciones alternativas. La publicación decía: “Si puedes mejorar Opus 4.5, nos encantaría saber de ti”.
Crédito de imagen destacada
Source: Anthropic rediseña las pruebas de contratación después de Claude 4.5 "ases" entrevista humana