Anthropic rediseña las pruebas de contratación después de Claude 4.5 "ases" entrevista humana

El equipo de optimización del rendimiento de Anthropic, que evalúa a los solicitantes de empleo desde 2024, revisa su prueba de entrevista técnica para contrarrestar las trampas asistidas por IA, según el líder del equipo Tristan Hume. Anthropic implementó una prueba para llevar a casa para los solicitantes de empleo. La mejora de las capacidades de las herramientas de codificación de IA requirió revisiones frecuentes de esta prueba, diseñada para evaluar las habilidades de los candidatos. Tristan Hume, líder del equipo, detalló estos desafíos en una publicación de blog el miércoles. Hume afirmó: “Cada nuevo modelo de Claude nos ha obligado a rediseñar la prueba”. Señaló que “cuando se le dio el mismo límite de tiempo, Claude Opus 4 superó a la mayoría de los solicitantes humanos”. Posteriormente, “Claude Opus 4.5 igualó incluso a esos”, refiriéndose a los candidatos humanos más fuertes. Este acontecimiento presentó un problema importante en la evaluación de los candidatos. La ausencia de supervisión en persona hizo imposible evitar la utilización de IA durante la prueba. Hume explicó: “Bajo las limitaciones de la prueba final, ya no teníamos forma de distinguir entre el rendimiento de nuestros mejores candidatos y nuestro modelo más capaz”. La proliferación de trampas de IA, que ya se ha observado en instituciones educativas de todo el mundo, ahora afecta a los laboratorios de IA. Anthropic, sin embargo, posee distintos recursos para abordar este problema específico. Hume finalmente desarrolló una nueva prueba. Esta evaluación revisada se centra menos en la optimización del hardware, lo que dificulta las herramientas de IA actuales. Como parte de su publicación, publicó la prueba original, invitando a los lectores a proponer soluciones alternativas. La publicación decía: “Si puedes mejorar Opus 4.5, nos encantaría saber de ti”.

Desafíos, recompensas y más de Fall Guys Silent's Memories

Crédito de imagen destacada

Source: Anthropic rediseña las pruebas de contratación después de Claude 4.5 "ases" entrevista humana

Anthropic rediseña las pruebas de contratación después de Claude 4.5 "ases" entrevista humana

Related Posts

Substack lanza aplicación de TV para plataformas Apple y Google

Vimeo comienza reducciones de personal global tras la adquisición de Bending Spoons

OpenAI nombra a Barret Zoph para liderar las ventas empresariales

LiveKit alcanza el estatus de unicornio con 100 millones de dólares en nueva financiación

Substack lanza aplicación de TV para plataformas Apple y Google

Vimeo comienza reducciones de personal global tras la adquisición de Bending Spoons

OpenAI nombra a Barret Zoph para liderar las ventas empresariales

LiveKit alcanza el estatus de unicornio con 100 millones de dólares en nueva financiación

Spotify lanza listas de reproducción solicitadas para permitir a los usuarios controlar el algoritmo

© 2021 TechBriefly is a Linkmedya brand.

Anthropic rediseña las pruebas de contratación después de Claude 4.5 "ases" entrevista humana

Related Posts

© 2021 TechBriefly is a Linkmedya brand.

Follow Us