TechBriefly ES
  • Tech
  • Business
  • Geek
  • How to
  • about
    • About Tech Briefly
    • Terms and Conditions
    • Privacy Policy
    • Contact Us
No Result
View All Result
TechBriefly ES
No Result
View All Result
Home Tech
Modelo de IA “Performance” en Pokémon marcado por personalización

Modelo de IA “Performance” en Pokémon marcado por personalización

byTB Editor
17/04/2025
in Tech
Reading Time: 2 mins read
Share on FacebookShare on Twitter

Ni siquiera Pokémon está a salvo de la controversia de la evaluación comparativa de IA. Una publicación reciente sobre X afirmó que el modelo Géminis de Google superó al modelo Claude de Anthrope en el juego Pokémon original, generando debate sobre los métodos de evaluación comparativa.

La semana pasada, una publicación sobre X se volvió viral, alegando que el último modelo de Géminis de Google superó el modelo de Claude insignia de Anthrope en la trilogía original de los videojuegos Pokémon. Según se informa, Géminis había llegado a Lavender Town en la corriente de contracción de un desarrollador; Claude estaba atrapado en Mount Moon a fines de febrero. La publicación decía: “Géminis está literalmente por delante del cajero automático de Claude en Pokémon después de llegar a Lavender Town”, e incluyó una captura de pantalla de la transmisión con el comentario, “119 vistas en vivo solo por cierto, transmisión increíblemente subestimada”.

  Huawei retrasa el lanzamiento del Mate 80 para optimizar el Kirin 9030

Sin embargo, más tarde se reveló que Géminis tenía una ventaja injusta. Los usuarios en Reddit señalaron que el desarrollador que mantiene la transmisión Géminis había creado un minimapa personalizado que ayuda al modelo a identificar “mosaicos” en el juego, como los árboles de corte. Este minimap personalizado reduce la necesidad de que Gemini analice las capturas de pantalla antes de tomar decisiones de juego, lo que le da una ventaja significativa.

Si bien Pokémon se considera, en el mejor de los casos, un punto de referencia de IA semi-serioso, sirve como un ejemplo instructivo de cómo las diferentes implementaciones de un punto de referencia pueden influir en los resultados. La controversia destaca las imperfecciones de la evaluación comparativa de IA y cómo las implementaciones personalizadas pueden hacer que sea difícil comparar los modelos con precisión.

  El tamaño del archivo de Starfield crece día a día

Este problema no es exclusivo de Pokémon. Anthrope informó dos puntajes diferentes para su modelo de soneto Claude 3.7 en el punto de referencia verificado SWE-Bench, que evalúa las habilidades de codificación de un modelo. Sin un “andamio personalizado”, el soneto Claude 3.7 alcanzó una precisión del 62.3%, pero con el andamio personalizado, la precisión aumentó a 70.3%. Del mismo modo, meta ajustó una versión de su modelo Maverick Llama 4 para funcionar mejor en el punto de referencia de LM Arena. La versión ajustada obtuvo un puntaje significativamente más alto que la versión de vainilla en la misma evaluación.

Dado que los puntos de referencia de IA son medidas imperfectas para empezar, las implementaciones personalizadas y no estándar complican aún más la comparación de los modelos. Como resultado, es probable que sea cada vez más difícil comparar modelos a medida que se liberan.

  ¿Cómo solucionar los problemas de rendimiento de Wild Hearts?

Source: Modelo de IA “Performance” en Pokémon marcado por personalización

Related Posts

Spotify lanza listas de reproducción solicitadas para permitir a los usuarios controlar el algoritmo

Spotify lanza listas de reproducción solicitadas para permitir a los usuarios controlar el algoritmo

Anthropic rediseña las pruebas de contratación después de Claude 4.5 "ases" entrevista humana

Anthropic rediseña las pruebas de contratación después de Claude 4.5 "ases" entrevista humana

La misión New Glenn-3 de Blue Origin para desplegar BlueBird 7 de AST SpaceMobile

La misión New Glenn-3 de Blue Origin para desplegar BlueBird 7 de AST SpaceMobile

Snapchat da a los padres señales de confianza para examinar las conexiones con amigos adolescentes

Snapchat da a los padres señales de confianza para examinar las conexiones con amigos adolescentes

Spotify lanza listas de reproducción solicitadas para permitir a los usuarios controlar el algoritmo
Tech

Spotify lanza listas de reproducción solicitadas para permitir a los usuarios controlar el algoritmo

Anthropic rediseña las pruebas de contratación después de Claude 4.5 "ases" entrevista humana
Tech

Anthropic rediseña las pruebas de contratación después de Claude 4.5 "ases" entrevista humana

La misión New Glenn-3 de Blue Origin para desplegar BlueBird 7 de AST SpaceMobile
Tech

La misión New Glenn-3 de Blue Origin para desplegar BlueBird 7 de AST SpaceMobile

Snapchat da a los padres señales de confianza para examinar las conexiones con amigos adolescentes
Tech

Snapchat da a los padres señales de confianza para examinar las conexiones con amigos adolescentes

Google Photos v7.59 puede matar el "Modificar" botón en compartir revisión
Tech

Google Photos v7.59 puede matar el "Modificar" botón en compartir revisión

TechBriefly ES

© 2021 TechBriefly is a Linkmedya brand.

  • About
  • About Tech Briefly
  • Blog
  • Contact
  • Contact Us
  • Cover Page
  • Privacy Policy
  • TechBriefly
  • Terms and Conditions

Follow Us

No Result
View All Result
  • Tech
  • Business
  • Geek
  • How to
  • about
    • About Tech Briefly
    • Terms and Conditions
    • Privacy Policy
    • Contact Us

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy and Cookie Policy.