Ni siquiera Pokémon está a salvo de la controversia de la evaluación comparativa de IA. Una publicación reciente sobre X afirmó que el modelo Géminis de Google superó al modelo Claude de Anthrope en el juego Pokémon original, generando debate sobre los métodos de evaluación comparativa.
La semana pasada, una publicación sobre X se volvió viral, alegando que el último modelo de Géminis de Google superó el modelo de Claude insignia de Anthrope en la trilogía original de los videojuegos Pokémon. Según se informa, Géminis había llegado a Lavender Town en la corriente de contracción de un desarrollador; Claude estaba atrapado en Mount Moon a fines de febrero. La publicación decía: “Géminis está literalmente por delante del cajero automático de Claude en Pokémon después de llegar a Lavender Town”, e incluyó una captura de pantalla de la transmisión con el comentario, “119 vistas en vivo solo por cierto, transmisión increíblemente subestimada”.
Sin embargo, más tarde se reveló que Géminis tenía una ventaja injusta. Los usuarios en Reddit señalaron que el desarrollador que mantiene la transmisión Géminis había creado un minimapa personalizado que ayuda al modelo a identificar “mosaicos” en el juego, como los árboles de corte. Este minimap personalizado reduce la necesidad de que Gemini analice las capturas de pantalla antes de tomar decisiones de juego, lo que le da una ventaja significativa.
Si bien Pokémon se considera, en el mejor de los casos, un punto de referencia de IA semi-serioso, sirve como un ejemplo instructivo de cómo las diferentes implementaciones de un punto de referencia pueden influir en los resultados. La controversia destaca las imperfecciones de la evaluación comparativa de IA y cómo las implementaciones personalizadas pueden hacer que sea difícil comparar los modelos con precisión.
Este problema no es exclusivo de Pokémon. Anthrope informó dos puntajes diferentes para su modelo de soneto Claude 3.7 en el punto de referencia verificado SWE-Bench, que evalúa las habilidades de codificación de un modelo. Sin un “andamio personalizado”, el soneto Claude 3.7 alcanzó una precisión del 62.3%, pero con el andamio personalizado, la precisión aumentó a 70.3%. Del mismo modo, meta ajustó una versión de su modelo Maverick Llama 4 para funcionar mejor en el punto de referencia de LM Arena. La versión ajustada obtuvo un puntaje significativamente más alto que la versión de vainilla en la misma evaluación.
Dado que los puntos de referencia de IA son medidas imperfectas para empezar, las implementaciones personalizadas y no estándar complican aún más la comparación de los modelos. Como resultado, es probable que sea cada vez más difícil comparar modelos a medida que se liberan.
Source: Modelo de IA “Performance” en Pokémon marcado por personalización
