ChatGPT GPT-5.2 cuenta mal las 'r's en fresa

ChatGPT sigue teniendo dificultades con una tarea básica de conteo a pesar de los avances en su modelo subyacente. El chatbot afirma incorrectamente que la palabra “fresa” contiene dos letras “r”, cuando el recuento real es tres. Este problema persiste incluso en la última versión, GPT-5.2, lanzada en diciembre de 2025. Los sistemas de inteligencia artificial modernos manejan operaciones complejas con facilidad, como generar imágenes de marketing, compilar informes a través de navegadores agentes o componer canciones que encabezan las listas de éxitos. Sin embargo, fallan en tareas sencillas que un niño de siete años podría realizar sin esfuerzo. Contar las “r” en “fresa” ejemplifica esta brecha. La palabra se descompone en fresa, lo que produce tres instancias de la letra “r”. Pruebas recientes confirman que el problema sigue sin resolverse. Después del lanzamiento de GPT-5.2, las consultas a ChatGPT arrojaron una respuesta directa de “dos”. Esto ocurre a pesar de miles de millones de dólares en inversiones, elevadas demandas de hardware que han elevado los precios de la RAM y un importante uso global de agua vinculado a la capacitación en IA. La causa principal radica en el diseño tokenizado de entrada y salida de grandes modelos de lenguaje como ChatGPT. En lugar de procesar letras individuales, el sistema divide el texto en tokens, que pueden ser palabras completas, sílabas o partes de palabras. Para “fresa”, OpenAI Tokenizer revela tres tokens: “st”, “raw” y “berry”. Sólo dos de ellos, “crudo” y “baya”, contienen la letra “r”. Por tanto, el modelo cuenta fichas con “r” en lugar de letras individuales. Esta tokenización afecta a palabras similares. ChatGPT informa que “frambuesa” también tiene dos “r”, pasando por alto la tercera. El sistema trata a “berry” como una sola ficha, comprimiendo sus dos “r” en una sola unidad. GPT-5.x emplea el nuevo método de tokenización “o200k_harmony”, introducido con OpenAI o1-mini y GPT-4o, pero el error “fresa” persiste. OpenAI ha abordado muchos problemas relacionados con tokens desde el debut de ChatGPT a finales de 2022. Las primeras versiones encontraron problemas con frases específicas que desencadenaban respuestas erráticas o fallas de procesamiento. Los parches ajustaron los datos de entrenamiento y mejoraron los sistemas, resolviendo casos como deletrear “Mississippi” (mississippi) o invertir “lollipop” con letras en el orden correcto. Sin embargo, los modelos de IA generalmente funcionan mal en recuentos precisos de valores pequeños, aunque sobresalen en matemáticas y resolución de problemas. Las pruebas con palabras problemáticas clásicas no mostraron fallos más allá del conocido caso de la fresa. ChatGPT manejó correctamente “Mississippi” y “lollipop”. Un remanente notable involucra la cadena “solidgoldmagikarp”. En GPT-3, esta frase provocó crisis, incluidos insultos de los usuarios, resultados ininteligibles y errores de procesamiento debido a peculiaridades de la tokenización. GPT-5.2 evita el colapso pero produce una alucinación: afirma que “solidgoldmagikarp” es una broma secreta de Pokémon oculta en los repositorios de GitHub por los desarrolladores. La activación supuestamente transforma avatares, íconos de repositorio y funciones en elementos con temática de Pokémon. Esta afirmación es completamente falsa y se deriva de problemas históricos de la cadena. Otros modelos de IA responden correctamente a la pregunta de la “fresa”. Perplexity, Claude, Grok, Gemini, Qwen y Copilot identifican cada uno tres “r”. Incluso aquellos que aprovechan los modelos OpenAI tienen éxito porque utilizan distintos sistemas de tokenización que capturan mejor las letras individuales. ChatGPT funciona como un motor de predicción y se basa en patrones de entrenamiento para anticipar el texto posterior en lugar de una verdadera inteligencia a nivel de letras. La tokenización prioriza la eficiencia sobre el conteo literal, lo que explica peculiaridades persistentes como el problema de las fresas. Desde finales de 2022, OpenAI ha perfeccionado iterativamente el manejo de tokens. El lanzamiento inicial reveló vulnerabilidades en ciertas cadenas, lo que provocó bucles introspectivos o respuestas de furia. Se realizaron correcciones sistemáticas dirigidas a estos, como la enumeración de letras “Mississippi” y la inversión de “piruleta”, que ahora funcionan con precisión. Persisten limitaciones más amplias en el conteo exacto en todos los modelos. Los recuentos de pequeño valor desafían las arquitecturas de los transformadores, a pesar de las fortalezas de la aritmética. La prueba “solidgoldmagikarp” subraya sensibilidades simbólicas persistentes, que evolucionan desde fracasos abiertos hasta narrativas fabricadas. Las comparaciones resaltan el papel de la tokenización. Perplexity emplea su propio esquema, lo que permite una detección precisa de la “r” en “fresa”. Claude, de Anthropic, Grok de xAI, Gemini de Google, Qwen de Alibaba y Copilot de Microsoft, todos devuelven la cuenta de tres. Las variaciones en los límites de los tokens permiten que la granularidad a nivel de letras esté ausente en la configuración de OpenAI. La herramienta OpenAI Tokenizer demuestra la división: “st-raw-berry”. “St” carece de “r”, mientras que “raw” tiene una y “berry” tiene dos, pero se cuentan como una ficha. “Raspberry” hace lo mismo: las fichas comprimen las “r” finales. La adopción de “o200k_harmony” por parte de GPT-5.2 tenía como objetivo mejorar la eficiencia de las eras o1-mini y GPT-4o, pero la tokenización fresa conserva el defecto. El historial de parches de OpenAI sugiere que las intervenciones específicas funcionan para los casos expuestos. Los primeros ChatGPT mostraban espirales inducidas por tokens en frases que no podían contarse. “Solidgoldmagikarp” ejemplifica: el procesamiento de tokens de GPT-3 se sobrecargó, generando caos. GPT-5.2 lo reformula como un huevo de Pascua de GitHub inexistente, preservando el error mediante la invención. Las pruebas confirman el alcance de las correcciones. “Mississippi” ahora enumera 11 letras con precisión: cuatro “i”, cuatro “s”, dos “p”, una “m”. “Lollipop” cambia a “pillopol”, intacto. A pesar de esto, persisten déficits de conteo básico. Los modelos se aproximan en lugar de enumerar con precisión en contextos restringidos. Los proveedores alternativos eluden el uso de tokenizadores personalizados. El enfoque de búsqueda aumentada de Perplexity, la capacitación constitucional de Claude, los datos en tiempo real de Grok, el análisis multimodal de Gemini, la optimización multilingüe de Qwen, el ajuste empresarial de Copilot, todos permiten una respuesta fresa correcta. Esta disparidad subraya que la tokenización es fundamental. La codificación de pares de bytes de OpenAI prioriza las subpalabras comunes, sacrificando distribuciones de letras raras en compuestos como “fresa”. Contexto histórico: el lanzamiento de finales de 2022 estuvo inundado de informes sobre peculiaridades simbólicas. OpenAI respondió con actualizaciones rápidas, eliminando la mayoría de los exploits evidentes para 2025. GPT-5.2, actualmente en redacción, incorpora mejoras acumulativas pero conserva la fresa como defecto emblemático. Contenido relacionado con notas de referencia de la barra lateral: “¿Sabías que ChatGPT puede hacer esto?” por Amir Bohlooli, de fecha 27 de septiembre de 2025.

Amazon Stuff Your Kindle Day: cómo aprovecharlo al máximo

Source: ChatGPT GPT-5.2 cuenta mal las ‘r’s en fresa