Detectar texto generado por IA ha sido un desafío para investigadores y desarrolladores durante mucho tiempo. Con el rápido avance de los modelos de lenguaje grandes (LLM), como Gemini Advanced de Google y GPT-4o de OpenAI, la capacidad de producir texto similar al humano se ha vuelto cada vez más sofisticada.
Sin embargo, un nuevo estudio de investigadores de la Universidad de Tübingen y la Universidad Northwestern ofrece un gran avance en la identificación de contenido creado por IA.
Al centrarse en el aumento repentino de vocabulario específico en los escritos científicos, han desarrollado un método para detectar el uso de vocabulario de segunda mano con una precisión sorprendente. Esta técnica, inspirada en estudios sobre pandemias que midieron el exceso de muertes, revela cómo los cambios en el uso de palabras pueden indicar la presencia de texto generado por IA.

¿Cuáles son las palabras que delatan el contenido de la IA?
Para medir estos cambios, el equipo examinó la frecuencia de cada palabra anualmente. Al comparar la frecuencia esperada de palabras, según las tendencias anteriores a 2023, con el uso real en 2023 y 2024, identificaron un aumento drástico en ciertos términos. Por ejemplo, la palabra “delves” apareció 25 veces más frecuentemente en los resúmenes de 2024 de lo previsto. De manera similar, “showcasing” y “underscores” experimentaron un aumento de uso nueve veces mayor.
Aquí están las palabras más utilizadas en el texto generado por IA con sus correspondientes tasas de aumento de uso:
- Profundiza – Aumento de 25 veces
- Exhibición – Aumento de 9 veces
- Subraya – Aumento de 9 veces
- Potencial – Aumento de 4,1 puntos porcentuales
- Recomendaciones – Aumento de 2,7 puntos porcentuales
- Crucial – Aumento de 2,6 puntos porcentuales
- Al otro lado de – aumento significativo (no se especifica la tasa exacta)
- Además – aumento significativo (no se especifica la tasa exacta)
- Integral – aumento significativo (no se especifica la tasa exacta)
- Mejorando – aumento significativo (no se especifica la tasa exacta)
- Exhibido – aumento significativo (no se especifica la tasa exacta)
- Perspectivas – aumento significativo (no se especifica la tasa exacta)
- Notablemente – aumento significativo (no se especifica la tasa exacta)
- Particularmente – aumento significativo (no se especifica la tasa exacta)
- Dentro – aumento significativo (no se especifica la tasa exacta)
Estas palabras se han convertido en señales reveladoras de la intervención de la IA, pues aparecen con mucha más frecuencia de lo esperado. Si bien el lenguaje evoluciona de manera natural, estos cambios abruptos son inusuales y suelen estar vinculados a eventos globales importantes.
En este caso, el uso generalizado de títulos de LLM ha provocado un cambio notable en el vocabulario de la literatura científica.
Inspiración a partir del análisis de la pandemia
El enfoque de los investigadores se basa en gran medida en las técnicas utilizadas durante la pandemia de COVID-19. Así como el exceso de muertes se calculó comparando las muertes observadas con los datos históricos, este estudio compara el uso actual de palabras con las tendencias históricas para identificar anomalías. Analizaron más de 14 millones de resúmenes científicos publicados en PubMed entre 2010 y 2024, e identificaron un aumento significativo en ciertas palabras a partir de fines de 2022, coincidiendo con la adopción más amplia de los LLM.
Los investigadores observaron que el aumento de palabras específicas, llamadas “palabras marcadoras”, es un claro indicador del uso de LLM. Este fenómeno difiere de los cambios de vocabulario anteriores vinculados a eventos como la pandemia de COVID-19, que vio un aumento en el lenguaje con muchos sustantivos.

En cambio, en el período posterior a la obtención del título de LLM se ha producido un aumento de verbos, adjetivos y adverbios. Este cambio pone de relieve cómo el texto generado por IA modifica sutilmente la textura y el estilo de la escritura.
Al identificar estas palabras clave, los investigadores estiman que Al menos el 10% de los resúmenes científicos en 2024 fueron generados o asistidos significativamente por LLMEs probable que esta estimación sea conservadora, ya que no todos los textos asistidos por IA contendrán estos marcadores específicos. No obstante, la presencia de estas palabras proporciona una métrica confiable para detectar la influencia de la IA en la escritura académica.
Tendencias geográficas en el uso de LLM
El estudio también reveló variaciones geográficas en la adopción de los LLM. Países como China, Corea del Sur y Taiwán mostraron una mayor frecuencia de palabras clave en los artículos científicos, lo que indica que los LLM son particularmente valiosos para los hablantes no nativos de inglés. Estas herramientas ayudan a refinar y mejorar su escritura, haciéndola más pulida y lista para publicar.
Por el contrario, los hablantes nativos de inglés pueden ser más hábiles para reconocer y eliminar estos marcadores, ocultando así su uso de la IA. Esta diferencia sugiere que, si bien los LLM se utilizan ampliamente en todo el mundo, su impacto es más pronunciado en las regiones donde el inglés no es el idioma principal.
Crédito de la imagen destacada:Freepik
Source: Evita estas palabras a toda costa si no quieres que te atrapen usando IA





