El proyecto OpenMythos afirma que Claude Mythos es un transformador de profundidad recurrente

Anthropic no ha publicado un documento técnico sobre Claude Mythos, lo que llevó a Kye Gomez a lanzar OpenMythos, un proyecto de código abierto en GitHub. OpenMythos está diseñado para reconstruir la arquitectura de Claude Mythos utilizando los primeros principios en PyTorch.

El proyecto propone que Claude Mythos sea un tipo de arquitectura conocida como Transformadores de Profundidad Recurrente (RDT), que se diferencian fundamentalmente de los transformadores tradicionales. Los transformadores estándar procesan las entradas a través de una serie de capas únicas con pesos independientes, mientras que los RDT aplican un conjunto fijo de pesos de forma iterativa durante un único paso hacia adelante.

Esta metodología permite que la profundidad del razonamiento dependa del número de iteraciones ejecutadas en el momento de la inferencia. OpenMythos presenta una estructura de tres partes: Preludio, Bloque Recurrente y Coda, donde el Preludio y la Coda consisten cada uno en capas de transformadores estándar que operan una vez, y el Bloque Recurrente puede repetirse hasta 16 veces.

En cada paso del ciclo, el estado oculto se actualiza siguiendo la ecuación: ht+1 = A·ht + B·e + Transformer(ht, e). Aquí, e representa la entrada codificada del Preludio que se reinyecta en cada iteración para mantener la continuidad. Las matrices A y B dictan cuánto del estado oculto anterior y la entrada codificada influyen en el siguiente estado.

Cómo se bloquearon 160 millones de reseñas falsas para guardar las calificaciones de aplicaciones de Android

El bloque recurrente incorpora una capa de mezcla de expertos (MoE) que activa selectivamente un subconjunto de expertos por token, lo que facilita la diversidad computacional. Cada iteración utiliza una selección diferente de expertos, lo que permite cálculos distintos y al mismo tiempo comparte ponderaciones base.

OpenMythos también emplea atención multilatente, lo que reduce significativamente el uso de memoria KV. Esta arquitectura permite el razonamiento sin emisión de tokens intermedios, en contraste con las indicaciones de cadena de pensamiento estándar, que procesa el razonamiento a través de tokens intermedios.

OpenMythos aborda los desafíos de entrenamiento comunes asociados con los modelos en bucle, como problemas de estabilidad como la explosión residual y el pensamiento excesivo. La estabilidad se mantiene haciendo cumplir que el radio espectral de la matriz A permanezca menor que 1, como se indica en la arquitectura Parcae.

Lovable lanza aplicaciones móviles para Android e iOS

La detención del tiempo de computación adaptativa dinámica (ACT) se implementa para determinar los criterios de detención del bucle en función de la complejidad del token. Los adaptadores LoRA de profundidad también se utilizan para crear comportamientos únicos por iteración, minimizando los aumentos en los parámetros.

Las investigaciones sugieren que un RDT con 770 millones de parámetros puede ofrecer un rendimiento equivalente a un transformador estándar con 1.300 millones de parámetros. Esto indica que la profundidad del razonamiento aumenta con el cálculo de inferencia, desafiando los paradigmas existentes sobre la relación entre el recuento de parámetros y la capacidad del modelo.

OpenMythos proporciona una implementación práctica para explorar la dinámica de los transformadores en bucle y la profundidad del razonamiento, lo que podría guiar futuros avances en el desarrollo de la IA. El proyecto proporciona una implementación de PyTorch configurable, inyección recurrente estable LTI, adaptadores LoRA en profundidad y una línea de base de investigación reproducible.

Anthropic lanzará Claude Opus 4.7 y una nueva herramienta de diseño de IA esta semana

Gómez afirmó: “Ya sea que Mythos sea o no un RDT, OpenMythos ofrece recursos concretos para que la comunidad de investigación investigue esta clase de arquitectura poco explorada y sus implicaciones para la IA”.

Crédito de imagen destacada

El proyecto OpenMythos afirma que Claude Mythos es un transformador de profundidad recurrente

Related Stories

Apple trae controles de voz Siri más personales a la beta 3

Un estudio antrópico encuentra que los modelos de Claude forman un espacio de trabajo interno que se asemeja a la conciencia

Apple activa Siri AI en Apple Watch en watchOS 27 beta 3

Midjourney presiona a Disney y otros a revelar el uso interno de IA en la demanda