Guide Labs abre Steerling-8B para resolver el problema de la "caja negra" de la IA

Guide Labs, una startup con sede en San Francisco, anunció el lunes el código abierto de Steerling-8B, un modelo de lenguaje grande de 8 mil millones de parámetros. La empresa, fundada por el director ejecutivo Julius Adebayo y la directora científica Aya Abdelsalam Ismail, desarrolló el modelo con una arquitectura distinta diseñada para rastrear cada token generado por el LLM hasta sus orígenes específicos dentro de los datos de entrenamiento. Esta capacidad permite a los usuarios identificar materiales de referencia para afirmaciones objetivas o analizar atributos complejos como el humor y la codificación de género dentro de la salida del modelo.

El desarrollo de Steerling-8B surge de la investigación que Adebayo inició durante su doctorado en el MIT. En 2018, fue coautor de un artículo ampliamente citado que demostraba que los métodos existentes para comprender los modelos de aprendizaje profundo no eran confiables. Este trabajo fundamental condujo a una nueva metodología para construir LLM que diseña la interpretabilidad directamente en la estructura del modelo. En lugar de aplicar un análisis post-hoc (lo que Adebayo describe como “neurociencia en un modelo”), Guide Labs inserta una capa conceptual que agrupa los datos en categorías rastreables. Si bien este enfoque requiere una anotación de datos más inicial con la ayuda de otros modelos de IA, establece un marco transparente desde cero.

WhatsApp busca lanzar un plan premium con íconos personalizados exclusivos

A pesar de la arquitectura estructurada, Steerling-8B conserva comportamientos emergentes. El equipo rastrea lo que denominan “conceptos descubiertos”, que el modelo identifica de forma independiente durante el entrenamiento. Adebayo citó la computación cuántica como ejemplo de un concepto que el modelo encontró por sí solo, ilustrando que el sistema no se basa únicamente en categorías de datos preetiquetadas.

Adebayo abordó las complejidades de controlar el comportamiento del modelo, específicamente en lo que respecta a atributos sensibles como el género. “Si tengo un billón de formas de codificar el género, y lo codifico en mil millones de los billones de cosas que tengo, tienes que asegurarte de encontrar todos esos mil millones de cosas que he codificado, y luego tienes que poder activarlas y desactivarlas de manera confiable”, dijo Adebayo a TechCrunch. Señaló que si bien los modelos actuales permiten cierto control, sigue siendo frágil, y caracterizó la gestión confiable de estas codificaciones como “una de las cuestiones del santo grial” en este campo.

Anthropic invita a 150 organizaciones más a unirse al Proyecto Glasswing

La empresa identifica varias aplicaciones prácticas para la interpretabilidad de Steerling-8B. En aplicaciones orientadas al consumidor, la arquitectura permite a los desarrolladores bloquear material protegido por derechos de autor o controlar resultados relacionados con temas delicados como la violencia o el abuso de drogas. En industrias reguladas, específicamente en finanzas, el modelo permite el cumplimiento en áreas como la evaluación de préstamos, donde se puede ordenar al algoritmo que considere los registros financieros ignorando explícitamente la raza. Guide Labs también ha desarrollado tecnología para la investigación científica, abordando la necesidad de comprender por qué los modelos de aprendizaje profundo producen resultados específicos, como en las simulaciones de plegamiento de proteínas.

Los puntos de referencia de rendimiento indican que Steerling-8B logra el 90% de la capacidad de los modelos existentes no interpretables mientras utiliza menos datos de entrenamiento. Adebayo sostiene que esta eficiencia demuestra un cambio de la ciencia teórica a la ingeniería práctica. “Este modelo demuestra que entrenar modelos interpretables ya no es una especie de ciencia; ahora es un problema de ingeniería”, dijo Adebayo. “Descubrimos la ciencia y podemos escalarlos, y no hay ninguna razón por la que este tipo de modelo no iguale el rendimiento de los modelos de nivel fronterizo”.

Oukitel comercializa un teléfono inteligente que activa el fuego para responder a emergencias

Guide Labs se originó en Y Combinator y obtuvo una ronda inicial de $ 9 millones de Initialized Capital en noviembre de 2024. La hoja de ruta de la compañía incluye la construcción de un modelo más grande y el suministro de API y acceso agente a los usuarios. Adebayo enfatizó la importancia de democratizar la interpretabilidad a medida que los sistemas de IA se vuelven más poderosos. “La forma en que actualmente entrenamos modelos es súper primitiva, por lo que democratizar la interpretabilidad inherente será algo bueno a largo plazo para nuestro papel dentro de la raza humana”, dijo Adebayo. “A medida que buscamos estos modelos que serán súper inteligentes, no querrás que algo tome decisiones en tu nombre que te resulten un tanto misteriosas”.

Crédito de imagen destacada

Guide Labs abre Steerling-8B para resolver el problema de la “caja negra” de la IA

Related Stories

Apple trae controles de voz Siri más personales a la beta 3

Un estudio antrópico encuentra que los modelos de Claude forman un espacio de trabajo interno que se asemeja a la conciencia

Apple activa Siri AI en Apple Watch en watchOS 27 beta 3

Se rumorea que Apple lanzará el iPhone Ultra plegable en 2026