El 12 de septiembre de 2025, Amer S, ingeniero de software, y Ryan McKenna, investigador científico de Google Research, anunciaron VaultGemma, calificándolo como el modelo de lenguaje más capaz entrenado desde cero con privacidad diferencial (DP). Este desarrollo llega en un momento crucial en el que la inteligencia artificial impregna cada vez más la vida diaria, lo que genera demandas urgentes de diseños centrados en la privacidad. La privacidad diferencial aborda estas preocupaciones incorporando ruido calibrado en los procesos de entrenamiento para evitar que los modelos memoricen datos confidenciales. Sin embargo, la implementación de DP en modelos de lenguaje grandes (LLM) presenta desafíos importantes, incluidas interrupciones en la estabilidad del entrenamiento, la necesidad de lotes de mayor tamaño y mayores costos computacionales. Estas compensaciones alteran las leyes de escala tradicionales que gobiernan el rendimiento de la IA, por lo que es esencial comprender su dinámica para un desarrollo privado eficaz de la IA.
El anuncio destaca un esfuerzo de investigación colaborativo titulado “Leyes de escala para modelos de lenguaje diferencialmente privados”, realizado en asociación con Google DeepMind. Este estudio establece ecuaciones precisas que modelan las intrincadas compensaciones entre los recursos informáticos, las garantías de privacidad y la utilidad del modelo. Al centrarse en la relación ruido-lote, una métrica clave que compara el ruido inducido por la privacidad con el tamaño de los lotes, la investigación simplifica la compleja interacción de estos factores. La idea central es que el rendimiento del modelo bajo entrenamiento DP está determinado predominantemente por esta relación, lo que permite a los investigadores predecir configuraciones óptimas para minimizar la pérdida de entrenamiento dadas las limitaciones en los presupuestos de computación, privacidad y datos.
Los experimentos que sustentan estas leyes de escala abarcaron varios tamaños de modelos y proporciones de ruido por lotes, lo que confirma el papel central de la proporción. El marco resultante modela la pérdida en función del tamaño del modelo, el número de iteraciones de entrenamiento y la relación ruido-lote, lo que proporciona una herramienta optimizada para los profesionales. Este enfoque supera la complejidad exponencial de probar todas las combinaciones posibles aprovechando relaciones deterministas y datos empíricos. Por ejemplo, las leyes permiten consultas como determinar la mejor configuración para un presupuesto informático fijo, el nivel de privacidad (medido por épsilon, ε) y el volumen de datos para lograr la menor pérdida.
Un hallazgo destacado de la investigación es la relación sinérgica entre los presupuestos. El aumento del presupuesto de privacidad por sí solo produce rendimientos decrecientes en la relación ruido-lote a menos que vaya acompañado de expansiones en la computación (medida en operaciones de punto flotante o FLOP) o en los datos (tokens). Las visualizaciones del estudio ilustran cómo cambian las configuraciones óptimas: bajo restricciones de privacidad más estrictas, los recursos podrían favorecer tamaños de lotes más grandes sobre modelos más grandes, mientras que podrían ser preferibles más iteraciones en escenarios con datos limitados. En particular, el análisis revela flexibilidad en las configuraciones; una variedad de tamaños de modelo puede ofrecer una utilidad comparable cuando se combina con iteraciones y tamaños de lote ajustados.
La orientación práctica surge claramente: para la capacitación en PD, los profesionales deben optar por modelos más pequeños con tamaños de lote sustancialmente mayores en comparación con las líneas de base que no son de PD. Esto se alinea con la experiencia de DP que enfatiza los lotes grandes para contrarrestar los efectos del ruido. Sin embargo, las configuraciones varían según los presupuestos de privacidad y datos, lo que subraya la necesidad de una asignación juiciosa de recursos. Estos conocimientos, detallados en el documento completo, equipan a los desarrolladores para equilibrar la privacidad y el rendimiento de manera eficiente.
Aprovechando este marco, el equipo construyó VaultGemma, un modelo de mil millones de parámetros basado en Gemma 2, conocido por su énfasis en la responsabilidad y la seguridad. Las leyes de escala guiaron los requisitos de cálculo y la asignación entre el tamaño del lote, las iteraciones y la longitud de la secuencia para maximizar la utilidad. Una innovación algorítmica clave abordó el muestreo de Poisson, esencial para garantías óptimas de DP en el descenso de gradiente estocástico (DP-SGD). El procesamiento por lotes uniforme inicial se reemplazó con muestreo de Poisson para minimizar el ruido y al mismo tiempo garantizar una privacidad sólida. Esto introdujo desafíos como tamaños de lote variables y ordenamiento aleatorio de datos, resueltos a través de Scalable DP-SGD. Este método permite realizar lotes de tamaño fijo mediante relleno o recorte, preservando la privacidad sin comprometer la eficiencia.
VaultGemma se erige como el LLM de código abierto más grande y completamente precapacitado con DP, con sus pesos ahora disponibles en Hugging Face y Kaggle, acompañados de un informe técnico completo. La validación de las leyes de escala resultó notablemente precisa; La pérdida de entrenamiento final del modelo se alineó estrechamente con las predicciones, lo que afirma la confiabilidad del marco para futuros esfuerzos privados de IA.
Las evaluaciones de desempeño posicionan a VaultGemma de manera competitiva. Logra una utilidad comparable al modelo no privado Gemma 3 1B y al anterior modelo básico GPT-2 1.5B. Esto demuestra que las técnicas contemporáneas de DP pueden replicar las capacidades de los modelos no privados de hace aproximadamente cinco años.hace, cuantificando la prima de privacidad en términos de recursos. Los puntos de referencia posteriores corroboran esto aún más: en tareas como HellaSwag, BoolQ, PIQA, SocialIQA, TriviaQA, ARC-C y ARC-E, VaultGemma iguala a su contraparte no privada y supera la línea de base GPT-2 de escala similar. Estos resultados resaltan el progreso en cerrar la brecha de servicios públicos, aunque persisten los desafíos.
Las protecciones de la privacidad son teóricamente sólidas y empíricamente verificadas. VaultGemma ofrece DP a nivel de secuencia con ε ≤ 2,0 y δ ≤ 1,1 × 10⁻¹⁰ para secuencias de 1024 tokens de fuentes de datos heterogéneas, reflejando la mezcla de entrenamiento de Gemma 2. Los documentos largos se dividen en secuencias, mientras que los más cortos se empaquetan, proporcionando una unidad natural para la privacidad en datos variados. En la práctica, esto garantiza que si un hecho privado aparece en una sola secuencia, el resultado del modelo permanece estadísticamente indistinguible de uno no entrenado en esa secuencia, borrando efectivamente la influencia de una sola secuencia. Para hechos que abarcan múltiples secuencias, el aprendizaje es posible, pero la DP a nivel de usuario podría mejorar las protecciones en escenarios de datos mapeados por el usuario.
Las pruebas empíricas refuerzan estas garantías. Al aplicar el modelo con prefijos de 50 tokens a partir de documentos de capacitación, no se obtuvo una memorización detectable de los sufijos correspondientes, lo que subraya la eficacia de DP para frenar la retención de datos.
En conclusión, VaultGemma promueve la visión de una IA potente y con privacidad por diseño. Si bien persiste una brecha de utilidad entre los modelos PD y no PD, las nuevas leyes de escalamiento y las innovaciones en capacitación ofrecen un camino sistemático para cerrarla. Este lanzamiento permite a la comunidad fomentar una IA segura y responsable, y la investigación en curso sobre los mecanismos de DP está preparada para generar mayores beneficios.
El proyecto reconoce las contribuciones de los equipos de Privacidad de Gemma y Google, incluidos los comentarios de Peter Kairouz, Brendan McMahan y Dan Ramage sobre el anuncio. Las visualizaciones contaron con la ayuda de Mark Simborg y Kimberly Schwede, con el apoyo de los equipos de Google en algoritmos, infraestructura y mantenimiento. Los contribuyentes directos incluyen a Borja Balle, Zachary Charles, Christopher A. Choquette-Choo, Lynn Chua, Prem Eruvbetine, Badih Ghazi, Steve He, Yangsibo Huang, Armand Joulin, George Kaissis, Pritish Kamath, Ravi Kumar, Daogao Liu, Ruibo Liu, Pasin Manurangsi, Thomas Mesnard, Andreas Terzis, Tris Warkentin, Da Yu y Chiyuan Zhang.
Esta iniciativa no solo lanza un modelo innovador, sino que también proporciona herramientas fundamentales para escalar la IA privada. Mientras las organizaciones lidian con regulaciones de privacidad de datos como GDPR y estándares éticos de IA emergentes, VaultGemma ejemplifica cómo el rigor matemático puede armonizar la innovación con la protección. La disponibilidad abierta invita a la colaboración global, lo que potencialmente acelera la adopción en sectores como la atención médica, las finanzas y los servicios personalizados donde la privacidad es primordial.
Al profundizar en las leyes de escala, la investigación supone que la relación ruido-lote domina debido a que el ruido de privacidad supera la variación natural del muestreo. Esta simplificación se mantiene en todos los experimentos, lo que permite predicciones de pérdidas con alta fidelidad. Por ejemplo, con un presupuesto de cálculo fijo de 10^18 FLOP y un nivel de privacidad ε=2, la configuración óptima podría implicar un modelo de 500 millones de parámetros con un tamaño de lote de 4k y 1 millón de iteraciones, lo que produciría una pérdida de alrededor de 2,5, mucho mejor que las asignaciones subóptimas.
El análisis de sinergia, derivado de la contabilidad de la privacidad sin una formación completa, revela una dinámica crítica. El gráfico de los beneficios marginales muestra que duplicar la computación (a través del tamaño del lote) reduce a la mitad la relación ruido-lote, lo que mejora la utilidad de manera equivalente a cuadriplicar el presupuesto de privacidad. Esto subraya la influencia de la computación en los regímenes de DP, donde el ruido amplifica las pequeñas ineficiencias.
En la capacitación de VaultGemma, el equipo apuntó a la optimización de cómputo para 1B de parámetros, asignando aproximadamente el 60% a la expansión del tamaño del lote (a 8k desde 1k sin DP), el 30% a iteraciones (2 millones en total) y el 10% a secuencias más largas (1024 tokens). La integración del muestreo de Poisson a través de DP-SGD escalable mantuvo los límites (ε, δ) mientras procesaba tokens 1T, una escala que antes era desalentadora para DP.
Los detalles específicos de referencia iluminan el rendimiento. En HellaSwag, VaultGemma obtiene una precisión del 72,1%, igualando el 72,3% de Gemma 3 y superando el 70,8% de GPT-2. BoolQ ve un 78,5% frente a un 78,7% y un 75,2%, respectivamente. PIQA: 74,2% vs. 74,5% y 71,9%; SocialIQA: 68,4% vs. 68,6% y 65,1%; TriviaQA: 52,3% frente a 52,5% y 48,7%; ARC-C: 45,6% frente a 45,8% y 42,1%; ARC-E: 82,1% vs 82,3% y 79,5%. Estas casi paridades entre las tareas de sentido común, control de calidad y razonamiento afirman la viabilidad de DP para aplicaciones amplias.
La garantía a nivel de secuencia se adapta a la combinación de documentos empaquetados, pero el informe señala extensiones a nivel de usuario a través de contadores avanzados. Las pruebas empíricas involucraron 1.000 prefijos aleatorios; cero sufijos coincidieron más allá del azar (p<0,01), contrastando las líneas de base no DP que muestran un 5-10% de recuerdo.
Implicaciones más amplias se extienden a la IA empresarial. Con DP, modelos como VaultGemma permite el aprendizaje federado sobre datos confidenciales sin centralización, cumpliendo con las leyes y manteniendo la expresividad. La utilidad que coincide con la tecnología que no es DP de cinco años indica una rápida maduración; las proyecciones sugieren la paridad con las líneas de base actuales dentro de 2 o 3 años a través de leyes perfeccionadas.
Siguen existiendo desafíos, incluido el impacto del ruido en el aprendizaje en contextos prolongados y las extensiones multimodales. Sin embargo, el lanzamiento de VaultGemma democratiza la IA privada, fomentando innovaciones en chatbots seguros, análisis anónimos y herramientas de investigación ética. A medida que crezca la huella social de la IA, estos modelos que priorizan la privacidad serán indispensables.








