El 12 de septiembre de 2025, Amer S, un ingeniero de software, y Ryan McKenna, un científico de investigación de Google Research, anunciaron Vaultgemma, que lo marcó como el modelo de idioma más capaz entrenado desde cero con privacidad diferencial (DP). Este desarrollo llega en un momento fundamental a medida que la inteligencia artificial impregna cada vez más la vida diaria, lo que aumenta las demandas urgentes de diseños centrados en la privacidad. La privacidad diferencial aborda estas preocupaciones incorporando el ruido calibrado en los procesos de entrenamiento para evitar que los modelos memoricen datos confidenciales. Sin embargo, la implementación de DP en modelos de idiomas grandes (LLM) presenta desafíos significativos, incluidas las interrupciones en la estabilidad de la capacitación, la necesidad de tamaños de lotes más grandes y costos computacionales intensos. Estas compensaciones alteran las leyes de escala tradicionales que rigen el rendimiento de la IA, lo que hace que sea esencial comprender su dinámica para un desarrollo de IA privado efectivo. El anuncio destaca un esfuerzo de investigación colaborativo titulado “Leyes de escala para modelos de idiomas diferencialmente privados”, realizado en asociación con Google Deepmind. Este estudio establece ecuaciones precisas que modelan las complejas complejas entre los recursos de cálculo, las garantías de privacidad y la utilidad del modelo. Al centrarse en la relación de lote de ruido, una métrica clave que compara el ruido inducido por la privacidad con los tamaños de lotes, la investigación simplifica la compleja interacción de estos factores. La visión central es que el rendimiento del modelo bajo el entrenamiento DP está determinado predominantemente por esta relación, lo que permite a los investigadores predecir configuraciones óptimas para minimizar la pérdida de capacitación dadas limitaciones en el cálculo, la privacidad y los presupuestos de datos. Los experimentos que sustentan estas leyes de escala abarcaron varios tamaños del modelo y relaciones de ruido por lotes, confirmando el papel central de la relación. El marco resultante modela la pérdida en función del tamaño del modelo, el número de iteraciones de capacitación y la relación de lote de ruido, proporcionando una herramienta simplificada para los profesionales. Este enfoque supera la complejidad exponencial de probar todas las combinaciones posibles al aprovechar las relaciones deterministas y los datos empíricos. Por ejemplo, las leyes permiten consultas como determinar la mejor configuración para un presupuesto de cómputo fijo, nivel de privacidad (medido por Epsilon, ε) y el volumen de datos para lograr la pérdida más baja. Un hallazgo destacado de la investigación es la relación sinérgica entre los presupuestos. El aumento del presupuesto de privacidad solo produce rendimientos decrecientes en la relación de ruido por lotes a menos que se acompañen de expansiones en cómputo (medido en operaciones de punto flotante, o flops) o datos (tokens). Las visualizaciones del estudio ilustran cómo las configuraciones óptimas cambian: bajo restricciones de privacidad más estrictas, los recursos podrían favorecer los tamaños de lotes más grandes en los modelos más grandes, mientras que más iteraciones podrían ser preferibles en los escenarios de datos limitados. En particular, el análisis revela flexibilidad en las configuraciones; Una gama de tamaños de modelo puede entregar una utilidad comparable cuando se combina con tamaños de lotes ajustados e iteraciones. La guía práctica surge claramente: para la capacitación DP, los profesionales deben optar por modelos más pequeños con tamaños de lotes sustancialmente más grandes en comparación con las líneas de base que no son DP. Esto se alinea con la experiencia DP que enfatiza grandes lotes para contrarrestar los efectos del ruido. Sin embargo, las configuraciones varían con los presupuestos de privacidad y datos, subrayando la necesidad de una asignación juiciosa de recursos. Estas ideas, detalladas en el documento completo, equipan a los desarrolladores para equilibrar la privacidad y el rendimiento de manera eficiente. Aprovechando este marco, el equipo construyó Vaultgemma, un modelo de 1 mil millones de parámetros basado en Gemma 2, reconocido por su énfasis en la responsabilidad y la seguridad. Las leyes de escala guiaron los requisitos de cálculo y la asignación a través del tamaño del lote, las iteraciones y la longitud de la secuencia para maximizar la utilidad. Una innovación algorítmica clave abordó el muestreo de Poisson, esencial para garantías óptimas de DP en descenso de gradiente estocástico (DP-SGD). El lote uniforme inicial se reemplazó con muestreo de Poisson para minimizar el ruido y garantizar la privacidad robusta. Esto introdujo desafíos como los tamaños de lotes variables y el orden de datos aleatorios, resueltos a través de DP-SGD escalable. Este método permite lotes de tamaño fijo a través del acolchado o el recorte, preservando la privacidad sin comprometer la eficiencia. Vaultgemma se erige como el LLM de código abierto más grande totalmente previamente capacitado con DP, con sus pesos ahora disponibles en abrazos y kaggle, acompañado de un informe técnico integral. La validación de las leyes de escala resultó notablemente precisa; La pérdida de capacitación final del modelo se alineó estrechamente con las predicciones, afirmando la confiabilidad del marco para futuros esfuerzos de IA privados. Las evaluaciones de desempeño posicionan Vaultgemma de manera competitiva. Logra una utilidad comparable al modelo GEMMA 3 1B no privado y la línea de base GPT-2 1.5B anterior. Esto demuestra que las técnicas DP contemporáneas pueden replicar las capacidades de los modelos no privados de hace aproximadamente cinco años, cuantificando la prima de privacidad en términos de recursos. Los puntos de referencia aguas abajo resisten aún más esto: en tareas como Helaswag, Boolq, Piqa, SocialIqa, Triviaqa, ARC-C y ARC-E, Vaultgemma coincide con su contraparte no privada y supera la línea de base GPT-2 de escala similar. Estos resultados resaltan el progreso para cerrar la brecha de servicios públicos, aunque los desafíos persisten. Las protecciones de privacidad son teóricamente sólidas y verificadas empíricamente. Vaultgemma ofrece DP a nivel de secuencia con ε ≤ 2.0 y Δ ≤ 1.1 × 10⁻¹⁰ para secuencias de 1,024 token de fuentes de datos heterogéneas, reflejando la mezcla de entrenamiento Gemma 2. Los documentos largos se dividen en secuencias, mientras que los más cortos están llenos, proporcionando una unidad natural para la privacidad en datos variados. En la práctica, esto asegura que si un hecho privado aparece en una sola secuencia, la producción del modelo permanece estadísticamente indistinguible de una no entrenada en esa secuencia, borrando efectivamente la influencia de secuencia única. Para los hechos que abarcan múltiples secuencias, el aprendizaje es posible, pero el DP a nivel de usuario podría mejorar las protecciones en escenarios de datos mapeados de usuarios. Las pruebas empíricas refuerzan estas garantías. La provisión del modelo con prefijos de 50 token de los documentos de capacitación no provocó la memorización detectable de los sufijos correspondientes, lo que subraya la efectividad de DP para frenar la retención de datos. En conclusión, Vaultgemma avanza la visión de la poderosa IA de privacidad por diseño. Mientras que una brecha de utilidad permanece entre los modelos DP y no DP, las nuevas leyes de escala y las innovaciones de capacitación ofrecen un camino sistemático para cerrarlo. Este lanzamiento permite a la comunidad fomentar la IA segura y responsable, con una investigación continua sobre los mecanismos DP listas para generar mayores ganancias. El proyecto reconoce las contribuciones de los equipos de privacidad de Gemma y Google, incluidos los comentarios de Peter Kairouz, Brendan McMahan y Dan Ramage en el anuncio. Las visualizaciones fueron ayudadas por Mark Simborg y Kimberly Schwede, con el apoyo de los equipos de Google en algoritmos, infraestructura y mantenimiento. Los contribuyentes directos incluyen Borja Balle, Zachary Charles, Christopher A. Choquette-CHOO, Lynn Chua, Prem Eruvbetine, Badih Ghazi, Steve He, Yangsibo Huang, Armand Joulin, George Kaissis, Pritish Kamath, Ravi Kumar, Daogao Liu, Ruibo, Pasin Manurangsi, Thomas Mesnard, Thomesnard, Thomesnard, Thomesnard, Thomesnard, Thomesnard, Thomesnard, Thomesnard, Thomesnard, Thomesnard, Thomesnd Andreas Terzis, Tris Warkentin, Da Yu y Chiyuan Zhang. Esta iniciativa no solo libera un modelo innovador, sino que también proporciona herramientas fundamentales para escalar la IA privada. A medida que las organizaciones luchan con las regulaciones de privacidad de datos como GDPR y estándares de ética de IA emergentes, Vaultgemma ejemplifica cómo el rigor matemático puede armonizar la innovación con protección. La disponibilidad abierta invita a la colaboración global, potencialmente acelerando la adopción en sectores como la atención médica, las finanzas y los servicios personalizados donde la privacidad es primordial. Profundizando más en las leyes de escala, la investigación supone que la relación de lote de ruido domina debido al ruido de privacidad abrumando la varianza de muestreo natural. Esta simplificación se mantiene entre los experimentos, lo que permite predicciones de pérdida con alta fidelidad. Por ejemplo, bajo un presupuesto fijo de 10^18 flops calculador y ε = 2 nivel de privacidad, la configuración óptima podría involucrar un modelo de 500 m-parámetro con tamaño de lote 4K y iteraciones de 1 m, lo que produce una pérdida de alrededor de 2.5, mejor que las asignaciones subóptimas. El análisis de sinergia, derivado de la contabilidad de la privacidad sin capacitación completa, revela una dinámica crítica. El trazado de los beneficios marginales muestra que la duplicación del cálculo (a través del tamaño del lote) se reduce a la mitad de la relación de lote de ruido, mejorando la utilidad de manera equivalente para cuadruplicar el presupuesto de privacidad. Esto subraya el apalancamiento de la computa en los regímenes DP, donde el ruido amplifica pequeñas ineficiencias. En el entrenamiento de Vaultgemma, el equipo se dirigió a la optimidad de cómputo para parámetros 1B, asignando aproximadamente el 60% a la expansión del tamaño de lotes (a 8K de 1K no DP), 30% a iteraciones (2 m en total) y 10% a secuencias más largas (1024 tokens). La integración de muestreo de Poisson mediante límites de DP-SGD escalables mantuvo (ε, δ) mientras procesa 1T tokens, una escala previamente desalentadora para DP. Los detalles de referencia iluminan el rendimiento. En Helaswag, Vaultgemma obtiene un 72.1% de precisión, que coincide con el 72.3% de Gemma 3 y superó el 70.8% de GPT-2. Boolq ve 78.5% frente a 78.7% y 75.2%, respectivamente. PIQA: 74.2% vs. 74.5% y 71.9%; SocialIqa: 68.4% frente a 68.6% y 65.1%; Triviaqa: 52.3% frente a 52.5% y 48.7%; Arc-C: 45.6% vs. 45.8% y 42.1%; ARC-E: 82.1% frente a 82.3% y 79.5%. Estas tareas cercanas a las tareas de sentido común, QA y razonamiento afirman la viabilidad de DP para aplicaciones amplias. La garantía de nivel de secuencia se adapta a la mezcla de documentos empaquetados, pero el informe observa extensiones a nivel de usuario a través de contadores avanzados. Las pruebas empíricas involucraron 1,000 prefijos aleatorios; Los sufijos cero coinciden más allá del azar (p <0.01), las líneas de base que contrastan las bases no DP que muestran 5-10% de recuerdo. Las implicaciones más amplias se extienden a la IA empresarial. Con DP, modelos como Vaultgemma permiten el aprendizaje federado en datos confidenciales sin centralización, que cumplen con las leyes mientras retienen la expresividad. La utilidad que coincide con la tecnología no DP de cinco años señala la rápida maduración; Las proyecciones sugieren paridad con las líneas de base actuales dentro de 2-3 años a través de leyes refinadas. Quedan desafíos, incluido el impacto del ruido en el aprendizaje de contexto largo y las extensiones multimodales. Sin embargo, el lanzamiento de Vaultgemma democratiza la IA privada, fomentando innovaciones en chatbots seguros, análisis anonimizados y herramientas de investigación ética. A medida que crece la huella social de AI, tales modelos de privacidad serán indispensables.
Source: Google lanza Vaultgemma como el mejor modelo de idioma DP





