El CEO de Google Deepmind, Demis Hassabis, ha revelado planes para integrar sus modelos de IA Gemini con modelos de IA generadores de video VEO para mejorar la comprensión de Gemini del mundo físico, como se revela en una entrevista reciente de podcast.
Según Hassabis, Gemini fue diseñado para ser multimodal desde su inicio, con el objetivo de crear un “asistente digital universal” capaz de ayudar a los usuarios en escenarios del mundo real. “Siempre hemos construido Géminis, nuestro modelo de base, para ser multimodales desde el principio”, explicó Hassabis, “y la razón por la que hicimos eso [is because] Tenemos una visión de esta idea de un asistente digital universal, un asistente que […] en realidad te ayuda en el mundo real “.
La industria de la IA está presenciando un cambio hacia los modelos “Omni” que pueden procesar y generar múltiples formas de medios, como audio, imágenes y texto. Los últimos modelos de Géminis de Google pueden producir audio, imágenes y texto, mientras que ChatGPT de OpenAI puede crear imágenes, incluido el arte de estilo Studio Ghibli. Amazon también ha anunciado planes para lanzar un modelo de “cualquier otro” a finales de este año, ilustrando aún más esta tendencia.
Estos modelos OMNI requieren grandes cantidades de datos de capacitación, incluidas imágenes, videos, audio y texto. Hassabis indicó que los datos de video de VEO provienen principalmente de YouTube, una plataforma propiedad de Google. “Básicamente, viendo videos de YouTube, muchos videos de YouTube – [Veo 2] Puede averiguar, ya sabes, la física del mundo “, dijo Hassabis. Google había informado previamente a TechCrunch que sus modelos” pueden ser “capacitados en” algunos “contenido de YouTube de acuerdo con su acuerdo con los creadores de YouTube.
Vale la pena señalar que Google amplió sus términos de servicio el año pasado, en parte para acceder a más datos, incluido el contenido de YouTube, para capacitar a sus modelos de IA. Este movimiento se ve como un esfuerzo estratégico para reforzar sus capacidades de IA al aprovechar su vasto depósito de datos en línea.
La publicación de Google para combinar los modelos Gemini y VEO AI apareció primero en TechBriefly.





