A medida que las tecnologías de inteligencia artificial evolucionan rápidamente y traspasan los límites, el nuevo proyecto de Microsoft, VASA-1, puede convertir fotos en videos y agregarles sonidos realistas. Sí, oíste bien.
Esta apasionante tecnología utiliza una fotografía de retrato y un archivo de audio para crear un vídeo de caras parlantes con sincronización de labios, expresiones faciales y movimientos de cabeza realistas.
La potencia prometida de VASA-1 genera algunas preocupaciones que han hecho que Microsoft dude en lanzarlo. Esto es lo que sabemos…
Capacidades e impacto de VASA-1
La característica más sorprendente de VASA-1 es su capacidad para producir animaciones faciales realistas. A diferencia de los modelos de IA anteriores, VASA-1 ofrece una apariencia más natural al minimizar los errores alrededor de la boca. Esto podría llevar a que los videos deepfake más realistas se difundan más ampliamente en línea.
Con la nueva tecnología de Microsoft, es posible obtener resultados realistas y de alta calidad. Los vídeos de demostración de la empresa proporcionan ejemplos impresionantes que desdibujan la línea entre la realidad y el contenido generado por IA.
Será interesante ver qué nos deparan Sora de OpenAI y VASA-1 de Microsoft en los próximos años…
Nota: todas las imágenes de retratos en esta página son identidades virtuales inexistentes generadas por StyleGAN2 o DALL·E-3 (excepto Mona Lisa). Estamos explorando la generación de habilidades visuales y emocionales para personajes virtuales e interactivos que NO imitan a ninguna persona del mundo real. Esto es solo una demostración de investigación y no hay planes de lanzar ningún producto o API.
Áreas de uso de VASA-1
Los usos de VASA-1 son amplios y pueden traspasar los límites de la creatividad. Por ejemplo, se puede utilizar para ofrecer experiencias de juego mejoradas. Hacer que los personajes del juego sean más realistas con movimientos labiales sincronizados y expresiones faciales expresivas podría transformar el mundo de los videojuegos. Incluso ahora, los personajes de los juegos están increíblemente optimizados. Sin embargo, con esta tecnología es probable que mejoren aún más.
Por otro lado, también se podrían crear avatares virtuales personalizados. Los usuarios podrían marcar la diferencia en las redes sociales creando avatares realistas que reflejen su propia apariencia. La industria cinematográfica también podría ver cambios sorprendentes. VASA-1 podría traspasar los límites del cine al crear primeros planos realistas, expresiones faciales y secuencias de diálogo naturales.
Cómo funciona la tecnología y el futuro
Microsoft dice que VASA-1 ofrece un nuevo marco para crear caras parlantes realistas y animar personajes virtuales. La tecnología tiene como objetivo lograr resultados impresionantes utilizando sólo una fotografía de retrato y un archivo de audio. Sin embargo, el uso generalizado de esta tecnología genera algunas preocupaciones. En particular, la posibilidad de hacer un mal uso de tecnologías como el deepfake obliga a Microsoft a ser cauteloso.
Uno de los desafíos que enfrenta Microsoft es equilibrar la innovación con la responsabilidad. Al reconocer los beneficios potenciales que aporta la tecnología, la empresa adopta un enfoque responsable hacia el desarrollo e intenta informar a los usuarios sobre los peligros potenciales. De esta manera, pretende mantener bajo control la difusión de una tecnología potente como VASA-1, garantizando la seguridad general de la sociedad.
Crédito de la imagen destacada: Microsoft
Source: VASA-1 de Microsoft da vida a las fotos: todo lo que necesitas saber