Apple ha logrado un avance significativo en el campo de la inteligencia artificial con la introducción de Apple MGIE, un revolucionario modelo de inteligencia artificial de código abierto que permite a los usuarios editar imágenes mediante instrucciones en lenguaje natural. MGIE, abreviatura de edición de imágenes guiada por MLLM, aprovecha el poder de los modelos de lenguaje grande multimodal (MLLM) para interpretar comandos del usuario y realizar manipulaciones a nivel de píxeles con una precisión notable.
El modelo cuenta con una amplia gama de capacidades de edición, incluida la modificación al estilo de Photoshop, la optimización global de fotografías y la edición local. Esto significa que los usuarios pueden mejorar fácilmente sus imágenes con un simple comando de texto, lo que les permite crear ediciones de calidad profesional sin la necesidad de tener amplios conocimientos de edición de fotografías.
El desarrollo de MGIE es el resultado de una colaboración innovadora entre Apple y un equipo de investigadores de la Universidad de California, Santa Bárbara. El modelo se presentó en un trabajo de investigación aceptado en la prestigiosa Conferencia Internacional sobre Representaciones del Aprendizaje (ICLR) 2024, una plataforma líder para la investigación de la IA. El documento muestra la impresionante eficacia de MGIE para mejorar las métricas automáticas y la evaluación humana, manteniendo al mismo tiempo la eficiencia de la inferencia competitiva.
¿Qué es Apple MGIE?
Apple MGIE es un revolucionario sistema de edición de imágenes que utiliza el aprendizaje automático para permitir a los usuarios editar imágenes mediante instrucciones en lenguaje natural. Esta innovadora tecnología permite a los usuarios describir simplemente los cambios deseados en la imagen, y MGIE aplicará automáticamente las modificaciones, eliminando la necesidad de menús o herramientas de edición complejas.
Al igual que otras herramientas de imágenes de IA de vanguardia, como Midjourney, StableDiffusion y DALL-E, Apple MGIE cierra la brecha entre la intención humana y la manipulación de imágenes. Al aprovechar el poder del aprendizaje multimodal, MGIE puede comprender tanto información visual (la imagen misma) como información textual (instrucciones de usuario), lo que le permite realizar manipulaciones a nivel de píxeles con una precisión notable.
Apple MGIE cambia las reglas del juego en la edición de imágenes, ya que proporciona una forma eficiente y fácil de usar para mejorar y manipular imágenes. Si eres fotógrafo profesional, diseñador gráfico o influencer en las redes sociales, MGIE puede ayudarte a crear imágenes impresionantes que dejarán una impresión duradera en tu audiencia.
¿Cómo funciona Apple MGIE?
Apple MGIE utiliza procesamiento de lenguaje natural y aprendizaje automático para permitir a los usuarios editar imágenes mediante comandos simples y descriptivos. El sistema funciona entendiendo la intención del usuario y luego manipulando la imagen para reflejar con precisión los cambios deseados.
Aquí hay un desglose del flujo de trabajo de MGIE:
- Ingresando comandos: El usuario describe las ediciones deseadas en inglés sencillo, como “Hacer que el cielo en esta imagen sea más azul” o “Eliminar el auto rojo de esta foto”.
- Comprender la intención: El modelo de lenguaje avanzado de MGIE descifra las instrucciones del usuario, identificando los objetos, atributos y modificaciones específicos deseados.
- Comprensión visual: Simultáneamente, MGIE analiza la imagen, identificando elementos clave y sus relaciones.
- Edición guiada: Combinando comprensión lingüística y visual, MGIE manipula inteligentemente la imagen para reflejar con precisión las órdenes del usuario. No sigue instrucciones ciegamente, pero puede interpretar el contexto y realizar ajustes sensatos.
El concepto central detrás de MGIE es cerrar la brecha entre la intención humana y la manipulación de imágenes, haciendo que la edición de imágenes sea más accesible y eficiente para todos. Con MGIE, los usuarios pueden mejorar y manipular imágenes fácilmente utilizando comandos de lenguaje simples y naturales, abriendo nuevas posibilidades para la expresión y comunicación creativa.
Cómo utilizar Apple MGIE
Para utilizar MGIE, los usuarios pueden acceder al proyecto de código abierto en GitHub, que proporciona acceso completo a su código fuente, datos de entrenamiento y modelos previamente entrenados. Esto permite a los desarrolladores e investigadores comprender su funcionamiento interno y potencialmente contribuir con mejoras. Además, hay disponible un cuaderno de demostración en GitHub, que guía a los usuarios a través de diversas tareas de edición mediante instrucciones en lenguaje natural. Esto sirve como una introducción práctica a las capacidades de MGIE.
Para probar MGIE de forma rápida y cómoda, los usuarios también pueden experimentar con el sistema a través de una demostración web alojada en Hugging Face Spaces. Esta plataforma en línea permite a los usuarios experimentar el sistema sin necesidad de una configuración local.
MGIE agradece los comentarios de los usuarios y permite refinar las ediciones o solicitar diferentes modificaciones. Este enfoque iterativo garantiza que las ediciones generadas se alineen con la visión artística del usuario.
Si bien MGIE aún está en desarrollo, el código abierto del proyecto lo hace accesible a una amplia gama de usuarios y contribuyentes. La investigación en curso y las contribuciones de los usuarios darán forma a sus capacidades futuras y aplicaciones potenciales, convirtiéndola en una tecnología apasionante y en rápida evolución en el campo de la edición de imágenes.
Crédito de imagen destacada: pvproducciones/Freepik.
Source: Apple MGIE marca la entrada silenciosa del gigante tecnológico al sector de la IA