Microsoft ha anunciado MAI-Image-1, su primer modelo de generación de imágenes desarrollado íntegramente internamente. La compañía afirmó que el modelo estará disponible en Copilot y Bing Image Creator “muy pronto” y actualmente está disponible para pruebas en LMArena, una plataforma donde los usuarios evalúan dos chatbots anónimos y votan por la mejor respuesta. En la clasificación de texto a imagen de LMArena, MAI-Image-1 ocupó el noveno lugar, logrando una puntuación de 1.096 puntos. A modo de comparación, Gemini-2.5-Flash de Google, también conocido como Nano-Banana, obtuvo 1.154 puntos y ocupa el segundo puesto, mientras que el modelo de OpenAI obtuvo 1.123 puntos para ocupar el séptimo puesto. La clasificación está liderada por Hunyuan-image-3.0, un modelo desarrollado por la empresa tecnológica china Hunyuan. Microsoft declaró que su equipo de desarrollo se centró en evitar resultados repetitivos o genéricamente estilizados con MAI-Image-1. “Por ejemplo, priorizamos una selección de datos rigurosa y una evaluación matizada centrada en tareas que reflejan fielmente los casos de uso creativo del mundo real”, explicó la compañía, y agregó que incorporó comentarios de profesionales de las industrias creativas. Se informa que el modelo sobresale en la generación de paisajes e imágenes fotorrealistas. Su rendimiento se destaca por capturar con precisión detalles como iluminación, sombras y reflejos, particularmente en comparación con “muchos modelos más grandes y más lentos”. Además de MAI-Image-1, Microsoft ha desarrollado otros modelos internos, incluido MAI-Voice-1 para la generación de voz natural y la serie Phi de pequeños modelos de lenguaje diseñados para tareas de razonamiento eficiente. Este desarrollo interno se produce junto con el continuo apoyo financiero y de infraestructura de la empresa para OpenAI. El campo de la generación de imágenes mediante IA está experimentando actualmente un período de gran actividad. El modelo de OpenAI recientemente ganó atención viral por su capacidad para imitar el estilo artístico de Studio Ghibli, mientras que “Nano-Banana” de Google fue reconocido por sus capacidades de edición avanzada. Utilizando LMArena, AIM realizó una comparación entre MAI-Image-1 de Microsoft, Gemini-2.5-Flash de Google y GPT-image-1 de OpenAI. Los modelos se probaron con un mensaje que representaba a dos personas en un café junto a una ventana a última hora de la tarde. La evaluación se centró en cómo cada modelo manejaba la iluminación mixta, los reflejos y el realismo de las sombras. Los usuarios pueden visitar LMArena para probar estos modelos con indicaciones similares.





