La IA de Google DreamBooth está aquí. Las tecnologías recientemente lanzadas como DALL-E 2 de OpenAI o Stable Diffusion y Midjourney de StabilityAI ya están conquistando Internet. Ahora es el momento de personalizar los resultados. Sin embargo, ¿cómo? La Universidad de Boston y Google proporcionaron las respuestas y se las detallamos.
DreamBooth tiene la capacidad de reconocer el tema de una imagen, deconstruirlo a partir de su contexto original y luego sintetizarlo con precisión en un nuevo contexto deseado. Además, se puede usar con los generadores de imágenes AI actuales. Obtenga más información sobre la imaginación impulsada por IA al seguir leyendo.

Explicación de la IA de Google DreamBooth
Google presentó DreamBooth, un nuevo modelo de difusión de texto a imagen. Google DreamBooth AI puede crear una amplia variedad de imágenes del tema elegido por el usuario en varias condiciones utilizando un mensaje de texto como instrucción.
DreamBooth, un método revolucionario para modificar modelos de texto a imagen altamente entrenados previamente, fue creado por un equipo de investigación de la Universidad de Boston y Google. En general, la idea es bastante simple: quieren expandir el diccionario de visión de lenguaje de modo que las identificaciones de token raras estén conectadas a un tema específico que el usuario quiere crear.
Características clave de Google DreamBooth AI:
- Con 3-5 fotografías, DreamBooth AI puede mejorar un modelo de texto a imagen.
- Con DreamBooth AI, se pueden producir imágenes fotorrealistas completamente originales del sujeto.
- Además, DreamBooth AI es capaz de producir imágenes de un sujeto desde varias perspectivas.
El objetivo principal del modelo es proporcionar a los usuarios las herramientas necesarias para crear representaciones fotorrealistas de las instancias de su tema elegido y conectarlas al modelo de difusión de texto a imagen. Como resultado, este método parece ser efectivo para resumir problemas en una variedad de circunstancias.
DreamBooth de Google adopta un enfoque algo diferente de otras herramientas de texto a imagen lanzadas recientemente como DALL-E 2, Stable Diffusion y Midjourney al permitir a los usuarios un mayor control sobre la imagen del tema y luego controlar el modelo de difusión utilizando entradas basadas en texto.
DreamBooth también puede mostrar el tema desde varios ángulos de cámara con solo unas pocas fotos de entrada. La inteligencia artificial (IA) puede prever las cualidades del sujeto y sintetizarlas en la navegación guiada por texto, incluso si las fotos de entrada no brindan datos sobre el tema desde diferentes puntos de vista.
Este modelo también puede sintetizar las fotografías para crear otros estados de ánimo, accesorios o cambios de color con el uso de claves del lenguaje. Con estas funciones, DreamBooth Google AI ofrece a los usuarios aún más personalización y libertad creativa.

El artículo de DreamBooth “DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation” afirma que proporcionan un tema y un enfoque novedosos:
- La generación impulsada por el sujeto es un tema nuevo.
Dadas unas pocas imágenes tomadas apresuradamente del sujeto, el objetivo es crear nuevas representaciones del sujeto en varios escenarios mientras se preserva la alta fidelidad a sus características visuales centrales.
Aplicaciones de Google Cabina de ensueño IA
Las principales aplicaciones de IA de Google DreamBooth son las siguientes:
- recontextualización
- representaciones de arte
- Manipulación de expresiones
- Síntesis de vista novedosa
- Accesorios
- Modificación de propiedad
¿Estás preparado para separarte de PhotoShop? Examinémoslos más de cerca usando las imágenes instructivas creadas por Nataniel Ruiz y el equipo de DreamBooth.
recontextualización
Al alimentar una frase que incluye el identificador único y el nombre de la clase al modelo entrenado, DreamBooth AI puede crear imágenes únicas para una determinada instancia de sujeto. En lugar de modificar el fondo, DreamBooth AI puede producir el sujeto en posturas, articulaciones y estructuras de escena innovadoras e inéditas. sombras y reflejos realistas, así como la interacción del sujeto con los objetos adyacentes. Esto demuestra que su estrategia ofrece más que simplemente extrapolar o recuperar información pertinente.

representaciones de arte
Si se da la opción de elegir entre “una estatua de un [V] [class noun] en el estilo de [great sculptor]” y “una pintura de un [V] [class noun] en el estilo de [famous painter],” ¿Cuál escogerías? Con DreamBooth AI, se pueden crear representaciones creativas originales.

En particular, esta tarea es diferente de la transferencia de estilo, que conserva la semántica de la escena de origen mientras aplica el estilo de otra imagen a la escena original. Por el contrario, según el estilo creativo, la IA puede lograr grandes cambios de escena con detalles de instancias de sujetos y preservación de la identidad.
Manipulación de expresiones
Con la ayuda del método de Google DreamBooth AI, se pueden producir nuevas imágenes del sujeto con diferentes expresiones faciales de las del conjunto original de imágenes.

Síntesis de vista novedosa
Google DreamBooth AI puede representar el tema desde una serie de perspectivas únicas. Por ejemplo, DreamBooth AI puede producir imágenes frescas del mismo gato utilizando varios ángulos de cámara, repletas de patrones de pelaje detallados y confiables.
A pesar de que el modelo solo tiene cuatro fotografías frontales del gato, DreamBooth AI puede inferir información de la clase antes de crear estos puntos de vista creativos, aunque nunca ha visto a este mismo gato de lado, desde abajo o desde arriba.

Accesorios
El aspecto intrigante de la capacidad de DreamBooth AI para embellecer objetos proviene de la fuerte composición anterior del modelo de generación. A modo de ilustración, se le pide al modelo una oración de la forma “a [V] [class noun] usando [accessory]”. Esto nos permite colocar varios objetos en el perro de una manera atractiva.

Modificación de propiedad
DreamBooth AI es capaz de cambiar las propiedades de la instancia del sujeto. Se podría usar un adjetivo de color en la oración de ejemplo “a [color adjective] [V] [class noun]”. Esto podría resultar en instancias frescas y vívidas del tema. Hay algunos requisitos, pero estas características también explican cómo utilizar DreamBooth AI.

¿Usas la IA de Google DreamBooth?
La técnica DreamBooth AI toma como entrada una pequeña cantidad de fotografías (por lo general, de 3 a 5 imágenes son adecuadas) de un sujeto (por ejemplo, un perro en particular) y el nombre de clase asociado con él (por ejemplo, “perro”). Luego produce un modelo de texto a imagen que ha sido modificado y “personalizado” y codifica una identidad única para el tema. Para sintetizar los temas en diversos contextos, DreamBooth AI puede luego insertar la identificación distintiva en la inferencia en varias frases. Con tres a cinco imágenes del sujeto, puede ajustar la difusión de texto a imagen en dos pasos:
- Un mensaje de texto con un código particular y el nombre de la clase a la que pertenece el sujeto (por ejemplo, “una imagen de un [T] canine”) se utilizará para mejorar el modelo de texto a imagen de baja resolución. Además, usan una pérdida de preservación previa específica de la clase, que aprovecha la semántica anterior del modelo en la clase y lo alienta a generar una variedad de ejemplos que son miembros de la clase del sujeto al colocar el nombre de la clase en el indicador de texto (por ejemplo , “una imagen de un perro”).
- Logramos una gran fidelidad ajustando los componentes de súper resolución utilizando pares de fotografías de baja y alta resolución de nuestro conjunto de imágenes de entrada.
El primer Dreambooth se hizo utilizando el paradigma de texto a imagen de Imagen. El modelo y pesos de Imagen, sin embargo, no están disponibles. Sin embargo, usando algunos ejemplos, Dreambooth en Stable Diffusion permite a los usuarios ajustar un modelo de texto a imagen.
¿Cómo usar Google Dreambooth AI en Stable Diffusion?
Para utilizar DreamBooth AI en Stable Diffusion, siga los siguientes pasos:
- Siga las instrucciones de configuración en el repositorio de Textual Inversion o el repositorio Stable Diffusion original para configurar su entorno LDM.
- Para ajustar un modelo de difusión estable, debe recibir los modelos de difusión estable previamente capacitados y seguir sus instrucciones. Puede descargar pesos de HuggingFace.
- Prepare una serie de imágenes para la regularización según lo requiera el método de ajuste fino de Dreambooth.
- Puedes practicar usando el siguiente comando:
1 2 3 4 5 6 7 8 | python main.py --base configs/stable-diffusion/v1-finetune_unfrozen.yaml -t --actual_resume /path/to/original/stable-diffusion/sd-v1-4-full-ema.ckpt -n <job name> --gpus 0, --data_root /root/to/training/images --reg_data_root /root/to/regularization/images --class_word <xxx> |
Generación
Después del entrenamiento, el comando se puede usar para obtener ejemplos personalizados.
1 2 3 4 5 6 7 | python scripts/stable_txt2img.py --ddim_eta 0.0 --n_samples 8 --n_iter 1 --scale 10.0 --ddim_steps 100 --ckpt /path/to/saved/checkpoint/from/training --prompt "photo of a sks <class>" |
En particular, class> es la palabra de clase, palabra de clase para entrenamiento, y sks es el identificador (que, si desea modificarlo, debe reemplazarse por su elección). Para obtener más información, visite la página de GitHub de DreamBooth Stable Diffusion.
Limitaciones de la IA Dreambooth
Las limitaciones de DreamBooth AI son las siguientes:
- Deriva del lenguaje
- sobreajuste
- Pérdida de conservación
Vamos a examinarlos más de cerca.
Deriva del lenguaje
El símbolo del sistema dificulta la producción de iteraciones en el tema con un alto grado de detalle. DreamBooth puede cambiar el contexto del tema, sin embargo, hay problemas con el marco si el modelo desea cambiar el tema real.
sobreajuste
Otro problema es cuando la imagen de salida se sobreajusta a la imagen original. Es posible que el tema no se evalúe o se combine con el contexto de las imágenes cargadas si no hay suficientes fotos de entrada. Esto también ocurre cuando se pregunta un contexto para una generación impar.
Pérdida de conservación
La incapacidad de sintetizar imágenes de temas más raros o más complejos, así como la fidelidad variable del tema, lo que puede resultar en cambios alucinógenos y cualidades discontinuas, son limitaciones adicionales. El contexto de entrada se incluye con frecuencia en el tema de las imágenes de entrada.

Impacto social de la IA
El objetivo del proyecto DreamBooth es proporcionar a los usuarios una herramienta práctica para sintetizar temas personales (animales, objetos) en una variedad de escenarios. Si bien los algoritmos estándar de texto a imagen pueden estar sesgados hacia aspectos específicos al sintetizar imágenes a partir de palabras, ayuda al usuario a recrear mejor los temas elegidos. Sin embargo, las partes malintencionadas pueden intentar engañar a los usuarios empleando imágenes similares. Varios métodos de modelos generativos o técnicas de modificación de contenido exhiben este problema generalizado.
Conclusión
La mayoría de los modelos de texto a imagen necesitan millones de parámetros y bibliotecas para crear resultados a partir de una única entrada de texto. DreamBooth hace que sea más fácil para los usuarios obtener contenido y usarlo simplemente necesitando la entrada de tres a cinco imágenes temáticas junto con un fondo escrito.
Por lo tanto, las cualidades distintivas del tema pueden conservarse mientras el modelo entrenado reutiliza los aspectos materialistas del tema aprendido de las imágenes para reproducirlos en otros escenarios y puntos de vista. La mayoría de los algoritmos de conversión de texto a imagen se basan en ciertas palabras clave y pueden priorizar atributos específicos al mostrar imágenes. Los usuarios de DreamBooth pueden producir resultados fotorrealistas al ver a la persona elegida en un entorno o escenario único. Entonces, deja de esperar ahora. ¡Pruebalo ahora!
Esperamos que haya disfrutado este artículo sobre cómo usar Google Dreambooth AI en Stable Diffusion. Si lo hizo, estamos seguros de que también disfrutará leyendo algunos de nuestros otros artículos, como DALL-E 2 ha introducido outpainting: AI imagina más allá de las fronteras, o Stable Diffusion AI art generator: Indicaciones, ejemplos y cómo ejecutar.
Source: DreamBooth AI de Google está aquí y va por el trono de las ilustraciones de AI


