Stable Diffusion, la inteligencia artificial para la generación de imágenes

¿Querés probar las capacidades de una inteligencia artificial para la generación de imágenes? Hay varias opciones hoy en día y los resultados son sorprendentes y con un amplio futuro.

La generación de imágenes mediante el uso de inteligencia artificial es una tecnología emergente que está revolucionando la forma en que se crean y manipulan imágenes. Gracias a esta tecnología, es posible generar imágenes a partir de texto o incluso a partir de otros tipos de datos, como sonidos o movimientos.

Una de las ventajas de la generación de imágenes mediante inteligencia artificial es la velocidad. Es posible generar miles o incluso millones de imágenes en un corto período de tiempo, lo que hace que esta tecnología sea ideal para aplicaciones que lo requieren como la publicidad o el cine.

Ninguna de estas personas existen, son algunas pruebas con Midjourney, otro sistema desarrollado para generar imágenes.

Diferentes Estilos

Otra ventaja es la capacidad de la IA para imitar estilos y técnicas de dibujo y pintura. Al entrenar a una red neuronal con miles de ejemplos de un estilo determinado, es posible que la red aprenda a crear imágenes que se asemejen a un estilo deseado. Esto puede ser útil para crear imágenes que se asemejen a obras de arte famosas o para crear imágenes que tengan un estilo específico.

Desde que OpenAI lanzó la primera versión de Dall-e (Dall-e es un acrónimo que fusiona Wall-e, la famosa película de Disney, y al pintor Salvador Dalí) a principios de 2021, y al no querer publicar el código de sus modelos, provocó que se desarrollen muchas alternativas de código abierto. Algunos de estos otros sistemas fueron desarrollados con perfiles más artísticos y hasta con mejores resultados en ese campo.

¿Cómo se generan imágenes de la nada?

El procedimiento es complejo pero podemos decir que todo parte de eliminar ruido de las fotos:
El intentar eliminar el ruido de las imágenes mediante el uso de inteligencia artificial ha demostrado tener resultados sorprendentes. Cuando una imagen tiene ruido, el objetivo será reemplazar esos píxeles «malos» por los otros de manera correcta y que completen la imagen. El problema es cómo determinar qué píxeles correctos se deben generar.

Una solución es entrenar a una inteligencia artificial para que, a partir de imágenes nítidas junto con una descripción de las mismas, le vaya agregando ruido paso a paso, hasta que la imagen sea completamente ruido. Luego deberá hacer el proceso inverso para obtener nuevamente la imagen inicial o lo más parecido posible. Al entrenarla con millones de interacciones se genera un modelo y los resultados pueden ser increíbles.

Una vez entrenada la IA, ¿Qué pasa si simplemente partimos de ruido y una descripción?

¿Qué es Stable Diffusion?

En el caso de Stable Diffusion, una vez entrenada la IA, partiremos de una «semilla» al azar de ruido y nuestro texto en inglés (Prompt). La IA hará el camino que la llevará del ruido, algo así como una idea difusa, a la imagen final basada en el texto. Paso a paso la imagen se irá generando a partir de quitar el ruido y generar el concepto. La imagen final se basará únicamente en los términos o conceptos aprendidos. Cada procesamiento para transformar el ruido en la imagen se denominan «pasos» cuantos más pasos se realicen, más detallado será el resultado final (pero también llega un punto en que es contraproducente).

Debemos tener en cuenta que al agrandar el tamaño de la imagen (512 pixels por defecto) al igual que la cantidad de pasos o cantidad de imágenes generadas influyen en el tiempo de procesamiento.

«Vista superior de una taza de café con un croissant, migajas, mesa de madera».

Stable Diffusion es un modelo de texto a imagen (txt2img) que construye gradualmente una imagen coherente a partir de un vector de ruido, modificándolo poco a poco en varios pasos. Este modelo se entrenó utilizando el conjunto de datos LAION Aesthetics, un subconjunto del conjunto de datos LAION 5B, que incluye 120 millones de pares imagen-texto. Este conjunto de datos está compuesto por imágenes de alta calidad seleccionadas manualmente, y se utiliza para entrenar y evaluar modelos de aprendizaje automático que buscan comprender la estética de las imágenes. El conjunto de datos incluye tanto imágenes profesionales como amateurs, y se organiza en categorías como paisajes, retratos, arquitectura, entre otras.

Según los informes, Stable Diffusion puede ejecutarse con menos de 10 GB de VRAM al momento de la inferencia, generando imágenes de 512×512 en solo unos segundos. Esto significa que es posible ejecutarlo en GPU de tipo «gamer».

Este sistema es ideal para el diseño de arte digital y dibujos muy creativos y abstractos. En general, es mucho más rápido y eficiente que DALL·E, el otro modelo de texto a imagen del que ya hablamos.

Imagen generada con Stable Diffusion basada en estilos de distintos dibujantes.

Pero además, Stable Diffusion es de código abierto, lo que significa que cualquier persona puede ver y modificar el código fuente del software. Esto es una gran ventaja para aquellos interesados en conocer más sobre cómo funciona el modelo y cómo se puede mejorar. Además, el software de código abierto suele ser de uso gratuito, por lo que puedes utilizar SD sin tener que pagar por ello.

Hagamos pruebas online

Si estás interesado en probar las capacidades de Stable Diffusion, puedes hacerlo a través de su página web oficial. El código del proyecto está disponible para cualquiera que desee utilizarlo, y también ofrecen una API para crear aplicaciones utilizando su motor de generación de imágenes. Para probar Stable Diffusion por ti mismo, sigue estos sencillos pasos:

  1. Visita Dream Studio.
  2. Haz clic en «Sign up» para crear una cuenta. También puedes iniciar sesión con una cuenta de Discord o Google.
  3. Verifica tu correo electrónico.
  4. Inicia sesión para acceder al editor.

Una vez que hayas iniciado sesión, podrás utilizar el generador de imágenes basado en Stable Diffusion. En la parte inferior de la pantalla, encontrarás un campo de texto que dice «I want to dream of». ¡Disfruta explorando las capacidades de esta interesante herramienta!

Cuando hayas escrito tu consulta en el campo de texto (Prompt), puedes modificar los siguientes parámetros para ajustar la imagen generada:

Width y Height: Estos valores determinan el ancho y alto de la imagen generada.
Cfg Scale: La escala de CFG ajusta el grado en el que la imagen se asemejará al texto introducido. Valores más altos acercarán más la imagen al texto.
Steps: Un mayor número de pasos para generar imágenes te permitirá obtener resultados más precisos.
Number of Images: Aquí puedes seleccionar cuántas imágenes deseas generar a partir de una sola consulta.

Ten en cuenta que dependiendo de los ajustes que elijas, cada imagen generada puede consumir más o menos créditos. Puedes ver el valor de créditos que se utilizará para cada imagen en la parte superior de la pantalla, en la zona de «credits/image».

Imágenes creadas con estilos bien marcados, basados en dibujantes. En este caso Ciberpunk.

Mejorando los Prompts

Los textos introducidos o «prompts» en Stable Diffusion pueden incluir una gran variedad de opciones. Si quieres conocer más sobre cómo utilizar esta herramienta, puedes acceder a la guía oficial haciendo clic en el botón «Prompt guide», que se encuentra en el menú lateral de Dream Studio.

Una de las cosas que puedes hacer con Stable Diffusion es generar imágenes simples, basta con escribir términos como «coche», «león» o «casa» para obtener fotografías únicas de los elementos descritos. También puedes añadir un estilo determinado a tus consultas, algunos de los estilos disponibles son «realista», «pintura al óleo», «dibujo a lápiz» o «arte conceptual». Por ejemplo, podrías escribir «una pintura al óleo de un león». La «magia» está en comunicar bien lo que se pretende de la imagen, una nueva rama de especialistas se asoma como «Prompt manager» o personas especializadas en dar los lineamientos exactos para lograr algo.

Además como vimos, Stable Diffusion también puede generar imágenes imitando el estilo de un artista en particular mediante «style» o «art by». Algunos de los artistas que reconoce esta herramienta son:

Pintura

  • Vincent Van Gogh
  • Pablo Picasso
  • Salvador Dalí
  • Claude Monet
  • Frida Kahlo
  • Gustav Klimt
  • John Singer Sargent
  • Rembrandt
  • Henri de Toulouse-Lautrec
  • Amedeo Modigliani

Retratos

  • John Singer Sargent
  • Edgar Degas
  • Paul Cézanne
  • Jan van Eyck

Dibujo

  • Albrecht Dürer
  • Leonardo da Vinci
  • Michelangelo
  • Jean-Auguste-Dominique Ingres

Paisajismo

  • Thomas Moran
  • Claude Monet
  • Alfred Bierstadt
  • Frederic Edwin Church

Podríamos probar algo así como «dachshund dog, style steampunk, detailed»

Perro salchicha estilo Steampunk

Ingeniería de prompts

La «ingeniería de prompts» es una técnica utilizada en el campo de la inteligencia artificial para generar contenido de manera automatizada. Los prompts son plantillas o ejemplos que se utilizan para guiar la generación de contenido, y pueden incluir imágenes, texto o cualquier otro tipo de dato. Public Prompts es un portal que ofrece una variedad de prompts que pueden ser utilizados para entrenar modelos de inteligencia artificial para la generación de contenido.

Una queja común con la generación de contenido mediante inteligencia artificial es la falta de precisión en los resultados. Esto puede deberse a la complejidad del contenido que se está tratando de generar, o a problemas con el prompt utilizado. Es importante tener en cuenta que no siempre es posible obtener resultados perfectos en la primera iteración, y puede ser útil utilizar una generación previa como base para corregir errores y mejorar los resultados finales. Además, es importante recordar que la ingeniería de prompts es una técnica en desarrollo y puede mejorar con el tiempo y el aumento de la comprensión de cómo funcionan los modelos de inteligencia artificial.

Conclusiones

La generación de imágenes mediante inteligencia artificial es una tecnología emergente con mucho potencial. Herramientas como Stable Diffusion ofrecen una gran velocidad y la capacidad de imitar estilos y técnicas de dibujo y pintura, lo que las hace ideales para una amplia gama de aplicaciones.

Si estás interesado en explorar las posibilidades de esta tecnología, te invitamos a probar los sistemas de generación de imágenes AI disponibles, leer otras notas y a unirte a nuestro grupo de discusión donde podrás compartir tus experiencias y aprender de otros usuarios.

Si sos fotógrafo sumate a nuestro Grupo en Facebook

 

Deja tu comentario