Durante este año nos hemos sorprendido con el empleo de las redes neuronales en aplicaciones artísticas.
Primero fue Dall-E , Dall-E2 e incluso Dall- Mini al que pronto siguió uStable Difussion versión open-source y que incluso se puede ejecutar en el local sin necesidad de subir ni un dato a la nube. Además se puede usar como complemento en otras aplicaciones como Photoshop o Canva.
Ahora se acaba de anunciar la versión Stable Difussion 2.0 que mejora la conversión de texto a iamgen gracias a un nuevo codificador de texto a imagen llamado OpenCLIP que según los responsables del proyecto «mejora en gran medida la calidad de las imágenes generadas en comparación con las versiones V1».
El motor mantiene los filtros para eliminar contenidos para adultos gracias al filtro NSFW de LAION-5B, el conjunto de imágenes que se ha usado para entrenar este modelo
Una limitación de la versión inicial era la reducida dimensión de las imágenes obtenidas que se veía limitada a un máximo de 768×768 píxeles Ahora en Stable Diffussion 2.0 se incluye un nuevo sistema de upscaling que mejora la resolución de las imágenes multiplicándolas hasta por cuatro. Así, es posible generar imágenes de 2.048×2.048 e incluso más, y hacerlo además con una definición increible.
También ha mejorado el modelo de difusión Depth-to-Image que permitía que hicieramos un boceto rápido de lo que queríamos obtener y Stable Diffusion generara la imagen basándose en eso y en el texto descriptivo de entrada (prompt). En la nueva versión se puede usar una imagen de base, pero genera no una, sino varias imágenes usando tanto el texto como la información de «profundidad» que da la imagen de partida.
En unos días estarán publicados aquí algunas de las composiciones creadas con la nueva versión así como las correspondientes APIs necesarias para conseguir estas obras maestras.
582