Stability AI presenta hoy la próxima generación de su modelo insignia de IA generativa de texto-imagen: Stable Diffusion 3.0.
En los últimos meses, Stability AI ha mejorado y compartido numerosos modelos de imagen, cada uno de ellos con niveles crecientes de sofisticación y calidad: la versión SDXL lanzada el pasado julio mejoraba significativamente el modelo básico Stable Diffusion, y fue seguida por una versión Turbo a finales del año pasado. Justo la semana pasada, Stability AI compartió un modelo con una arquitectura innovadora llamado Stable Cascade. Ahora, la empresa quiere ir aún mas lejos.
El nuevo modelo 3.0 mejorará la calidad de las imágenes y el rendimiento de la generación a partir de indicaciones multitemáticas. También ofrecerá una escritura significativamente mejor que los modelos anteriores de Stable Diffusion, con una ortografía más precisa y un texto más coherente en las imágenes generadas. La gestión del texto ha sido un punto débil de Stable Diffusion en el pasado y un aspecto en el que competidores como DALL-E 3, Ideogram y Midjourney han mejorado mucho recientemente.
Stable Diffusion 3.0 se anuncia como un conjunto que va desde 800 millones de parámetros (menos que SD 1.5) hasta 8.000 millones de parámetros (más que SDXL), por lo que puede ejecutarse en una gran variedad de hardware. Probablemente seguirás necesitando una GPU seria y una configuración diseñada para el aprendizaje automático, pero no estarás limitado a una sola API como suele ocurrir con OpenAI y los modelos de Google.
Como explica Emad Mostaque, CEO de Stability, Stable Diffusion 3 es un transformador de difusión, un nuevo tipo de arquitectura similar a la utilizada en el reciente modelo de vídeo de OpenAI, Sora, y añade que Stable Diffusion 3 es el verdadero sucesor del modelo original Stable Diffusion
Stability AI ha experimentado con varios enfoques y diseños de modelos para la generación de imágenes, incluido Stable Cascade, que se compartió a principios de mes y utiliza la arquitectura Würstchen para mejorar el rendimiento y la precisión.
Stable Diffusion 3.0 adopta un enfoque aún más diferente al utilizar transformadores de difusión.
Los transformadores constituyen la base de gran parte de la revolución de la IA generativa y son muy utilizados por modelos de generación de texto como ChatGPT, mientras que la generación de imágenes es en gran medida dominio los modelos de difusión.
El artículo de investigación sobre los transformadores de dispersión (DiTs) explica que se trata de una nueva arquitectura para modelos de dispersión que sustituye a la comúnmente utilizada U-Net por un transformador que opera sobre imágenes latentes. Se dice que el enfoque DiTs permite un cálculo más eficiente y eficaz y supera a otras formas de generación de imágenes de dispersión
Otra gran innovación de Stable Diffusion 3 es*elemparejamiento de flujos* informe de investigación, es un nuevo método de aprendizaje de flujos de normalización continua (CNF) para modelar distribuciones de datos complejas. Según los investigadores, el uso del emparejamiento de flujos condicional (CFM) permite un aprendizaje más rápido, un muestreo más eficiente y un mejor rendimiento en comparación con los procesos de difusión convencionales
El texto mejorado de Stable Diffusion 3.0 es el resultado de una serie de mejoras que Stability AI ha incorporado al nuevo modelo.
"Esto se debe tanto a la arquitectura del transformador como a los codificadores de texto adicionales", afirma Mostaque, que también asegura que ahora es posible utilizar frases completas, así como un estilo coherente.
Aunque Stable Diffusion 3 se presenta inicialmente como una tecnología de IA de texto a imagen, es probable que sirva de base para nuevos avances. En los últimos meses, Stability AI también ha desarrollado capacidades de generación de imágenes y vídeos en 3D.