Stable Diffusion 3 es la nueva generación de IA de texto a imagen de Stability AI, la empresa que revolucionó la creación visual al compartir el primer modelo de código abierto para la generación de imágenes mediante Inteligencia Artificial

Elanuncio de esta tercera seguido unos días más tarde por la publicación de los Research Papers.

El modelo se ha compartido públicamente en una versión ligera denominada SD3 Medium ,y también puede utilizarse una versión más potente con la [API Stability AI](https://platform.stability.ai/docs/api-reference?_gl=1*13nbh77*_ga*ODM1NDcxNTA2LjE3MTM0MzE1MDk.*_ga_W4CMY55YQZ*MTcxMzQzMTUwOS4xLjEuMTcxMzQzMTUyMS4wLjAuMA..#tag/Generate/paths/~1v2beta~1stable-image~1generate~1sd3/post)

<aside> 🗞️ Stable Diffusion 3.0 Medium está disponible - 12/06/2024

Stability ha publicado su modelo SD3 Medium

Ya puede descargarse de HuggingFace y utilizarse libremente en licencia no comerciales

Los diseñadores y las empresas que generen menos de un millón de dólares de ingresos anuales pueden acceder gratuitamente a una licencia comunitaria.

</aside>

¿Qué es la Stable Diffusion 3?

Stable Diffusion 3 es la nueva generación de modelos de IA de texto-imagen publicada por Stability AI.

Para que te hagas una idea, el modelo más pequeño es algo inferior al tamaño del Stable Diffusion 1.5 (1B), mientras que el modelo más grande es ligeramente superior al Stable Diffusion XL (6,6B para la base + refinador).

Este diseño familiar de modelos de tamaño variable sigue la tendencia iniciada por la mayoría de los principales modelos lingüísticos (IA generativa de texto): Google, Meta y Mistral han publicado modelos básicos de distintos tamaños, adaptados a diferentes casos de uso.

La nueva Stable Diffusion

El año 2023 marcó un hito para la inteligencia artificial de código abierto con Stable Diffusion como el mejor ejemplo de IA totalmente abierta. Hemos visto avances significativos con SDXL innumerables ajustes y modificaciones para crear imágenes y vídeos asombrosamente realistas

El paso a Stable Diffusion 3 ofrece una gran cantidad de mejoras y es probablemente la actualización más importante jamás vista para Stable Diffusion. Esta nueva versión pretende mejorar el rendimiento en GPU más pequeñas al tiempo que reivindica mayores capacidades, incluida la gestión de imágenes, vídeo y 3D

Stable Diffusion 3 se entrena con entre 800 millones y 8.000 millones de parámetros, lo que ofrece una amplia gama de modelos para satisfacer las necesidades creativas en función de la capacidad de la GPU. Combina una arquitectura de Transformador de difusión y Stream Matching, un avance técnico significativo. Esta actualización también hace hincapié en las prácticas seguras y responsables de la IA para evitar su uso indebido.

La llegada de Stable Diffusion 3, con sus numerosas mejoras como el procesamiento de texto y su capacidad para manejar entradas multimodales, podría marcar uno de los lanzamientos más significativos de 2024, posiblemente superando a Gemini (Google) y Sora (OpenAI).

Stability AI promete tambien integrar capacidades de vídeo y 3D en un único modelo, una primicia en este campo

Mejoras y puntos fuertes

En 𝕏, varios miembros del equipo de Stability han compartido imágenes generadas mediante Stable Diffusion 3 que muestran una mejora de la calidad, sobre todo en la finura de los detalles. La inteligencia artificial es capaz incluso de escribir frases completas, una tarea habitualmente difícil para los modelos de generación de imágenes.

https://twitter.com/EMostaque/status/1762528378136019182

https://twitter.com/andrekerygma/status/1762652265926525215

https://twitter.com/Lykon4072/status/1761445362831606102

Textos específicos

Untitled

Uno de los principales puntos débiles de las versiones anteriores era la generación de texto. Stable Diffusion 1.5 era muy malo en este aspecto. SDXL es un poco mejor, pero sigue teniendo problemas para escribir más de una palabra, y con qué regularidad se cometen errores.

Más recientemente, Stable Cascade, otro modelo creado por Stability AI, ha mostrado algunas mejoras interesantes. Pero sigue siendo muy aleatorio, y las frases largas son sencillamente imposibles de obtener.

Pero todo eso va a cambiar con Stable Diffusion 3, que presume de mejorado la ortografía y la coherencia del texto, y será considerablemente más fiable para tareas como la redacción de pies de foto y la creación de logotipos

Los ejemplos compartidos por Stability AI y su equipo incluyen un gran número de imágenes con uno o más fragmentos de texto que tienen un aspecto excelente, ¡incluidos textos más largos que simples palabras!

Untitled

Mejor cumplimiento de las instrucciones

Prompt : Photo of a red sphere on top of a blue cube. Behind them is a green triangle, on the right is a dog, on the left is a cat

Prompt : Photo of a red sphere on top of a blue cube. Behind them is a green triangle, on the right is a dog, on the left is a cat

Uno de los puntos débiles de SDXL y Stable Cascade es que no siguen indicaciones e instrucciones complejas tan bien como DALL-E 3.

Una de las innovaciones de DALL-E 3 fue el uso de subtítulos de imágenes muy precisos a la hora de entrenar al modelo, con el fin de enseñarle a seguir correctamente indicaciones complejas. Ahora parece que Stability AI se ha inspirado en este método para mejorar Stable Diffusion.

Por lo tanto, Stable Diffusion 3 debería ser al menos tan bueno como DALLE 3 a la hora de seguir las instrucciones.