Stable Cascade es un nuevo modelo de generación de imágenes de Stability, que ha sido calificado un 243% mejor que SDXL términos de calidad estética, comprende mucho mejor las instrucciones (prompts) y es hasta dos veces más rápido.
Con Stable Cascade, puede generar imágenes aún más bellas con indicaciones más cortas y un tiempo de cálculo reducido
<a
href="#demo-de-stable-cascade"
class="text-center w-full link !text-primary-500 !opacity-100 !border-primary-500 hover:!opacity-80 feather-button-link inline-flex items-center justify-center bg-primary-500 text-base font-semibold !text-primary-50 rounded-cta-button-radius px-2 py-2 hover:bg-primary-600 hover:text-secondary-100 focus:outline-none focus:outline-2 focus:outline-offset-2 focus:outline-primary-500 active:bg-primary-800 active:text-blue-100"
data-umami-event="Clicked Link: /stable-cascade#demo-de-stable-cascade"
data-umami-href="/stable-cascade#demo-de-stable-cascade"
style="font-size: 120%"
>
→ Probar <br/>Stable Cascade
</a>
<div class="pt-4 text-center">
<a class="notion-link page-link" href="<https://huggingface.co/stabilityai/stable-cascade>">Descargar Stable Cascade</a>
</div>
Stable Cascade es un nuevo modelo de generación de imágenes publicado por Stability AI. Se basa en la arquitectura Würstchen extremadamente fácil de ejecutar y entrenar en hardware de consumo.
De hecho, una de las ventajas más significativas que ofrece Stable Cascade es su asequibilidad en términos de costes de formación sin comprometer la calidad ni la velocidad. En comparación con Stable Diffusion, que comprime imágenes de 1024×1024 a 128×128, Stable Cascade consigue una reducción notable, comprimiendo la misma resolución a 24×24. Esto se traduce en velocidades de inferencia más rápidas y menores costes de formación.
Stable Cascade también supera a Stable Diffusion XL en 1.400 millones de parámetros, prometiendo velocidades de inferencia más rápidas sin comprometer el detalle ni la calidad. Su estructura subyacente comprende tres etapas: la primera (A) se centra en el aspecto VAE con 20 millones de parámetros; la segunda (B) es una etapa de difusión, y puede utilizar un modelo de difusión de 700 millones de parámetros o una versión más detallada de 1.500 millones de parámetros; finalmente, la última etapa (C) ofrece modelos aún mayores para aplicaciones de ajuste fino.
<aside> 📌 Puntos clave sobre Stable Cascade
He aquí algunos ejemplos de imágenes generadas con Stable Cascade por Stability AI y los primeros usuarios de esta nueva IA en Reddit.
https://www.reddit.com/r/StableDiffusion/comments/1apue8j/some_fresh_stable_cascade_images_for_you_to_enjoy/
https://www.reddit.com/r/StableDiffusion/comments/1ar359h/cascade_can_generate_directly_at_1536x1536_and/
https://www.reddit.com/r/StableDiffusion/comments/1aqpiv5/stable_cascade_text_rendering_is_a_huge_step_from/
https://www.reddit.com/r/StableDiffusion/comments/1aqpiv5/stable_cascade_text_rendering_is_a_huge_step_from/
https://www.reddit.com/r/StableDiffusion/comments/1aqpiv5/stable_cascade_text_rendering_is_a_huge_step_from/
https://www.reddit.com/r/StableDiffusion/comments/1aqgvsc/impressed_with_stable_cascade_in_following/
https://www.reddit.com/r/StableDiffusion/comments/1aq2vyp/testing_stable_cascade/
https://www.reddit.com/r/StableDiffusion/comments/1aq2vyp/testing_stable_cascade/
https://www.reddit.com/r/StableDiffusion/comments/1aq2vyp/testing_stable_cascade/
La demo de Stable Cascade está disponible en HuggingFace
https://huggingface.co/spaces/multimodalart/stable-cascade
A diferencia de Stable Diffusion XL, que utiliza un único modelo de gran tamaño, Stable Cascade utiliza una secuencia de tres modelos más pequeños y distintos, denominados etapas A, B y C. Esta arquitectura modular ofrece importantes ventajas en términos de eficacia de la formación y personalización.
La primera etapa, la etapa C, transforma las instrucciones textuales en espacios compactados, el espacio latente, de 24×24 píxeles. A continuación, las etapas A y B descodifican estos espacios latentes en imágenes completas de alta resolución
Al separar la generación de imágenes a partir del texto de la descodificación de imágenes, el modelo inicial de texto condicional puede entrenarse y refinarse de forma mucho más eficiente, incluso para ControlNets y LoRAs. Según Stability AI, el refinamiento del paso C por sí solo ofrece una reducción de costes 16 veces mayor en comparación con el refinamiento de un modelo de Difusión Estable de tamaño equivalente.