Stable Cascade est un modèle de génération d'images créé par Stability AI qui a été estimé 243% meilleur que SDXL en termes de qualité esthétique. Il comprend beaucoup mieux les instructions (prompts) et est jusqu’à deux fois plus rapide.

Avec Stable Cascade, vous pouvez donc générer des images encore plus belles avec des promps plus courtes et un temps de calcul réduit.

Untitled

<a 
  href="#demo-de-stable-cascade"
  class="text-center w-full link !text-primary-500 !opacity-100 !border-primary-500 hover:!opacity-80 feather-button-link inline-flex items-center justify-center bg-primary-500 text-base font-semibold !text-primary-50 rounded-cta-button-radius px-2 py-2 hover:bg-primary-600 hover:text-secondary-100 focus:outline-none focus:outline-2 focus:outline-offset-2 focus:outline-primary-500 active:bg-primary-800 active:text-blue-100"
  data-umami-event="Clicked Link: /stable-cascade#demo-de-stable-cascade"
  data-umami-href="/stable-cascade#demo-de-stable-cascade"
  style="font-size: 120%"
>
	→ Essayer <br/>Stable Cascade
</a>
<div class="pt-4 text-center">
<a class="notion-link page-link" href="<https://huggingface.co/stabilityai/stable-cascade>">Télécharger Stable Cascade</a>
</div>

Stable Cascade en bref

Stable Cascade est un modèle de génération d'images publié par Stability AI en Février 2024. Il est basé sur sur l'architecture Würstchen et se révèle extrêmement facile à exécuter et à entraîner sur du matériel grand publique.

En effet, l'un des avantages les plus significatifs offerts par Stable Cascade est son accessibilité en termes de coûts de formation sans compromettre la qualité ou la vitesse. Comparé à Stable Diffusion, qui compresse les images de 1024×1024 à 128×128, Stable Cascade réalise une réduction remarquable, comprimant la même résolution à 24×24. Cela se traduit par des vitesses d'inférence plus rapides et des coûts de formation moins élevés.

Stable Cascade dépasse également Stable Diffusion XL de 1,4 milliard de paramètres, promettant des vitesses d'inférence plus rapides sans compromettre les détails ou la qualité. Sa structure sous-jacente comprend trois étapes : la première étape (A) se concentre sur l'aspect VAE avec 20 millions de paramètres. La seconde (B) est un étape de diffusion, et peut utiliser un modèle de diffusion de 700 millions de paramètres ou une version plus détaillée de 1,5 milliard de paramètres. Enfin, la dernière étape (C) propose des modèles encore plus grands pour des applications de fine-tuning.

<aside> 📌 Points clefs à propos Stable Cascade

Images créées avec Stable Cascade

Voici quelques exemples d’images générée avec Stable Cascade par Stability AI et les premiers utilisateurs de cette nouvelle IA sur Reddit.

Untitled

Untitled

https://www.reddit.com/r/StableDiffusion/comments/1apue8j/some_fresh_stable_cascade_images_for_you_to_enjoy/

https://www.reddit.com/r/StableDiffusion/comments/1apue8j/some_fresh_stable_cascade_images_for_you_to_enjoy/

https://www.reddit.com/r/StableDiffusion/comments/1ar359h/cascade_can_generate_directly_at_1536x1536_and/

https://www.reddit.com/r/StableDiffusion/comments/1ar359h/cascade_can_generate_directly_at_1536x1536_and/

https://www.reddit.com/r/StableDiffusion/comments/1aqpiv5/stable_cascade_text_rendering_is_a_huge_step_from/

https://www.reddit.com/r/StableDiffusion/comments/1aqpiv5/stable_cascade_text_rendering_is_a_huge_step_from/

https://www.reddit.com/r/StableDiffusion/comments/1aqpiv5/stable_cascade_text_rendering_is_a_huge_step_from/

https://www.reddit.com/r/StableDiffusion/comments/1aqpiv5/stable_cascade_text_rendering_is_a_huge_step_from/

https://www.reddit.com/r/StableDiffusion/comments/1aqpiv5/stable_cascade_text_rendering_is_a_huge_step_from/

https://www.reddit.com/r/StableDiffusion/comments/1aqpiv5/stable_cascade_text_rendering_is_a_huge_step_from/

https://www.reddit.com/r/StableDiffusion/comments/1aqgvsc/impressed_with_stable_cascade_in_following/

https://www.reddit.com/r/StableDiffusion/comments/1aqgvsc/impressed_with_stable_cascade_in_following/

https://www.reddit.com/r/StableDiffusion/comments/1aq2vyp/testing_stable_cascade/

https://www.reddit.com/r/StableDiffusion/comments/1aq2vyp/testing_stable_cascade/

https://www.reddit.com/r/StableDiffusion/comments/1aq2vyp/testing_stable_cascade/

https://www.reddit.com/r/StableDiffusion/comments/1aq2vyp/testing_stable_cascade/

https://www.reddit.com/r/StableDiffusion/comments/1aq2vyp/testing_stable_cascade/

https://www.reddit.com/r/StableDiffusion/comments/1aq2vyp/testing_stable_cascade/

Demo de Stable Cascade

La démo de Stable Cascade est disponible sur HuggingFace

https://huggingface.co/spaces/multimodalart/stable-cascade

https://huggingface.co/spaces/multimodalart/stable-cascade

Présentation de Stable Cascade

Entrainement et Fine Tuning

Contrairement à Stable Diffusion XL qui utilise un modèle unique de grande taille, Stable Cascade utilise un enchainement de trois modèles plus petits et distincts, désignés comme les étapes A, B et C. Cette architecture modulaire offre des avantages majeurs en termes d'efficacité de formation et de personnalisation.

La première étape, l'étape C, transforme les instructions textuelles en espacé compactés, le latent space, de 24×24 pixels. Les étapes A et B décodent ensuite ces espaces latents en images haute résolution complètes.

En séparant la génération d'images à partir du texte du décodage des images, le modèle initial conditionnel au texte peut être entraîné et affiné beaucoup plus efficacement - y compris pour des ControlNets et des LoRAs. Selon Stability AI, l'affinage de l'étape C seul offre une réduction des coûts de 16 fois par rapport à l'affinage d'un modèle Stable Diffusion de taille équivalente.