Stable Diffusion 3 est une nouvelle génération d’IA text-to-image par Stability AI - l’entreprise qui a révolutionné la création visuelle en partageant le premier modèle Open Source de génération d’image par Intelligence Artificielle.

L’annonce de cette troisième version a été suivie quelques jours plus tard de la diffusion des résultats de recherches qui ont permis sa création.

Le modèle a été partagé publiquement dans une version allégée nommée SD3 Medium. Une version plus puissante peut également être utilisée avec l’ [API de Stability AI](https://platform.stability.ai/docs/api-reference?_gl=1*13nbh77*_ga*ODM1NDcxNTA2LjE3MTM0MzE1MDk.*_ga_W4CMY55YQZ*MTcxMzQzMTUwOS4xLjEuMTcxMzQzMTUyMS4wLjAuMA..#tag/Generate/paths/~1v2beta~1stable-image~1generate~1sd3/post).

<aside> 🔥

Le 22 Octobre 2024, Stability AI a annoncé Stable Diffusion 3.5 - une nouvelle version améliorée de Stable Diffusion 3.

→ Tout savoir de Stable Diffusion 3.5

</aside>

Qu’est ce que Stable Diffusion 3 ?

Stable Diffusion 3 est la nouvelle génération de modèles d'IA texte-image publiée par Stability AI.

Il ne s'agit pas d'un modèle unique mais d'une famille de modèles de 800M à 8B de paramètres. Pour vous donner une idée, la taille du plus petit modèle est juste un peu en dessous de celle Stable Diffusion 1.5 (1B), alors que le plus grand modèle est un peu plus grand que le modèle Stable Diffusion XL (6,6B pour la base + le refiner).

Cette conception en famille de modèles de tailles variables suit la tendance initiée par la plupart des grand modèles de langage (IA générative de texte) : Google, Meta et Mistral ont tous publié des modèles de base de différentes tailles, adaptés pour différents cas d'utilisation.

Comment utiliser Stable Diffusion 3 ?

Pour tester et utiliser directement SD3 en ligne, vous pouvez utiliser la demo de fal.ai ou celle de Replicate.

Si vous souhaitez installer et utiliser Stable Diffusion 3 sur votre machine, la seule interface actuellement compatible est celle de ComfyUI.

Enfin, il existe aussi des offres d’hébergement sur le Cloud comme celles de Diffus ou RunDiffusion qui permettent d’utiliser Stable Diffusion 3 comme si était installé sur votre propre ordinateur mais sans avoir besoin de gérer l’installation ni de disposer d’un GPU puissant.

Le nouveau Stable Diffusion ?

L’année 2023 a marqué une étape importante pour l'intelligence artificielle open-source avec Stable Diffusion comme meilleur exemple d'IA entièrement ouverte. Nous avons assisté à des progrès significatifs avec SDXL, ainsi qu'à un nombre incalculable d'ajustements et de modifications pour créer des images et des vidéos d'un réalisme saisissant.

L’évolution vers Stable Diffusion 3 offre de nombreuses améliorations et représente probablement la plus importante mise à jour jamais vue pour Stable Diffusion. Cette nouvelle version vise à améliorer les performances sur des GPU plus petits tout en revendiquant des capacités augmentées, incluant la gestion d'images, de vidéos, et de 3D.

Stable Diffusion 3 est entrainé avec de 800 millions à 8 milliards de paramètres, offrant une gamme variée de modèles pour répondre aux besoins créatifs en fonction de la capacité des GPU. Elles combinent une architecture de transformateur de diffusion et de correspondance de flux, une avancée technique significative. Cette mise à jour met également l'accent sur des pratiques d'IA sûres et responsables pour prévenir les mauvais usages.

L’arrivée de Stable Diffusion 3, avec ses nombreuses améliorations comme le traitement du texte et sa capacité à gérer des entrées multimodales, pourrait marquer l'une des sorties les plus significatives de l'année 2024, surpassant éventuellement Gemini (Google) et Sora (OpenAI). Stability AI promet en effet une intégration des capacités de vidéo et de 3D dans un seul modèle, une première dans le domaine.

Améliorations et points forts

Sur 𝕏, plusieurs membre de l’équipe de Stability ont partagés des images images générées via Stable Diffusion 3 qui montrent une amélioration de la qualité, notamment dans la finesse des détails. L’intelligence artificielle arrive même à écrire des phrases complètes, une tâche habituellement ardue pour les modèles de génération d’images.

https://twitter.com/EMostaque/status/1762528378136019182

https://twitter.com/andrekerygma/status/1762652265926525215

https://twitter.com/Lykon4072/status/1761445362831606102

Textes précis

Untitled

Une des principales faiblesses des versions précédentes était la génération de textes. Stable Diffusion 1.5 était très mauvais dans ce domaine. SDXL est un peu meilleur mais a encore du mal à écrire plus qu’un mot - et comment régulièrement des fautes.

Plus récemment, Stable Cascade, un autre modèle créé par Stability AI, a montré des améliorations intéressante. Mais ca reste encore très aléatoire. Et les phrases longues sont tout simplement impossible à obtenir.