Après SDXL-Lightning , ByteDance réitère son engagement envers l'innovation et la vitesse avec le lancement de Hyper-SD, une nouvelle technique pour optimiser et accéléré la vitesse de génération d’images avec des modèles de Diffusion.

Le but de ByteDance semble être de se rapprocher encore plus de la génération d’images en temps réels tout en conservant la meilleure qualité d’image possible. Dans cette perspective, Hyper-SD est un nouveau pas en avant et génère des images de meilleure qualité que SDXL Turbo ou SDXL-Lightning tout en améliorant encore la vitesse de génération.

Tout comme ses prédécesseur, Hyper-SD se décline sous forme de LoRAs compatible avec les modèles Stable Diffusion et permet de les utiliser avec de 1 à 8 étapes d’inférence.

<aside> ⚡ Hyper-SD en bref

Hyper-SD permet la génération hyper-rapide d’images en 1024px avec les modèles Stable Diffusion.
Hyper-SD existe en version Hyper-SD15 et Hyper-SDXL pour fonctionner avec les diffèrentes versions de Stable Diffusion.
Hyper-SD est disponible sur HuggingFace sous forme de LoRAs qui peuvent être combinés avec d’autres modèle/checkpoints.
La technique s’appuie sur la Trajectory Segmented Consistency Distillation associée à une boucle de renforcement par feedback humain pour maintenir la qualité des images.
Hyper-Sd peut être testé gratuitement sur cette démo HF. </aside>

Hyper-SD en détails

Entrainement

Hyper-SD utilise une approche double : la Trajectory Segmented Consistency Distillation en deux étapes qui maintient l'intégrité de la trajectoire ODE (équation différentielle ordinaire) originale, et l’Apprentissage avec Feedback Humain ****qui améliore la qualité des images.

La première étape implique une distillation de la cohérence dans deux segments temporels distincts : [0, T/2] et [T/2 , T] pour obtenir deux segments de cohérence ODE. Ensuite, cette trajectoire ODE est utilisée pour former un modèle global de cohérence à l'étape suivante de l’entrainement.

Cette approche atteint une performance sans précédent, surpassant même SDXL-Lightning en termes de rapidité et de qualité esthétique, comme le démontre les scores CLIP et Aes.

→ Consultez le document de recherche pour en savoir plus sur l’approche technique d’Hyper-SD

Performances et qualité

L’approche d’entrainement innovante de Hyper-SD technique permet d'obtenir des performances quasi-parfaites tout en réduisant le nombre d'étapes nécessaires pour la génération d'images. Les tests démontrent que Hyper-SD surpasse les modèles précédents comme SDXL-Lightning, offrant une meilleure qualité d'image en moins d'étapes, confirmée par des scores CLIP et Aes supérieurs.

Comparaison entre Hyper-SDXL et d’autres approches d’accélération similaires.

Tout comme avec SDXL-Lightning, la génération en moins de 8 étapes signifie que les images peuvent être obtenue en quasi-temps-réel et permet des applications comme le dessin en directe comme le Hyper-SD Scribble proposée en démo par ByteDance.

hyper-sdxl_eOw5wlgL.mp4

Comptabilité avec ControlNet

Les équipes de ByteDance ont également testé et validé l’utilisation de Hyper-Sd avec ControlNet - la technique fonctionne et permet d’utiliser les controlleurs avec une génération en quelques étapes.