Parmi tous les paramètres de génération d’image avec Stable Diffusion, la Classifier-Free Guidance, appelée CFG Scale, se distingue comme un levier essentiel, dictant le degré de conformité des images générées aux instructions textuelles.
Comprendre ce CFG Scale et son utilisation est donc primordial pour exploiter pleinement le potentiel de Stable Diffusion.
Le CFG Scale est un paramètre qui régule l'influence des instructions textuelles sur les images générées.
Il s'agit d'une valeur numérique, généralement comprise entre 1 et 20, qui influence la manière dont Stable Diffusion interprète et suit le prompt textuel fourni par l'utilisateur. Plus la valeur est élevée, plus cette Classifier-Free Guidance sera forte.
En pratique, le CFG Scale agit principalement en modulant la propagation d'informations entre l'invite textuelle et les couches latentes du modèle de diffusion et en définissant la pondération des vecteurs de bruit utilisés pendant l’inférence.
Une valeur élevée renforce la propagation des informations textuelles et augmente la pondérations des vecteurs cohérents - ce qui favorise un meilleur respect de instructions du prompt et des images plus réalistes.
A l’inverse, une valeur plus faible réduit la propagation et réduit la pondération - ce qui permet l’introduction de concepts plus divergents et surprenants dans l’image.
Voyons comme la modification du CFG Scale modifie le résultat d’un prompt. Pour cette expérience, j’utilise le prompt ci-dessous et génère les images en conservant le seed avec le modèle JuggernautXL.
portrait of an humanoid tiger wearing a colorful jacket, geometric patterns, colorful, bokeh, cinematic, epic, dramatic light, beautiful, sharp focus, elegant, ambient dynamic composition, bright colors, cheerful
CFG Scale : 1
CGG Scale : 3
CFG Scale : 7
CFG Scale : 10
CFG Scale : 15
CFG Scale : 20
Avec une valeur de 1, le prompt est vaguement suivis, mais il manque des détails et éléments. Les couleurs manque de peps et l’image est un peu fade.
A 3, le résultat est déjà plus intéressant et les styles et détails du prompt commencent à ressortir.
Avec une échelle de 7, l’ensemble du prompt est respecté et l’image a gagné en vivacité.
Augmenter la valeur en CFG ne va alors plus beaucoup changer le respect du prompt mais va surtout renforcer la saturation des couleurs et les contrastes : A partir de 10 cet effet commence à se ressentir fortement et finit par endommager l’image plus qu’autre chose.
L’effet est globalement le même avec d’autres prompts ou en changeant de modèle :
A captivating portrait of a 43 years old bearded man, rain drop, amazing skin details. Dreamlike scenes with epic composition, high quality photo, selective focus, bokeh, hall of mirrors. Shot with a Nikon Z9, 50mm f/1.2 lens (modèle Dreamshaper XL)
CFG Scale : 1
CFG Scale : 7
CFG Scale : 15