Les modèles, également appelés checkpoints (ou points de contrôle en français), sont des fichiers créés suite à un entraînement de Stable Diffusion partir d’images spécifiques.
Ces modèles peuvent être adaptés à un style, un genre ou un sujet particulier, mais il existe des modèles génériques, capables de générer toutes sortes d'images. Ce que les modèles peuvent générer dépend donc des données utilisées pour les entraîner : les images et textes qui y sont associés vont en effet déterminer ce que le modèle pourra représenté et les mots clefs qu’il reconnaitra.
Ce sont les principaux modèles utilisé par Stable Diffusion, ceux qui ont été créé à partir d’un très très grand nombre d’images et qui forment la base de la capacité de création d’images.
Comme ces modèles demandent énormément d’images pour être créés, il n’y en a pas beaucoup de diffèrents. Les plus connus sont ceux publiés par la société qui a créé Stable Diffusion : Stablity AI - En général, ce sont d’ailleurs de ces modèles que l’on parle quand on parle de Stable Diffusion.
Il y a actuellement 5 modèles de base : 1.4, 1.5, 2.0 et 2.1, SDXL, SDXL Turbo et 3. Nous les détaillons plus loin dans cet article mais sachez déjà qu’il y a d’importantes différences entre chaque génération.
<div align="center">
<script async src="<https://pagead2.googlesyndication.com/pagead/js/adsbygoogle.js?client=ca-pub-7985850631154058>"
crossorigin="anonymous"></script>
<ins class="adsbygoogle"
style="display:block; text-align:center;"
data-ad-layout="in-article"
data-ad-format="fluid"
data-ad-client="ca-pub-7985850631154058"
data-ad-slot="8593366035"></ins>
<script>
window.onload = function() {
(adsbygoogle = window.adsbygoogle || []).push({});
window.addEventListener('popstate', function(event) {
// Your code here
(adsbygoogle = window.adsbygoogle || []).push({});
});
};
</script>
</div>
Le fine-tuning est une technique courante en apprentissage automatique qui consiste à prendre un modèle déjà entraîné sur un large ensemble de données, et à l'entraîner un peu plus sur un ensemble de données spécifiques.
Un modèle fine-tuné sera ainsi “biaisé” vers la génération d'images similaires à celles utilisées pour cet entrainement, tout en conservant la polyvalence du modèle d'origine.
Les modèles de base de Stable Diffusion sont excellents mais ils ne conviennent pas pour tout.
Par exemple, ils peuvent générer des images de style manga ou anime avec le mot-clé "anime" dans le prompt. Mais il est plus difficile de les utiliser de manière éffiace pour sous-genre d'anime (chibbi, shonen, kodomo). Au lieu de passer du temps à peaufiner des prompts complexes pour des cas aussi spécifiques, on peut fine-tuner le modèle avec des images pour ces sous-genre.
De même, les modèles de bases connaissent de nombreuses célébrités et des personnages américains ou mondialement connus comme Ryan Reynolds ou Harry Potter, mais sont en général moins efficaces pour des célébrités plus locales comme Hanouna ou des fictions moins populaires. Le fine-tuning peut être utilisé pour leur “apprendre” qui sont ces personnages.
Il existe quatre principales méthodes de fine-tuning : l'entraînement supplémentaire, Dreambooth, l’inversion textuelle et les LoRAs. Elles reposent toute sur un modèle de base de Stable Diffusion comme le 1.5 ou SDXL.