ControlNet est un modèle complémentaire pour les modèles de diffusion comme Stable Diffusion ou Flux qui permet de copier des compositions d’image ou des poses de personnages à partir d'une image de référence.
ControlNet est donc bien plus qu'un simple outil d'image-to-image. Il offre une précision inégalée, permettant aux utilisateurs de choisir avec précision les éléments de l'image d'origine qu'ils souhaitent conserver ou ignorer.
Les outils standards de génération d’image en text-to-image ou même en image-to-image offrent finalement peu de contrôle sur la composition des images. Les images restent aléatoires et il faut en générer un grand nombre pour finalement pouvoir choisir celle où le sujet et les autres éléments se trouvent et à quoi il ressemblent.
ControlNet change complètement la donne
Les premiers modèles se concentraient essentiellement sur les poses et la composition de l’image - mais nous avons vu de nouvelles utilisations apparaitre, comme les QR Code et les Images en pirales.
<div align="center">
<script async src="<https://pagead2.googlesyndication.com/pagead/js/adsbygoogle.js?client=ca-pub-7985850631154058>"
crossorigin="anonymous"></script>
<ins class="adsbygoogle"
style="display:block; text-align:center;"
data-ad-layout="in-article"
data-ad-format="fluid"
data-ad-client="ca-pub-7985850631154058"
data-ad-slot="8593366035"></ins>
<script>
window.onload = function() {
(adsbygoogle = window.adsbygoogle || []).push({});
window.addEventListener('popstate', function(event) {
// Your code here
(adsbygoogle = window.adsbygoogle || []).push({});
});
};
</script>
</div>
Avec ControlNet, il est possible de conserver la pose ou la position d’un personnage tout en générant une nouvelle image.
La photo de départ (freepik)
L’image générée avec ControlNet
On peut même utiliser une image qui reprend uniquement la pose sous forme de manequin 3D ou de schema Open Pose.
La version 3D créée par @Gilloute avec MagicPoser
L’image générée avec ControlNet
Un schema de positions proposé par @lekima
L’image générée avec ControlNet
<aside> ⚙️ Modèle utilisé pour la conservation de pose : control_openpose-fp16 (OpenPose)
</aside>
ControlNet peut aussi utiliser une depth map de l’image pour générer des images qui conservent les profondeurs de l’originale. Ca permet par exemple de modifier l’environement ou l’ambiance, tout en conservant les caractéristiques principales de l’image.
Regardez par exemple ces variation de la ville Whiterun (Skyrim) créées par @Lokitsar.