ControlNet est un modèle complémentaire pour les modèles de diffusion comme Stable Diffusion ou Flux qui permet de copier des compositions d’image ou des poses de personnages à partir d'une image de référence.

ControlNet est donc bien plus qu'un simple outil d'image-to-image. Il offre une précision inégalée, permettant aux utilisateurs de choisir avec précision les éléments de l'image d'origine qu'ils souhaitent conserver ou ignorer.

Les outils standards de génération d’image en text-to-image ou même en image-to-image offrent finalement peu de contrôle sur la composition des images. Les images restent aléatoires et il faut en générer un grand nombre pour finalement pouvoir choisir celle où le sujet et les autres éléments se trouvent et à quoi il ressemblent.

ControlNet change complètement la donne

Les premiers modèles se concentraient essentiellement sur les poses et la composition de l’image - mais nous avons vu de nouvelles utilisations apparaitre, comme les QR Code et les Images en pirales.

Untitled

Découvrir ControlNet

<div align="center">
	<script async src="<https://pagead2.googlesyndication.com/pagead/js/adsbygoogle.js?client=ca-pub-7985850631154058>"
     crossorigin="anonymous"></script>
	<ins class="adsbygoogle"
     style="display:block; text-align:center;"
     data-ad-layout="in-article"
     data-ad-format="fluid"
     data-ad-client="ca-pub-7985850631154058"
     data-ad-slot="8593366035"></ins>
	<script>
window.onload = function() {
    (adsbygoogle = window.adsbygoogle || []).push({});
window.addEventListener('popstate', function(event) {
  // Your code here
  (adsbygoogle = window.adsbygoogle || []).push({});
});
};
	</script>
</div>

Que peut faire ControlNet ?

Copie de la pose

Avec ControlNet, il est possible de conserver la pose ou la position d’un personnage tout en générant une nouvelle image.

La photo de départ (freepik)

L’image générée avec ControlNet

On peut même utiliser une image qui reprend uniquement la pose sous forme de manequin 3D ou de schema Open Pose.

La version 3D créée par @Gilloute avec MagicPoser

L’image générée avec ControlNet

Un schema de positions proposé par @lekima

L’image générée avec ControlNet

<aside> ⚙️ Modèle utilisé pour la conservation de pose : control_openpose-fp16 (OpenPose)

</aside>

Conservation de la profondeur d’image.

ControlNet peut aussi utiliser une depth map de l’image pour générer des images qui conservent les profondeurs de l’originale. Ca permet par exemple de modifier l’environement ou l’ambiance, tout en conservant les caractéristiques principales de l’image.

Regardez par exemple ces variation de la ville Whiterun (Skyrim) créées par @Lokitsar.

Untitled