Tongyi Lab (Alibaba) a officialisé la sortie de Z-Image base, le modèle de fondation complet qui complète leur famille Z-Image lancée fin 2025. Cette version open-source apporte une excellente nouvelle pour les créateurs qui souhaitent générer des images de qualité professionnelle sur leur machine et personnaliser leur IA.

Un modèle prêt à personnaliser

Contrairement à Z-Image-Turbo sorti en novembre dernier et optimisé pour la vitesse pure (8 étapes d'inférence, génération sub-seconde), la version base se concentre sur la flexibilité et la personnalisation.

C'est le modèle "undistilled", c'est-à-dire non compressé, qui conserve toute sa capacité d'apprentissage et de fine-tuning. Concrètement, cela signifie qu’il peut plus facilement être entraîné avec ses propres données. Il est idéal pour créer des LoRA personnalisés, ou s'intégrer avec ControlNet pour un contrôle précis de la composition.

La différence avec Turbo se manifeste également dans la diversité des résultats. Là où Turbo privilégie une cohérence rapide, Z-Image base génère des visages, des éclairages et des compositions beaucoup plus variés d'une image à l'autre. Les premiers retours de la communauté soulignent particulièrement cette richesse créative, même si quelques cas d'anatomie imparfaite peuvent encore survenir.

Des performances qui tiennent la route

Avec seulement 6 milliards de paramètres, Z-Image base parvient à rivalise avec des mastodontes comme Flux.2 dev (32 milliards) ou Hunyuan-Image-3.0 (80 milliards).

Cette efficacité remarquable s'explique par l'architecture S3-DiT (Scalable Single-Stream Diffusion Transformer), qui traite dans un flux unifié le texte, les tokens sémantiques et les tokens VAE de l'image.

Le photoréalisme reste un point fort de la famille Z-Image : rendu de peau naturel, détails des cheveux, éclairage réaliste.

Un nouvel écosystème

L'intégration avec les outils populaires de la communauté est déjà en marche. Z-Image base fonctionne dès à présent avec ComfyUI, ce qui permet de créer des workflows visuels complexes sans coder.

https://x.com/ComfyUI/status/2016189627389116476

https://x.com/ModelScope2022/status/2016346290561679672

Les premiers tests montrent que le fine-tuning est particulièrement efficace : les LoRA s'entraînent rapidement et les résultats sont au rendez-vous. Pour ceux qui ont l'habitude de personnaliser leurs modèles, c'est une excellente nouvelle. Cette version “de base” se positionne vraiment comme la fondation idéale pour développer des outils spécialisés ou créer des styles artistiques sur mesure.

Une alternative crédible

Z-Image base apporte une bouffée d'air frais face aux modèles propriétaires et leurs architectures massives.

Son approche "efficacité avant tout" prouve qu'il n'est pas nécessaire d'empiler les milliards de paramètres pour obtenir des résultats professionnels. Pour les développeurs et créateurs qui veulent garder le contrôle de leurs outils, avoir accès au code source et aux poids du modèle, ou simplement éviter les abonnements cloud, c'est une option sérieuse.