Z-Image est une famille de modèles de génération d'images développée par Alibaba, conçue pour allier efficacité technique et qualité photoréaliste. Avec seulement 6 milliards de paramètres, elle rivalise avec des modèles bien plus volumineux (jusqu'à 80 milliards de paramètres) tout en restant accessible sur du matériel grand public.

<aside> ⭐
</aside>
<aside> 🗞️

27/01/25 - Comfy-UI supporte et intégre le nouveau Z-Image Base. → En savoir plus

27/01/25 - La version base du modèle, non-distillée est désormais disponible sous licence Open-Source. → En savoir plus

26/11/25 - Z-Image-Turbo se positionne comme l’alternative Open-source pour la génération photoréaliste et rapide. → En savoir plus
</aside>
Z-Image (造相 en chinois, littéralement "créer des images") représente l'approche d'Alibaba pour démocratiser la génération d'images par IA. Contrairement à la course aux paramètres qui caractérise bon nombre de modèles concurrents, Z-Image mise sur l'efficacité : faire mieux avec moins. Cette philosophie se traduit par des performances remarquables qui remettent en question le paradigme du "toujours plus gros".
Là où des concurrents comme Flux.2 dev embarquent 32 milliards de paramètres, ou Hunyuan-Image-3.0 en compte 80 milliards, Z-Image atteint des performances comparables avec ses 6 milliards de paramètres. Cette approche ouvre la porte à une utilisation locale sans nécessiter une station de travail hors de prix : une RTX 3060 avec 12 Go de VRAM suffit pour faire tourner le modèle, et sur une RTX 4090, la génération en 1024×1024 pixels ne prend que 2,3 secondes.
Le lancement de Z-Image s'inscrit dans une démarche open-source assumée. Le modèle est publié sous licence Apache 2.0, ce qui autorise son utilisation commerciale sans restriction majeure. Cette ouverture contraste avec les modèles propriétaires de type Midjourney ou Nano Banana et renforce la position d'Alibaba comme acteur majeur de l'IA open-source, aux côtés de Meta avec Llama ou de Stability AI avec Stable Diffusion.
L'entraînement complet du modèle n'a nécessité que 314 000 heures de calcul sur GPU H800, soit environ 630 000 dollars. Ce coût relativement modéré pour un modèle de cette qualité démontre qu'il est possible d'atteindre l'excellence sans nécessiter les budgets astronomiques généralement associés aux modèles de génération d'images de pointe.
Z-Image émane de Tongyi-MAI, la division de recherche en intelligence artificielle d'Alibaba dédiée aux technologies d'apprentissage automatique. Cette équipe fait partie de l'écosystème Alibaba Cloud et s'inscrit dans la continuité de la famille Tongyi Qianwen (aussi connue sous le nom Qwen), qui regroupe l'ensemble des modèles d'IA développés par le géant chinois.
Tongyi-MAI ne se concentre pas uniquement sur la génération d'images. L'équipe travaille sur diverses technologies multimodales, de la compréhension de texte à la génération vidéo. Leur stratégie consiste à développer des modèles spécialisés qui excellent dans leur domaine plutôt que de créer un outil généraliste moyennement performant partout. Cette approche modulaire permet à Alibaba de proposer une palette d'outils adaptés aux besoins spécifiques des développeurs et créateurs.
L'équipe a publié un rapport technique détaillé sur arXiv fin novembre 2025, présentant l'architecture S3-DiT (Scalable Single-Stream Diffusion Transformer) et les innovations méthodologiques qui ont permis à Z-Image d'atteindre ses performances tout en restant relativement compact.
L'accès et l’utilisation de Z-Image peut se faire fait selon trois grandes modalités :
La démo en ligne constitue le point d'entrée le plus simple. Les modèles sont disponibles sur ModelScope et HuggingFace avec une interface de démonstration publique, permettant de tester le modèle sans installation ni configuration.
Pour Z-Image-Turbo, il suffit d'entrer un prompt (en anglais ou en chinois), d'ajuster quelques paramètres basiques comme le nombre d'étapes d'inférence (8 à 9 recommandées) et le CFG scale (entre 0 et 2, sachant que Turbo fonctionne mieux sans guidance), puis de lancer la génération.
Pour Z-Image base, les paramètres recommandés sont différents : 28 à 50 étapes d'inférence et un CFG scale entre 3.0 et 5.0 pour une meilleure adhésion aux instructions.

De nombreuses plateforme en ligne on aussi adopté et intégré Z-Image (en version base ou Turbo) et permettent de l’utiliser facilement.
→ Consultez notre liste des générateurs Z-Image
L'installation locale avec une interface comme ComfyUI s'adresse aux utilisateurs qui souhaitent intégrer Z-Image dans leur workflow de création.
Une fois ComfyUI installé, il suffit de télécharger les poids du modèle depuis Hugging Face.