Z-Image est une famille de modèles de génération d'images développée par Alibaba, conçue pour allier efficacité technique et qualité photoréaliste. Avec seulement 6 milliards de paramètres pour sa version Turbo, elle rivalise avec des modèles bien plus volumineux tout en restant accessible sur du matériel grand public.

Z-Image (造相 en chinois, littéralement "créer des images") représente l'approche d'Alibaba pour démocratiser la génération d'images par IA. Contrairement à la course aux paramètres qui caractérise bon nombre de modèles concurrents, Z-Image mise sur l'efficacité : faire mieux avec moins. Le résultat ? Un modèle capable de générer des images en moins d'une seconde sur des GPU professionnels, et en 8-9 secondes sur une configuration grand public standard.
La philosophie derrière Z-Image repose sur l'idée qu'un modèle performant n'a pas besoin d'être gigantesque pour produire des résultats de qualité. Là où des concurrents comme Flux 2 embarquent 32 à 56 milliards de paramètres, Z-Image Turbo atteint des performances comparables avec six fois moins de ressources. Cette approche ouvre la porte à une utilisation locale sans nécessiter une station de travail hors de prix.
Le lancement de Z-Image s'inscrit dans une démarche open-source assumée. Le modèle est publié sous licence Apache 2.0, ce qui autorise son utilisation commerciale sans restriction majeure. Cette ouverture contraste avec les modèles propriétaires de type Midjourney ou Nano Banana et renforce la position d'Alibaba comme acteur majeur de l'IA open-source, aux côtés de Meta avec Llama ou de Stability AI avec Stable Diffusion.
Z-Image émane de Tongyi-MAI, la division de recherche en intelligence artificielle d'Alibaba dédiée aux technologies d'apprentissage automatique. Cette équipe fait partie de l'écosystème Alibaba Cloud et s'inscrit dans la continuité de la famille Tongyi Qianwen (aussi connue sous le nom Qwen), qui regroupe l'ensemble des modèles d'IA développés par le géant chinois.
Tongyi-MAI ne se concentre pas uniquement sur la génération d'images. L'équipe travaille sur diverses technologies multimodales, de la compréhension de texte à la génération vidéo. Leur stratégie consiste à développer des modèles spécialisés qui excellent dans leur domaine plutôt que de créer un outil généraliste moyennement performant partout. Cette approche modulaire permet à Alibaba de proposer une palette d'outils adaptés aux besoins spécifiques des développeurs et créateurs.
L'accès et l’utilisation de Z-Image peut se faire fait selon trois grandes modalités :
La démo en ligne constitue le point d'entrée le plus simple. Les modèles sont disponibles sur ModelScope et HuggingFace avec une interface de démonstration publique, permettant de tester le modèle sans installation ni configuration.
Il suffit d'entrer un prompt (en anglais ou en chinois), d'ajuster quelques paramètres basiques comme le nombre d'étapes d'inférence (8 à 9 recommandées) et le CFG scale (entre 1 et 2 pour une meilleure adhésion aux instructions), puis de lancer la génération. Cette approche convient parfaitement pour découvrir les capacités du modèle ou générer quelques images ponctuelles.

On peut également s’attendre à ce que différente plateforme en ligne adopte Z-image et le propose parmi leurs modèles de génération d’images.
L'installation locale avec ine interface comme ComfyUI s'adresse aux utilisateurs plus qui souhaitent intégrer Z-Image dans leur workflow de création.
Une fois ComfyUI installé, il suffit de télécharger les poids du modèle depuis Hugging Face et de créer un workflow basique. La configuration matérielle requise reste raisonnable : 16 Go de VRAM suffisent, ce qui correspond à des cartes graphiques grand public comme une RTX 4060 Ti ou une RTX 3090. Sur ce type de matériel, une image en 1080p est générée en environ 36 secondes, ce qui reste très correct pour une utilisation locale.
→ Voir les workflows d’exemple pour ComfyUI
Les API cloud représentent la solution la plus scalable pour les développeurs intégrant la génération d'images dans des applications. Le modèle est accessible via fal.ai, avec une tarification au mégapixel facilitant la gestion des coûts. D'autres plateformes comme Replicate ou WaveSpeedAI proposent également l'accès au modèle. Cette approche libère des contraintes matérielles et permet de scaler facilement en fonction du volume de requêtes.