La gamme d’intelligence artificialle de Qwen-Image, développée par Alibaba, propose plusieurs modèle de génération et édition d’images avancés.
S'appuyant sur l'architecture MMDiT (Multimodal Diffusion Transformer), cette suite technologique permet une synergie inédite entre la compréhension profonde du langage et la création visuelle de haute précision. Qu'il s'agisse de générer des visuels publicitaires au rendu textuel impeccable ou de décomposer des images complexes en calques RGBA éditables, Qwen-Image offre une flexibilité qui comble le fossé entre les générateurs d'images classiques et les outils de design professionnel.
<a
href="<https://getimg.ai/image-generator?via=stabletom&model=model-qwen/qwen-image>"
class="w-full link !text-primary-500 !opacity-100 !border-primary-500 hover:!opacity-80 feather-button-link inline-flex items-center justify-center bg-primary-500 text-base font-semibold !text-primary-50 rounded-cta-button-radius px-2 py-4 hover:bg-primary-600 hover:text-secondary-100 focus:outline-none focus:outline-2 focus:outline-offset-2 focus:outline-primary-500 active:bg-primary-800 active:text-blue-100"
data-umami-event="Clicked Link: getimg.ai qwen-image"
data-umami-href="getimg.ai/image-generator?via=stabletom&model=model-qwen/qwen-image"
style="font-size: 120%"
target="_blank"
>
→ Essayer Qwen Image
</a>

<div style="text-align: right; font-size: 75%; margin-top: -10px; margin-right: 1ex" class="text-secondary-600 text-right small"><em>
Dernière mise à jour : 31/12/2025
</em></div>
ssstwitter.com_1754494612426.mp4
<aside> ⭐
</aside>
<aside> 🗞️

31/12/25 - Alibaba finit l’année en beauté avec une nouvelle version plus réaliste de Qwen-Image.

26/12/25 - L’équipe Qwen améliore encore et toujours sont modèle d’édition d’images

20/12/25 - Alibaba sort un modèle capable de générer des images composées en couches indépendantes.
</aside>
Qwen-Image est un modèle de fondation multimodal de pointe, doté de 20 milliards de paramètres, conçu spécifiquement pour exceller dans la génération d'images à partir de texte et l'édition précise. Son architecture repose sur un Transformateur de Diffusion Multimodal (MMDiT), marquant une rupture avec les architectures U-Net traditionnelles en permettant une intégration plus profonde et bidirectionnelle entre les données textuelles et visuelles.

Le modèle excelle dans quatre domaines principaux :
Rendu de texte avancé – Qwen-Image peut incorporer des paragraphes entiers, des formules mathématiques et des détails typographiques complexes avec une fidélité impressionnante, supportant aussi bien les alphabets occidentaux que les caractères logographiques (chinois, japonais, coréen).
Édition d'images intelligente – Au-delà de la génération pure, le modèle offre des fonctionnalités d'édition sophistiquées : modification de texte existant, transfert de style, insertion/suppression d'objets, et manipulation contrôlée des poses humaines.
Polyvalence stylistique – De la photographie réaliste aux peintures impressionnistes, en passant par les styles manga ou les designs minimalistes, Qwen-Image s'adapte à une vaste gamme d'esthétiques créatives.
Compréhension multilingue – Entraîné pour gérer parfaitement le chinois et l'anglais, il préserve avec précision la typographie et la mise en page quelle que soit la langue utilisée.
Développé selon une approche d'apprentissage progressif ("curriculum learning"), le modèle a été formé en passant de tâches simples (images sans texte) vers des scénarios complexes (prompts de plusieurs paragraphes), renforçant ainsi sa capacité à traiter des instructions textuelles sophistiquées.
Lancé le 18 août 2025, Qwen Image Edit étend les capacités de Qwen-Image vers l'édition d'images spécialisée. Construit sur la base solide du modèle de 20 milliards de paramètres, il introduit une architecture de double encodage révolutionnaire.
La vraie innovation de Qwen Image Edit réside dans son système de traitement dual qui analyse les images à travers deux flux parallèles :
Premier flux sémantique : Un modèle vision-langage Qwen2.5-VL extrait les caractéristiques sémantiques de haut niveau, permettant au système de "comprendre" le sens de l'image et les relations entre objets.
Second flux reconstructif : Un Variational Autoencoder (VAE) spécialement affiné capture les détails de bas niveau, garantissant que les zones non modifiées restent parfaitement préservées.
Cette approche permet deux modes d'édition complémentaires :

Lancé le 19 décembre 2025, Qwen-Image-Layered marque une rupture technologique en transformant les images plates en compositions structurées et éditables. Basé sur le modèle de 20 milliards de paramètres, il introduit le concept de "décomposition RGBA" pour offrir une flexibilité native identique à celle des logiciels de PAO comme Photoshop.
Contrairement aux outils de segmentation classiques, Qwen-Image-Layered utilise un système de décomposition par masquage multimodal (VLD-MMDiT) capable d'analyser la structure interne de l'image :
Cette architecture déverrouille des capacités uniques :

Qwen-Image est développé par Tongyi Lab, l'équipe d’IA d'Alibaba, une division de recherche spécialisée dans les modèles de fondation et l'intelligence artificielle multimodale. Cette équipe est reconnue pour sa capacité à produire des modèles de langage de grande envergure (LLM) qui rivalisent, et surpassent souvent, les modèles propriétaires les plus avancés du marché, tels que ceux d'OpenAI ou de Google..
Alibaba Cloud, à travers sa plateforme technologique, s'impose comme un acteur majeur de l'IA générative en Asie. L'entreprise investit massivement dans la recherche en IA depuis plusieurs années, avec un focus particulier sur les modèles multilingues adaptés aux besoins des marchés asiatiques tout en restant compétitifs à l'international.
La stratégie d'Alibaba repose sur un engagement fort envers l'écosystème open-source, en publiant les poids des modèles sous licence Apache 2.0, favorisant ainsi une innovation communautaire rapide. Cette approche traduit sa volonté de se placer comme une référence en IA tout en démocratisant l'accès à des technologies d'IA avancées. Pour cela, ils ont publié non seulement les poids du modèle mais aussi l'intégralité du code source et de sa documentation technique.
L'utilisation de la gamme Qwen-Image a été conçue pour être aussi flexible que puissante, s'adaptant aussi bien aux environnements de développement locaux qu'aux infrastructures cloud à grande échelle.