Le 18 août, Alibaba a frappé fort en lançant Qwen Image Edit, un modèle d'édition d'images qui bouscule les codes du secteur. Pas par ses performances brutes – d'autres modèles sont peut-être plus puissants – mais par sa philosophie radicale : tout donner, tout de suite, gratuitement.
Cette approche tranche avec la tendance actuelle du marché où chaque innovation se monnaye au prix fort. Ici, Alibaba mise sur l'effet de réseau : en libérant une technologie de pointe sous licence Open Source (Apache 2.0), l'entreprise parie sur l'émulation collective pour distancer la concurrence.
La vraie prouesse technique de Qwen Image Edit réside dans son architecture de double encodage sophistiquée qui traite les images à travers deux flux parallèles pour équilibrer créativité et fidélité visuelle.
Le premier flux alimente un modèle vision-langage Qwen2.5-VL qui extrait les caractéristiques sémantiques de haut niveau. Il "comprend" le sens de l'image, son contexte et les relations entre objets. C'est lui qui gouverne le "quoi" de l'édition.
Simultanément, un second flux utilise un Variational Autoencoder (VAE) pour capturer les détails reconstructifs de bas niveau. Ce VAE a été spécialement affiné sur des documents riches en texte pour aiguiser sa capacité à reconstruire les détails fins, garantissant que les parties de l'image non touchées par le prompt restent parfaitement préservées.
Le résultat ? Deux modes d'édition complémentaires :
L'édition sémantique pour les transformations larges qui modifient le sens global de l'image : changer un style photo en animation Studio Ghibli, faire tourner un objet pour révéler un nouvel angle, créer des packs d'emojis à partir d'une mascotte.
L'édition d'apparence pour les modifications chirurgicales où la précision est cruciale : ajouter ou supprimer des éléments, changer la couleur d'un seul objet, retoucher délicatement une photo. Comme le note le chercheur Qwen Junyang Lin : "il peut enlever un brin de cheveux, une modification d'image très délicate".

Le modèle hérite et étend les solides capacités de rendu bilingue de son prédécesseur, Qwen-Image, qui a été spécifiquement conçu pour maîtriser la typographie. Il peut ainsi ajouter, supprimer ou modifier avec précision du texte en anglais et en chinois.
Pour les utilisateurs, cela se traduit par un contrôle sans précédent. Le modèle peut préserver le style, la taille et la couleur d'une police originale lors des éditions, ce qui le rend particulièrement utile pour les designers travaillant sur des affiches, logos ou autres visuels riches en texte.

Qwen a d'ailleurs démontré comment un utilisateur peut effectuer une série d'éditions "chaînées" pour corriger des erreurs de caractères individuels dans une calligraphie chinoise générée. En dessinant des boîtes de délimitation sur les régions incorrectes et en émettant de nouveaux prompts textuels, les utilisateurs peuvent progressivement affiner l'œuvre jusqu'à la perfection.
Les premiers utilisateurs rapportent des capacités remarquables pour ajouter des objets, modifier des arrière-plans ou retoucher du texte. Le modèle excelle particulièrement dans la préservation des détails non concernés par l'édition.
Mais comme souvent avec les nouvelles technologies, tout n'est pas parfait :