Alibaba vient de publier la version 2511 de Qwen-Image-Edit, et cette mise à jour mérite vraiment qu'on s'y attarde. Si vous avez déjà testé les versions précédentes, vous savez que le modèle était déjà solide pour l'édition d'images. Mais cette nouvelle itération franchit un cap important, notamment sur la consistance des personnages et l'édition multi-personnes.
SaveTwitter.Net_JpdDq_vtRfmuZ2Dl_(360p).mp4
La grande star de cette mise à jour, c'est sans conteste l'amélioration de la consistance des personnages. Vous pouvez maintenant prendre un portrait et le transformer dans différents contextes en gardant vraiment l'identité de la personne. On ne parle pas juste de traits grossièrement similaires, mais d'une vraie préservation des caractéristiques faciales, même quand on demande des transformations créatives.

L'autre amélioration majeure concerne l'édition multi-personnes. La version 2509 gérait déjà bien les portraits individuels, mais assembler plusieurs personnes dans une même composition restait délicat. Avec la 2511, le modèle peut fusionner deux images de personnes différentes dans un plan de groupe cohérent, avec une gestion correcte de l'éclairage et des proportions entre les sujets. C'est particulièrement utile pour les créateurs de contenu qui ont besoin de composer des visuels de groupe sans avoir tous les participants physiquement présents.

Depuis la sortie initiale de Qwen-Image-Edit, la communauté a développé pas mal de LoRA pour étendre les capacités du modèle. L'équipe d'Alibaba a fait un choix malin : intégrer directement les LoRA les plus populaires dans le modèle de base. Résultat, vous n'avez plus besoin de jongler avec des fichiers externes pour accéder à certaines fonctionnalités avancées.
Deux exemples concrets : le contrôle de l'éclairage fonctionne maintenant nativement, sans avoir à charger quoi que ce soit. Vous pouvez modifier l'ambiance lumineuse d'une scène directement via votre prompt. Même chose pour la génération de nouveaux points de vue sur un objet, une fonctionnalité qui nécessitait auparavant un LoRA dédié pour obtenir les meilleurs résultats.

Cette intégration simplifie considérablement le workflow, surtout pour ceux qui ne veulent pas passer leur temps à tester différentes combinaisons de LoRA et de paramètres.
La version 2511 apporte aussi quelques améliorations ciblées :
Côté technique, rien de bouleversant : le modèle fonctionne toujours avec la bibliothèque Diffusers. Il faut installer la dernière version depuis GitHub, et le code reste similaire aux versions précédentes.