Black Forest Labs a confirmé la sortie de FLUX.2 [klein], une nouvelle série de modèles qui promet de changer la donne dans la génération d'images locale. Cette nopuvelle version de Flux.2 offre une vitesse d'inférence impressionnante de moins d'une seconde pour générer une image en 1024x1024, soit environ 30% plus rapide que les solutions actuelles.
FLUX.2 [klein] se décline en deux variantes :
Dans les deux cas, on parle de temps d'inférence entre 0,3 et 0,5 seconde, ce qui les rend compatibles avec des GPU comme la RTX 4070 ou 3090.
L'innovation principale de FLUX.2 [klein] ne réside pas uniquement dans sa vitesse. Black Forest Labs a développé une architecture unifiée qui combine génération texte-to-image et édition d'images dans un seul modèle compact. Concrètement, cela signifie que vous pouvez générer une image à partir d'un prompt, puis l'éditer directement sans changer d'outil ou de modèle, le tout en quelques fractions de seconde.
Là où il fallait auparavant passer par un cycle "prompt → café → image → révision → nouveau prompt” FLUX.2 [klein] permet une interaction quasi instantanée : vous voyez le résultat, vous ajustez, vous voyez le changement. C'est particulièrement utile pour l'édition stylistique, le changement de compositions, ou même la fusion de références multiples pour créer des concepts hybrides.
Les premiers retours d'utilisateurs sur X et Reddit confirment cette fluidité, notamment pour des cas d'usage comme la remasterisation de captures de jeux vidéo ou l'édition de styles anime. Quelques limitations subsistent toutefois : la cohérence faciale peut varier lors d'éditions complexes, et des artefacts occasionnels apparaissent (comme des membres supplémentaires), mais la vitesse permet de multiplier rapidement les tentatives jusqu'à obtenir le résultat souhaité.
Pour comprendre l'apport de FLUX.2 [klein], il faut regarder où en est la génération d'images locale actuellement. Deux modèles dominent le paysage : Qwen-Image d'Alibaba, particulièrement apprécié pour sa compréhension des prompts et son rendu de texte dans les images, et Z-Image-Turbo, également d'Alibaba, qui mise sur la vitesse avec ses 6 milliards de paramètres et son photoréalisme convaincant.
Les deux tournent sur environ 12 à 16 Go de VRAM pour des performances optimales, ce qui les place dans la même gamme d'accessibilité que FLUX.2 [klein].
Notons également FLUX.1 [dev], le prédécesseur de cette nouvelle famille, reste également très populaire comme base de fine-tuning dans la communauté, malgré sa licence non commerciale. Son concurrent sous licence permissive, FLUX.1 [schnell], n'a jamais réellement décollé pour le fine-tuning communautaire, ce qui pose des questions pour l'avenir de FLUX.2 [klein] face à la version [dev] déjà disponible…

Mais si la génération d'images locale est relativement bien servie avec Qwen-Image et Z-Image-Turbo, l'édition d'images accessible reste un défi.
Jusqu'à présent, la référence locale était Qwen-Image-Edit, un modèle de 20 milliards de paramètres excellent pour l'édition sémantique et la manipulation de texte dans les images, mais qui nécessite entre 12 et 20 Go de VRAM selon les optimisations et n'offre pas la réactivité en temps réel.
C'est donc précisément là que FLUX.2 [klein] apporte une vraie valeur ajoutée : En unifiant génération et édition dans une architecture compacte et ultra-rapide, il devient possible d'itérer créativement sans friction.