Flux NF4, plus précisément le modèle flux1-dev-bnb-nf4-v2, est une variante du modèle de génération d'images Flux.1 [dev].

Développé par le créateur connu sous le nom de lllyasviel (également créateur de Forge et développeur de ControlNet), il a été conçu pour optimiser les performances de génération d'images, en offrant des améliorations significatives en termes de vitesse et d'efficacité par rapport au modèle d'origine.

Qu’est-ce que la méthode NF4 ?

Le sigle NF4 désigne une méthode de quantification appelée Normal Float 4-bit qui est utilisée principalement pour optimiser les modèles d'apprentissage automatique, notamment dans le cadre du fine-tuning des modèles de langage. Ce format de quantification est particulièrement efficace pour réduire l'utilisation de la mémoire tout en maintenant une performance acceptable.

Caractéristique de la méthode NF4

Quantification 4 bits: NF4 utilise une représentation à 4 bits pour les poids du modèle, ce qui permet de compresser les modèles volumineux tout en conservant une précision raisonnable par rapport aux méthodes de quantification traditionnelles.
Distribution Normale: Contrairement à d'autres types de quantification, NF4 construit des intervalles où chaque bit a une zone égale sous une distribution normale standard, ce qui améliore la représentation des données normalement distribuées.
Calibration sans erreur: La quantification NF4 est calibrée directement au moment du chargement, ce qui facilite son utilisation sans nécessiter d'étapes supplémentaires de calibration.
Performance améliorée: Les modèles utilisant NF4 peuvent offrir des performances supérieures en termes de vitesse d'inférence et d'efficacité mémoire, rendant ces modèles accessibles même sur du matériel moins puissant.

Flux + NF4 = 🏎️

En travaillant sur l’intégration de Flux dans l’interface Forge UI, lllyasviel a cherché à optimiser la vitesse de Flux et a mis au point cette version NF4. Le résultat s’est révélé à la hauteur de ses espérances, particulièrement pour les GPU avec 12Gb ou moins.

Principaux avantages de Flux NF4

Optimisation des performances : Le modèle NF4 offre des vitesses d'inférence améliorées allant de 1,3x à 4x par rapport au format FP8, selon la configuration matérielle et logicielle utilisée.
Guidance CFG distillée : Le modèle inclut des recommandations pour les paramètres de guidance, avec un réglage conseillé à 1 pour le CFG et à 3,5 pour la guidance CFG distillée.

Qualité d'image

Bien que le modèle NF4 soit optimisé pour la vitesse et l'efficacité, des tests ont montré qu'il peut souffrir d'une perte de qualité par rapport à des modèles comme GGUF-Q8 et FP16. En effet, certaines comparaisons indiquent que le modèle GGUF-Q8 offre une qualité d'image presque identique au modèle FP16 tout en nécessitant moins de mémoire vidéo (VRAM)

Compatibilité des GPU

NF4 requiert une version de CUDA supérieure ou égale à la 11.7. Cette version est disponible sur des cartes graphiques modernes comme les séries NVIDIA RTX 3XXX/4XXX.

Les utilisateurs avec des GPU plus anciens ne pourront cependant pas utiliser Flux NF4 et doivent donc opter pour d’autres formats comme Flux GGUF.

Comparaison avec la version GGUF

Flux NF4 et GGUF-Q8 présentent des différences notables :

Vitesse : NF4 est sensiblement plus rapide que GGUF pour les configurations disposant de 12GB de VRAM ou moins. Il se montre également un peu plus rapide avec des GPU plus puissant, mais la différence est alors moins sensible.