Dernière mise à jour : 08/08/2025 "> Dernière mise à jour : 08/08/2025 "> Dernière mise à jour : 08/08/2025 ">

<div style="text-align: right; font-size: 75%; margin-top: -40px; margin-right: 1ex" class="text-secondary-600 text-right small"><em>
Dernière mise à jour : 08/08/2025
</em></div>

Qu’est-ce que le format GGUF ?

Le format GGUF est une nouvelle solution de formatage binaire pour les modèles d'intelligence artificielle, spécialement conçu pour accélérer le chargement, offrir de la flexibilité et regrouper toutes les informations d’un modèle dans un fichier unique. Ce format, introduit en août 2023, est une évolution des formats GGML et GGJT. Il est particulièrement adapté aux modèles utilisant llama.cpp, dont le modèle de génération d’image Flux.

Pourquoi GGUF ?

Le format GGUF a été créé pour répondre aux besoins croissants de simplification et d'efficacité dans l'usage des modèles d'IA. L’idée est de rendre le processus de chargement des modèles plus rapide et de faciliter leur utilisation sur différentes plateformes, notamment celles qui disposent de ressources limitées. Le tout en évitant les complications liées à l'utilisation de multiples fichiers.

Quels sont ses avantages ?

Chargement rapide : La structure interne de GGUF optimise le temps de chargement des modèles, ce qui est essentiel pour des applications interactives nécessitant des réponses rapides.
Flexibilité : Contrairement aux formats précédents, GGUF utilise une structure de paires clé-valeur pour stocker des hyperparamètres et d’autres informations. Cela permet d’ajouter de nouvelles données au format sans compromettre la compatibilité avec les modèles existants.
Déploiement simplifié : Avec GGUF, tout est encapsulé dans un seul fichier, y compris la configuration du modèle et le vocabulaire du tokenizer. Cela facilite la distribution et réduit les risques d’erreurs de fichiers manquants ou mal organisés.
Compatibilité : Le format GGUF est compatible avec différentes bibliothèques, notamment llama.cpp, ce qui permet une intégration fluide des modèles FLUX.1 dans des environnements variés.

Flux + GGUF = 🚀

La communauté open source constitué autours de Flux a pu adopter GGUF pour les modèles Flux [dev] et [schnell] afin d’offrir un chargement et une inférence efficaces, en particulier sur des systèmes aux ressources limitées comme les ordinateurs personnels sans GPU.

Support de la quantification

GGUF permet l’utilisation de différentes versions quantifiées du modèle, offrant un compromis entre taille du modèle, vitesse d’inférence et qualité des résultats.

F16 : Qualité maximale, idéale pour les applications où la précision est prioritaire.
Q8_0 : Bonne qualité avec une optimisation modérée, adaptée aux contraintes de ressources.
Q4_0 à Q5_0 : Versions optimisées pour la vitesse, idéales pour les applications interactives ou les appareils avec des contraintes strictes.

Inférence efficace

Grâce à l’optimisation de la mémoire et de la vitesse, GGUF permet à Flux de s'exécuter même sur du matériel grand public, sans nécessiter de GPU surpuissant.

Utiliser Flux GGUF

Vous pouvez télécharger les versions quantifiées GGUF des modèles FLUX.1 à partir des dépôts Hugging Face suivants :

**FLUX.1-dev-gguf** Il s'agit d'une conversion GGUF directe du modèle black-forest-labs/FLUX.1-dev.

**FLUX.1-schnell-gguf** Il s'agit d'une conversion GGUF directe du modèle black-forest-labs/FLUX.1-schnell.

**FLUX.1-Kontext-dev-GGUF** La conversion GGUF du modèle contextuelle Flux.1 Kontext [dev], capable de comprendre et modifier les images existantes et d’interpreter les instructions textuelles.

**FLUX.1-Krea-dev-GGUF** Conversion GGUF par QuantStack du modèle FLUX.1 Krea Dev - un version optimisée pour le réalisme et l’ésthétique de FLUX.1 Dev par Krea AI.