¿Qué es el formato GGUF?

El formato GGUF es una nueva solución de formato binario para modelos de inteligencia artificial, especialmente diseñada para acelerar la carga, ofrecer flexibilidad y agrupar toda la información de un modelo en un único archivo. Este formato, introducido en agosto de 2023, es una evolución de los formatos GGML y GGJT. Está especialmente indicado para los modelos que utilizan llama.cpp, incluido el modelo de generación de imágenes Flux.

¿Por qué GGUF?

El formato GGUF se creó para satisfacer la creciente necesidad de simplificación y eficiencia en el uso de modelos de IA. La idea es agilizar el proceso de carga de los modelos y facilitar su uso en distintas plataformas, sobre todo en aquellas con recursos limitados. Todo ello evitando las complicaciones asociadas al uso de múltiples archivos.

¿Cuáles son las ventajas?

Carga rápida: La estructura interna de GGUF optimiza el tiempo de carga de los modelos, lo que resulta esencial para las aplicaciones interactivas que requieren respuestas rápidas.
Flexibilidad: A diferencia de los formatos anteriores, GGUF utiliza una estructura de pares clave-valor para almacenar hiperparámetros y otra información. Esto permite añadir nuevos datos al formato sin comprometer la compatibilidad con los modelos existentes.
Despliegue simplificado: Con GGUF, todo se encapsula en un único archivo, incluida la configuración del modelo y el vocabulario del tokenizador. Esto facilita la distribución y reduce el riesgo de errores debidos a archivos ausentes o mal organizados.
Compatibilidad: El formato GGUF es compatible con una serie de bibliotecas, incluida llama.cpp, lo que permite integrar sin problemas los modelos FLUX.1 en diversos entornos.

Flux + GGUF = 🚀

La comunidad de código abierto en torno a Flux ha sido capaz de adoptar GGUF para los modelos Flux [dev] y [schnell] con el fin de proporcionar una carga e inferencia eficientes, especialmente en sistemas con recursos limitados como los PC sin GPU.

Soporte de cuantificación

GGUF permite utilizar diferentes versiones cuantificadas del modelo, ofreciendo un compromiso entre el tamaño del modelo, la velocidad de inferencia y la calidad de los resultados.

F16: Máxima calidad, ideal para aplicaciones en las que la precisión es prioritaria.
Q8_0: Buena calidad con optimización moderada, adaptada a las limitaciones de recursos.
Q4_0 a Q5_0: Versiones optimizadas para la velocidad, ideales para aplicaciones interactivas o dispositivos con restricciones estrictas.

Inferencia eficiente

Al optimizar la memoria y la velocidad, GGUF permite que Flux funcione incluso en hardware de consumo, sin necesidad de una GPU de alta potencia.

Utilizar Flux GGUF

Puedes descargar versiones cuantificadas GGUF de los modelos FLUX.1 de los siguientes repositorios de Hugging Face:

FLUX.1-dev-gguf

Esta es una conversión directa a GGUF del modelo black-forest-labs/FLUX.1-dev.

FLUX.1-schnell-gguf

Esta es una conversión directa a GGUF del modelo black-forest-labs/FLUX.1-schnell.

Los archivos del modelo pueden ser utilizados con el nodo personalizado ComfyUI-GGUF u otras interfaces como Forge. Coloca los archivos del modelo en el directorio del modelo como con cualquier otro punto de control.