Las modelos, también conocidas como checkpoints, son archivos creados por Stable Diffusion utilizando imágenes específicas.

Estos modelos pueden adaptarse a un estilo, género o tema concretos, pero también existen modelos genéricos capaces de generar todo tipo de imágenes. Lo que los modelos pueden generar depende, por tanto, de los datos utilizados para entrenarlos: las imágenes y los textos asociados a ellas determinarán lo que el modelo puede representar y las palabras clave que reconocerá.

Los distintos tipos de modelos

Modelos básicos

Estos son los principales modelos utilizados por Stable Diffusion, creados a partir de un gran número de imágenes y que constituyen la base de nuestra capacidad de creación de imágenes.

Como estas modelos requieren una gran cantidad de imágenes para su creación, no existen muchas diferentes, siendo las más conocidas las publicadas por la empresa creadora de Stable Diffusion: Stablity AI - de hecho, es a estas modelos a las que se suele hacer referencia cuando se habla de Stable Diffusion.

Actualmente existen 6 modelos básicos: 1.4, 1.5, 2.0 y 2.1, SDXL, SDXL Turbo y 3. Entraremos en más detalles más adelante en este artículo, pero debes saber que hay diferencias importantes entre cada generación.

Modelos afinados (finetuned)

¿Qué es el fine-tuning?

El fine-tuning es una técnica común en el aprendizaje automático que consiste en tomar un modelo que ya ha sido entrenado en un gran conjunto de datos y entrenarlo un poco más en un conjunto de datos específico.

Por tanto, un modelo ajustado estará "sesgado" hacia la generación de imágenes similares a las utilizadas para este entrenamiento, al tiempo que conserva la versatilidad del modelo original.

¿Por qué se crean?

Los modelos básicos de Stable Diffusion son excelentes, pero no sirven para todo.

Por ejemplo, pueden generar imágenes de estilo manga o anime con la palabra clave "anime" en el prompt. Pero es más difícil utilizarlas eficazmente para los subgéneros del anime (chibbi, shonen, kodomo). En lugar de perder tiempo ajustando complejos prompts para casos tan específicos, puedes afinar la modelo con imágenes para estos subgéneros.

Del mismo modo, los modelos básicos resultan familiares para muchas celebridades y personajes estadounidenses o mundialmente conocidos, como Ryan Reynolds o Harry Potter, pero suelen ser menos eficaces para celebridades más locales, como Buenafuente, o ficciones menos populares. Se puede recurrir al fine)tuning fina para "enseñarles" quiénes son estos personajes.

¿Cómo se crean?

Existen cuatro métodos principales de ajuste: formación adicional, Dreambooth, inversión de texto y LoRAs, todos ellos basados en un modelo básico de Stable Diffusion como 1.5 o SDXL.