stable-diffusion-2-1

stabilityai

Texto a imagen

Este es un modelo de generación de imágenes basado en texto que puede ser utilizado para crear y modificar imágenes basándose en indicaciones textuales. Es un Modelo de Difusión Latente que usa un codificador de texto preentrenado fijo (OpenCLIP-ViT/H). Ha sido finamente ajustado a partir de stable-diffusion-2 (768-v-ema.ckpt) con 55k pasos adicionales en el mismo conjunto de datos (con punsafe=0.1), y luego finamente ajustado por otros 155k pasos extra con punsafe=0.98.

Como usar

Usando la librería Diffusers para ejecutar Stable Diffusion 2 de manera sencilla y eficiente.
pip install diffusers transformers accelerate scipy safetensors

Ejecutando el pipeline (si no cambias el planificador, se ejecutará con el DDIM predeterminado, en este ejemplo lo cambiamos a DPMSolverMultistepScheduler):
import torch
from diffusers import StableDiffusionPipeline, DPMSolverMultistepScheduler

model_id = "stabilityai/stable-diffusion-2-1"

# Usar aquí el planificador DPMSolverMultistepScheduler (DPM-Solver++)
pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16)
pipe.scheduler = DPMSolverMultistepScheduler.from_config(pipe.scheduler.config)
pipe = pipe.to("cuda")

prompt = "a photo of an astronaut riding a horse on mars"
image = pipe(prompt).images[0]

image.save("astronaut_rides_horse.png")

Notas:

Aunque no es una dependencia, recomendamos altamente instalar xformers para una atención eficiente en memoria (mejor rendimiento).
Si tienes poca memoria disponible en la GPU, asegúrate de agregar pipe.enable_attention_slicing() después de enviarlo a cuda para usar menos VRAM (a costa de la velocidad).

Funcionalidades

Generación de imágenes basada en texto
Modelo de Difusión Latente
Puede crear y modificar imágenes basándose en indicaciones textuales
Uso de codificador de texto OpenCLIP-ViT/H
Compatibilidad con repositorio stablediffusion

Casos de uso

Despliegue seguro de modelos que tienen el potencial de generar contenido dañino.
Exploración y comprensión de las limitaciones y sesgos de los modelos generativos.
Generación de obras de arte y uso en procesos de diseño y otros procesos artísticos.
Aplicaciones en herramientas educativas o creativas.
Investigación sobre modelos generativos.