stable-diffusion-2-1
Este es un modelo de generación de imágenes basado en texto que puede ser utilizado para crear y modificar imágenes basándose en indicaciones textuales. Es un Modelo de Difusión Latente que usa un codificador de texto preentrenado fijo (OpenCLIP-ViT/H). Ha sido finamente ajustado a partir de stable-diffusion-2 (768-v-ema.ckpt) con 55k pasos adicionales en el mismo conjunto de datos (con punsafe=0.1), y luego finamente ajustado por otros 155k pasos extra con punsafe=0.98.
Como usar
Usando la librería Diffusers para ejecutar Stable Diffusion 2 de manera sencilla y eficiente.
pip install diffusers transformers accelerate scipy safetensors
Ejecutando el pipeline (si no cambias el planificador, se ejecutará con el DDIM predeterminado, en este ejemplo lo cambiamos a DPMSolverMultistepScheduler):
import torch
from diffusers import StableDiffusionPipeline, DPMSolverMultistepScheduler
model_id = "stabilityai/stable-diffusion-2-1"
# Usar aquí el planificador DPMSolverMultistepScheduler (DPM-Solver++)
pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16)
pipe.scheduler = DPMSolverMultistepScheduler.from_config(pipe.scheduler.config)
pipe = pipe.to("cuda")
prompt = "a photo of an astronaut riding a horse on mars"
image = pipe(prompt).images[0]
image.save("astronaut_rides_horse.png")
Notas:
- Aunque no es una dependencia, recomendamos altamente instalar xformers para una atención eficiente en memoria (mejor rendimiento).
- Si tienes poca memoria disponible en la GPU, asegúrate de agregar
pipe.enable_attention_slicing()
después de enviarlo a cuda para usar menos VRAM (a costa de la velocidad).
Funcionalidades
- Generación de imágenes basada en texto
- Modelo de Difusión Latente
- Puede crear y modificar imágenes basándose en indicaciones textuales
- Uso de codificador de texto OpenCLIP-ViT/H
- Compatibilidad con repositorio stablediffusion
Casos de uso
- Despliegue seguro de modelos que tienen el potencial de generar contenido dañino.
- Exploración y comprensión de las limitaciones y sesgos de los modelos generativos.
- Generación de obras de arte y uso en procesos de diseño y otros procesos artísticos.
- Aplicaciones en herramientas educativas o creativas.
- Investigación sobre modelos generativos.