runwayml/stable-diffusion-v1-5
runwayml
Texto a imagen
Stable Diffusion es un modelo de difusión de texto a imagen latente capaz de generar imágenes fotorrealistas a partir de cualquier entrada de texto. El checkpoint Stable-Diffusion-v1-5 se inicializó con los pesos del checkpoint Stable-Diffusion-v1-2 y luego se afinó en 595k pasos a una resolución de 512x512 en 'laion-aesthetics v2 5+' y con un 10% de reducción en la condición de texto para mejorar el muestreo de guía sin clasificador. Puedes usar esto tanto con la biblioteca 🧨Diffusers como con el repositorio de RunwayML en GitHub.
Como usar
from diffusers import StableDiffusionPipeline
import torch
model_id = 'runwayml/stable-diffusion-v1-5'
pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16)
pipe = pipe.to('cuda')
prompt = 'una foto de un astronauta montando un caballo en Marte'
image = pipe(prompt).images[0]
image.save('astronauta_monta_caballo.png')
Funcionalidades
- Generación de imágenes fotorrealistas a partir de descripciones textuales
- Modelo de difusión latente
- Entrenado en 595k pasos a 512x512 de resolución
- Utiliza el codificador de texto preentrenado CLIP ViT-L/14
- Funciona con las bibliotecas Diffusers y RunwayML GitHub
Casos de uso
- Propósitos de investigación
- Despliegue seguro de modelos con potencial para generar contenido dañino
- Exploración y entendimiento de las limitaciones y sesgos de los modelos generativos
- Generación de obras de arte y uso en procesos de diseño artístico
- Aplicaciones en herramientas educativas o creativas