runwayml/stable-diffusion-v1-5

runwayml

Texto a imagen

Stable Diffusion es un modelo de difusión de texto a imagen latente capaz de generar imágenes fotorrealistas a partir de cualquier entrada de texto. El checkpoint Stable-Diffusion-v1-5 se inicializó con los pesos del checkpoint Stable-Diffusion-v1-2 y luego se afinó en 595k pasos a una resolución de 512x512 en 'laion-aesthetics v2 5+' y con un 10% de reducción en la condición de texto para mejorar el muestreo de guía sin clasificador. Puedes usar esto tanto con la biblioteca 🧨Diffusers como con el repositorio de RunwayML en GitHub.

Como usar

from diffusers import StableDiffusionPipeline
import torch

model_id = 'runwayml/stable-diffusion-v1-5'
pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16)
pipe = pipe.to('cuda')

prompt = 'una foto de un astronauta montando un caballo en Marte'
image = pipe(prompt).images[0]
    
image.save('astronauta_monta_caballo.png')

Funcionalidades

Generación de imágenes fotorrealistas a partir de descripciones textuales
Modelo de difusión latente
Entrenado en 595k pasos a 512x512 de resolución
Utiliza el codificador de texto preentrenado CLIP ViT-L/14
Funciona con las bibliotecas Diffusers y RunwayML GitHub

Casos de uso

Propósitos de investigación
Despliegue seguro de modelos con potencial para generar contenido dañino
Exploración y entendimiento de las limitaciones y sesgos de los modelos generativos
Generación de obras de arte y uso en procesos de diseño artístico
Aplicaciones en herramientas educativas o creativas