CompVis/ldm-text2im-large-256

CompVis
Texto a imagen

Síntesis de imágenes de alta resolución con modelos de difusión latente (LDMs). La descomposición del proceso de formación de imágenes en la aplicación secuencial de autoencoders de eliminación de ruido, permite a los modelos de difusión (DMs) lograr resultados de síntesis de última generación en datos de imágenes y más allá. Además, su formulación permite un mecanismo de guía para controlar el proceso de generación de imágenes sin necesidad de reentrenar. Para habilitar el entrenamiento de DMs con recursos computacionales limitados manteniendo su calidad y flexibilidad, los aplicamos en el espacio latente de autoencoders preentrenados poderosos. Esto permite alcanzar un punto casi óptimo entre la reducción de complejidad y la preservación de detalles, mejorando significativamente la fidelidad visual. Al introducir capas de atención cruzada en la arquitectura del modelo, convertimos a los modelos de difusión en generadores poderosos y flexibles para entradas de condicionamiento general tales como texto o cuadros delimitadores, haciendo posible la síntesis de alta resolución de manera convolutiva. Nuestros modelos de difusión latente (LDMs) logran un nuevo estado del arte para la reconstrucción de imágenes y un rendimiento muy competitivo en varias tareas, incluyendo la generación incondicional de imágenes, síntesis de escenas semánticas y super-resolución, reduciendo significativamente los requerimientos computacionales en comparación con los DMs basados en píxeles.

Como usar

# !pip install diffusers transformers
from diffusers import DiffusionPipeline

model_id = "CompVis/ldm-text2im-large-256"

# cargar modelo y scheduler
ldm = DiffusionPipeline.from_pretrained(model_id)

# ejecutar pipeline en inferencia (samplear ruido aleatorio y eliminar ruido)
prompt = "Una pintura de una ardilla comiendo una hamburguesa"
images = ldm([prompt], num_inference_steps=50, eta=0.3, guidance_scale=6).images

# guardar imágenes
for idx, image in enumerate(images):
    image.save(f"squirrel-{idx}.png")

Funcionalidades

Síntesis de imágenes de alta resolución.
Reducción de requerimientos computacionales.
Generación de imágenes guiada sin necesidad de reentrenamiento.
Capas de atención cruzada para entradas de condicionamiento general.
Rendimiento competitivo en generación incondicional de imágenes, síntesis de escenas semánticas y super-resolución.

Casos de uso

Reconstrucción de imágenes.
Generación incondicional de imágenes.
Síntesis de escenas semánticas.
Super-resolución.

Recibe las últimas noticias y actualizaciones sobre el mundo de IA directamente en tu bandeja de entrada.