Stable Diffusion 3 Medium
Stable Diffusion 3 Medium es un modelo de Transformador de Difusión Multimodal (MMDiT) de texto a imagen que presenta un rendimiento muy mejorado en la calidad de las imágenes, tipografía, comprensión de indicaciones complejas y eficiencia de recursos. Este modelo puede generar imágenes basadas en indicaciones de texto y utiliza tres codificadores de texto fijos y preentrenados (OpenCLIP-ViT/G, CLIP-ViT/L y T5-xxl). Está licenciado bajo la Licencia de Comunidad de Investigación No Comercial de Stability AI.
Como usar
Asegúrese de actualizar a la última versión de diffusers: pip install -U diffusers
. Y luego puede ejecutar:
import torch
from diffusers import StableDiffusion3Pipeline
pipe = StableDiffusion3Pipeline.from_pretrained("stabilityai/stable-diffusion-3-medium-diffusers", torch_dtype=torch.float16)
pipe = pipe.to("cuda")
image = pipe(
"Un gato sosteniendo un cartel que dice 'hola mundo'",
negative_prompt="",
num_inference_steps=28,
guidance_scale=7.0,
).images[0]
image
Consulte la documentación para más detalles sobre la optimización y el soporte de imagen a imagen.
Funcionalidades
- Modelo de Transformador de Difusión Multimodal (MMDiT) de texto a imagen
- Calidad mejorada de la imagen y tipografía
- Comprensión de indicaciones complejas
- Eficiencia en el uso de recursos
- Uso de tres codificadores de texto fijos y preentrenados
Casos de uso
- Generación de obras de arte y diseño
- Aplicaciones en herramientas educativas o creativas
- Investigación sobre modelos generativos, incluyendo la comprensión de las limitaciones de los modelos generativos