Stable Diffusion 3 Medium

v2ray

Texto a imagen

Stable Diffusion 3 Medium es un modelo de Transformador de Difusión Multimodal (MMDiT) de texto a imagen que presenta un rendimiento muy mejorado en la calidad de las imágenes, tipografía, comprensión de indicaciones complejas y eficiencia de recursos. Este modelo puede generar imágenes basadas en indicaciones de texto y utiliza tres codificadores de texto fijos y preentrenados (OpenCLIP-ViT/G, CLIP-ViT/L y T5-xxl). Está licenciado bajo la Licencia de Comunidad de Investigación No Comercial de Stability AI.

Como usar

Asegúrese de actualizar a la última versión de diffusers: pip install -U diffusers. Y luego puede ejecutar:
import torch
from diffusers import StableDiffusion3Pipeline

pipe = StableDiffusion3Pipeline.from_pretrained("stabilityai/stable-diffusion-3-medium-diffusers", torch_dtype=torch.float16)
pipe = pipe.to("cuda")

image = pipe(
"Un gato sosteniendo un cartel que dice 'hola mundo'",
negative_prompt="",
num_inference_steps=28,
guidance_scale=7.0,
).images[0]
image

Consulte la documentación para más detalles sobre la optimización y el soporte de imagen a imagen.

Funcionalidades

Modelo de Transformador de Difusión Multimodal (MMDiT) de texto a imagen
Calidad mejorada de la imagen y tipografía
Comprensión de indicaciones complejas
Eficiencia en el uso de recursos
Uso de tres codificadores de texto fijos y preentrenados

Casos de uso

Generación de obras de arte y diseño
Aplicaciones en herramientas educativas o creativas
Investigación sobre modelos generativos, incluyendo la comprensión de las limitaciones de los modelos generativos