CogVideoX-2B
CogVideoX es una versión de código abierto del modelo de generación de video originario de QingYing. Este modelo de nivel de entrada equilibra la compatibilidad y tiene un bajo costo para la ejecución y el desarrollo secundario. Está diseñado para la generación de video con una calidad de generación aceptable y efectos visuales decentes. Soporta una variedad de precisiones de inferencia e incluye optimizaciones para reducir el uso de VRAM, lo que permite su funcionamiento en GPUs con menor capacidad de memoria.
Como usar
Este modelo admite la implementación utilizando la biblioteca de difusores de huggingface. Puedes desplegarlo siguiendo estos pasos. Se recomienda visitar nuestro GitHub y consultar las optimizaciones y conversiones relevantes del prompt para obtener una mejor experiencia.
# Instalación de dependencias requeridas
pip install --upgrade transformers accelerate diffusers imageio-ffmpeg
import torch
from diffusers import CogVideoXPipeline
from diffusers.utils import export_to_video
prompt = "Un panda, vestido con una pequeña chaqueta roja y un diminuto sombrero, se sienta en un taburete de madera en un sereno bosque de bambú. Las peludas patas del panda rasguean una diminuta guitarra acústica, produciendo suaves melodías. Cerca de allí, algunos otros pandas se reúnen, observando con curiosidad y algunos aplaudiendo al ritmo. La luz del sol se filtra a través del alto bambú, proyectando un suave resplandor en la escena. La cara del panda muestra concentración y alegría mientras toca. El fondo incluye un pequeño arroyo y un vibrante follaje verde, mejorando la atmósfera pacífica y mágica de esta única actuación musical."
pipe = CogVideoXPipeline.from_pretrained(
"THUDM/CogVideoX-2b",
torch_dtype=torch.float16
)
pipe.enable_model_cpu_offload()
pipe.enable_sequential_cpu_offload()
pipe.vae.enable_slicing()
pipe.vae.enable_tiling()
video = pipe(
prompt=prompt,
num_videos_per_prompt=1,
num_inference_steps=50,
num_frames=49,
guidance_scale=6,
generator=torch.Generator(device="cuda").manual_seed(42),
).frames[0]
export_to_video(video, "output.mp4", fps=8)
Funcionalidades
- Modelo de generación de video de código abierto
- Varios modos de precisión de inferencia (FP16, BF16, FP32, FP8, INT8)
- Consumo de VRAM optimizado para GPUs de una o varias unidades
- Longitud del límite del prompt: 226 tokens
- Longitud del video: 6 segundos
- Velocidad de fotogramas: 8 fotogramas por segundo
- Resolución del video: 720 x 480
- Codificación posicional: 3d_sincos_pos_embed, 3d_rope_pos_embed
- Metodologías de optimización disponibles
- Compatibilidad con PytorchAO y Optimum-quanto para cuantización
Casos de uso
- Generación de pequeños clips de video con base en descripciones textuales
- Creación de contenidos visuales para proyectos creativos y artísticos
- Desarrollo de demos de productos que requieran generación de video
- Producción de visuales para anuncios y campañas publicitarias