CogVideoX-2B

THUDM

Texto a video

CogVideoX es una versión de código abierto del modelo de generación de video originario de QingYing. Este modelo de nivel de entrada equilibra la compatibilidad y tiene un bajo costo para la ejecución y el desarrollo secundario. Está diseñado para la generación de video con una calidad de generación aceptable y efectos visuales decentes. Soporta una variedad de precisiones de inferencia e incluye optimizaciones para reducir el uso de VRAM, lo que permite su funcionamiento en GPUs con menor capacidad de memoria.

Como usar

Este modelo admite la implementación utilizando la biblioteca de difusores de huggingface. Puedes desplegarlo siguiendo estos pasos. Se recomienda visitar nuestro GitHub y consultar las optimizaciones y conversiones relevantes del prompt para obtener una mejor experiencia.
# Instalación de dependencias requeridas
pip install --upgrade transformers accelerate diffusers imageio-ffmpeg

import torch
from diffusers import CogVideoXPipeline
from diffusers.utils import export_to_video

prompt = "Un panda, vestido con una pequeña chaqueta roja y un diminuto sombrero, se sienta en un taburete de madera en un sereno bosque de bambú. Las peludas patas del panda rasguean una diminuta guitarra acústica, produciendo suaves melodías. Cerca de allí, algunos otros pandas se reúnen, observando con curiosidad y algunos aplaudiendo al ritmo. La luz del sol se filtra a través del alto bambú, proyectando un suave resplandor en la escena. La cara del panda muestra concentración y alegría mientras toca. El fondo incluye un pequeño arroyo y un vibrante follaje verde, mejorando la atmósfera pacífica y mágica de esta única actuación musical."

pipe = CogVideoXPipeline.from_pretrained(
    "THUDM/CogVideoX-2b",
    torch_dtype=torch.float16
)

pipe.enable_model_cpu_offload()
pipe.enable_sequential_cpu_offload()
pipe.vae.enable_slicing()
pipe.vae.enable_tiling()

video = pipe(
    prompt=prompt,
    num_videos_per_prompt=1,
    num_inference_steps=50,
    num_frames=49,
    guidance_scale=6,
    generator=torch.Generator(device="cuda").manual_seed(42),
).frames[0]

export_to_video(video, "output.mp4", fps=8)

Funcionalidades

Modelo de generación de video de código abierto
Varios modos de precisión de inferencia (FP16, BF16, FP32, FP8, INT8)
Consumo de VRAM optimizado para GPUs de una o varias unidades
Longitud del límite del prompt: 226 tokens
Longitud del video: 6 segundos
Velocidad de fotogramas: 8 fotogramas por segundo
Resolución del video: 720 x 480
Codificación posicional: 3d_sincos_pos_embed, 3d_rope_pos_embed
Metodologías de optimización disponibles
Compatibilidad con PytorchAO y Optimum-quanto para cuantización

Casos de uso

Generación de pequeños clips de video con base en descripciones textuales
Creación de contenidos visuales para proyectos creativos y artísticos
Desarrollo de demos de productos que requieran generación de video
Producción de visuales para anuncios y campañas publicitarias