I2VGen-XL

ali-vilab

Texto a video

VGen es una base de código de síntesis de vídeo de código abierto desarrollada por el Tongyi Lab del Grupo Alibaba, que cuenta con modelos generativos de vídeo de última generación. El modelo I2VGen-XL ofrece una síntesis de imagen a vídeo de alta calidad a través de modelos de difusión en cascada. Puede generar vídeos de alta calidad a partir de texto, imágenes, movimiento deseado, sujetos deseados e incluso señales de retroalimentación. Además, ofrece diversas herramientas de generación de vídeo como visualización, muestreo, entrenamiento, inferencia, entrenamiento conjunto utilizando imágenes y vídeos, aceleración y más.

Como usar

Instalación
conda create -n vgen python=3.8
conda activate vgen
pip install torch==1.12.0+cu113 torchvision==0.13.0+cu113 torchaudio==0.12.0 --extra-index-url https://download.pytorch.org/whl/cu113
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

Ejecución del modelo I2VGen-XL
!pip install modelscope
from modelscope.hub.snapshot_download import snapshot_download
model_dir = snapshot_download('damo/I2VGen-XL', cache_dir='models/', revision='v1.0.0')

Ejecuta el siguiente comando para la inferencia:
python inference.py --cfg configs/i2vgen_xl_infer.yaml

Integración del I2VGenXL con 🧨 diffusers
import torch
from diffusers import I2VGenXLPipeline
from diffusers.utils import load_image, export_to_gif

repo_id = "ali-vilab/i2vgen-xl"
pipeline = I2VGenXLPipeline.from_pretrained(repo_id, torch_dtype=torch.float16, variant="fp16").to("cuda")

image_url = "https://github.com/ali-vilab/i2vgen-xl/blob/main/data/test_images/img_0009.png?download=true"
image = load_image(image_url).convert("RGB")
prompt = "Papeles flotaban en el aire sobre una mesa en la biblioteca"

generator = torch.manual_seed(8888)
frames = pipeline(
prompt=prompt,
image=image,
generator=generator
).frames[0]

print(export_to_gif(frames))

Funcionalidades

Expansibilidad, permitiendo una fácil gestión de tus propios experimentos.
Integridad, abarcando todos los componentes comunes para la generación de vídeo.
Excelente rendimiento, con poderosos modelos preentrenados en múltiples tareas.

Casos de uso

Síntesis de vídeo a partir de texto.
Generación de vídeos de alta calidad a partir de imágenes.
Personalización de vídeos con movimiento y sujetos deseados.
Uso de señales de retroalimentación humana para instruir modelos de difusión de vídeo.