microsoft/xclip-base-patch32

microsoft

Clasificación de video

X-CLIP es una extensión mínima de CLIP para la comprensión general de video-lenguaje. El modelo está entrenado de manera contrastiva en pares de (video, texto). Esto permite usar el modelo para tareas como clasificación de video zero-shot, few-shot o totalmente supervisada, y recuperación de video-texto.

Como usar

Para ejemplos de código, nos referimos a la documentación. Durante la validación, se redimensiona el borde más corto de cada cuadro, después se realiza un recorte centrado a una resolución de tamaño fijo (como 224x224). Luego, los cuadros se normalizan en los canales RGB con la media y la desviación estándar de ImageNet.

Funcionalidades

Extensión mínima de CLIP para video-lenguaje
Entrenamiento supervisado completo en Kinetics-400
Resolucción de video en 224x224
Entrenado usando 8 cuadros por video
Comprensión de video-lenguaje general
Clasificación de video y recuperación de video-texto
Optado para zero-shot, few-shot y supervisión completa

Casos de uso

Determinación de qué tan bien empareja el texto con un video dado
Clasificación de video zero-shot
Clasificación de video few-shot
Clasificación de video totalmente supervisada
Recuperación de video-texto