microsoft/xclip-base-patch32
microsoft
Clasificación de video
X-CLIP es una extensión mínima de CLIP para la comprensión general de video-lenguaje. El modelo está entrenado de manera contrastiva en pares de (video, texto). Esto permite usar el modelo para tareas como clasificación de video zero-shot, few-shot o totalmente supervisada, y recuperación de video-texto.
Como usar
Para ejemplos de código, nos referimos a la documentación. Durante la validación, se redimensiona el borde más corto de cada cuadro, después se realiza un recorte centrado a una resolución de tamaño fijo (como 224x224). Luego, los cuadros se normalizan en los canales RGB con la media y la desviación estándar de ImageNet.
Funcionalidades
- Extensión mínima de CLIP para video-lenguaje
- Entrenamiento supervisado completo en Kinetics-400
- Resolucción de video en 224x224
- Entrenado usando 8 cuadros por video
- Comprensión de video-lenguaje general
- Clasificación de video y recuperación de video-texto
- Optado para zero-shot, few-shot y supervisión completa
Casos de uso
- Determinación de qué tan bien empareja el texto con un video dado
- Clasificación de video zero-shot
- Clasificación de video few-shot
- Clasificación de video totalmente supervisada
- Recuperación de video-texto