microsoft/xclip-large-patch14-16-frames
microsoft
Clasificación de video
X-CLIP es una extensión mínima de CLIP para la comprensión general de video-lenguaje. El modelo se entrena de manera contrastiva en pares (video, texto). Esto permite que el modelo se utilice para tareas como clasificación de video sin ajustes, con pocos ajustes o completamente supervisada y recuperación de video-texto.
Como usar
Para ejemplos de código, nos remitimos a la documentación.
Funcionalidades
- CLasificación de video sin ajustes (zero-shot)
- Clasiicación de video con pocos ajustes (few-shot)
- Clasificación de video completamente supervisada
- Recuperación de video-texto
Casos de uso
- Determinar cómo de bien se corresponde un texto con un video dado.
- Clasificación de videos utilizando versiones ajustadas del modelo.
- Recuperar videos basados en descripciones textuales.