facebook/deit-tiny-patch16-224
Transformador eficiente en datos (DeiT, por sus siglas en inglés) preentrenado y afinado en ImageNet-1k (1 millón de imágenes, 1,000 clases) a una resolución de 224x224. Este modelo es un Vision Transformer (ViT) más eficiente en términos de entrenamiento. ViT es un modelo de codificador transformador preentrenado y afinado en una colección grande de imágenes de manera supervisada, concretamente en ImageNet-1k, a una resolución de 224x224 píxeles.
Como usar
Dado que este modelo es un ViT más eficientemente entrenado, se puede integrar en ViTModel o ViTForImageClassification. El modelo espera que los datos sean preparados usando DeiTFeatureExtractor. Aquí se utiliza AutoFeatureExtractor, que usará automáticamente el extractor de características adecuado dado el nombre del modelo.
from transformers import AutoFeatureExtractor, ViTForImageClassification
from PIL import Image
import requests
url = 'http://images.cocodataset.org/val2017/000000039769.jpg'
image = Image.open(requests.get(url, stream=True).raw)
feature_extractor = AutoFeatureExtractor.from_pretrained('facebook/deit-tiny-patch16-224')
model = ViTForImageClassification.from_pretrained('facebook/deit-tiny-patch16-224')
inputs = feature_extractor(images=image, return_tensors="pt")
outputs = model(**inputs)
logits = outputs.logits
predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[predicted_class_idx])
Funcionalidades
- Modelo Vision Transformer (ViT) eficiente en el uso de datos
- Entrenado y afinado en ImageNet-1k
- Admite PyTorch (soporte para TensorFlow y JAX/FLAX próximamente)
- Clasificación de imágenes a partir de parches de tamaño fijo (16x16)
- Resuelve tareas de clasificación de imágenes
- Capacidad de extraer características útiles para tareas posteriores
Casos de uso
- Clasificación de imágenes crudas
- Utilización con conjuntos de datos etiquetados para entrenar un clasificador estándar
- Tareas de visión por computadora en diversos dominios