facebook/deit-tiny-patch16-224

facebook

Clasificación de imagen

Transformador eficiente en datos (DeiT, por sus siglas en inglés) preentrenado y afinado en ImageNet-1k (1 millón de imágenes, 1,000 clases) a una resolución de 224x224. Este modelo es un Vision Transformer (ViT) más eficiente en términos de entrenamiento. ViT es un modelo de codificador transformador preentrenado y afinado en una colección grande de imágenes de manera supervisada, concretamente en ImageNet-1k, a una resolución de 224x224 píxeles.

Como usar

Dado que este modelo es un ViT más eficientemente entrenado, se puede integrar en ViTModel o ViTForImageClassification. El modelo espera que los datos sean preparados usando DeiTFeatureExtractor. Aquí se utiliza AutoFeatureExtractor, que usará automáticamente el extractor de características adecuado dado el nombre del modelo.
from transformers import AutoFeatureExtractor, ViTForImageClassification
from PIL import Image
import requests
url = 'http://images.cocodataset.org/val2017/000000039769.jpg'
image = Image.open(requests.get(url, stream=True).raw)
feature_extractor = AutoFeatureExtractor.from_pretrained('facebook/deit-tiny-patch16-224')
model = ViTForImageClassification.from_pretrained('facebook/deit-tiny-patch16-224')
inputs = feature_extractor(images=image, return_tensors="pt")
outputs = model(**inputs)
logits = outputs.logits
predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[predicted_class_idx])

Funcionalidades

Modelo Vision Transformer (ViT) eficiente en el uso de datos
Entrenado y afinado en ImageNet-1k
Admite PyTorch (soporte para TensorFlow y JAX/FLAX próximamente)
Clasificación de imágenes a partir de parches de tamaño fijo (16x16)
Resuelve tareas de clasificación de imágenes
Capacidad de extraer características útiles para tareas posteriores

Casos de uso

Clasificación de imágenes crudas
Utilización con conjuntos de datos etiquetados para entrenar un clasificador estándar
Tareas de visión por computadora en diversos dominios