ResNet-50 v1.5
El modelo ResNet (Red Residual) es una red neuronal convolucional que democratizó los conceptos de aprendizaje residual y conexiones de salto. Esto permite entrenar modelos mucho más profundos. Esta es la versión ResNet v1.5, que difiere del modelo original: en los bloques de cuello de botella que requieren reducción, v1 tiene stride = 2 en la primera convolución 1x1, mientras que v1.5 tiene stride = 2 en la convolución 3x3. Esta diferencia hace que ResNet50 v1.5 sea ligeramente más preciso (~0.5% top1) que v1, pero tiene una pequeña desventaja de rendimiento (~5% imgs/sec) según Nvidia.
Como usar
Aquí se muestra cómo usar este modelo para clasificar una imagen del conjunto de datos COCO 2017 en una de las 1,000 clases de ImageNet:
from transformers import AutoImageProcessor, ResNetForImageClassification
import torch
from datasets import load_dataset
dataset = load_dataset("huggingface/cats-image")
image = dataset["test"]["image"][0]
processor = AutoImageProcessor.from_pretrained("microsoft/resnet-50")
model = ResNetForImageClassification.from_pretrained("microsoft/resnet-50")
inputs = processor(image, return_tensors="pt")
with torch.no_grad():
logits = model(**inputs).logits
# modelo predice una de las 1000 clases de ImageNet
predicted_label = logits.argmax(-1).item()
print(model.config.id2label[predicted_label])
Funcionalidades
- Clasificación de imágenes
- Transformers
- PyTorch
- TensorFlow
- JAX
- Safetensors
Casos de uso
- Clasificación de imágenes