ResNet-50 v1.5

microsoft

Clasificación de imagen

El modelo ResNet (Red Residual) es una red neuronal convolucional que democratizó los conceptos de aprendizaje residual y conexiones de salto. Esto permite entrenar modelos mucho más profundos. Esta es la versión ResNet v1.5, que difiere del modelo original: en los bloques de cuello de botella que requieren reducción, v1 tiene stride = 2 en la primera convolución 1x1, mientras que v1.5 tiene stride = 2 en la convolución 3x3. Esta diferencia hace que ResNet50 v1.5 sea ligeramente más preciso (~0.5% top1) que v1, pero tiene una pequeña desventaja de rendimiento (~5% imgs/sec) según Nvidia.

Como usar

Aquí se muestra cómo usar este modelo para clasificar una imagen del conjunto de datos COCO 2017 en una de las 1,000 clases de ImageNet:
from transformers import AutoImageProcessor, ResNetForImageClassification
import torch
from datasets import load_dataset

dataset = load_dataset("huggingface/cats-image")
image = dataset["test"]["image"][0]

processor = AutoImageProcessor.from_pretrained("microsoft/resnet-50")
model = ResNetForImageClassification.from_pretrained("microsoft/resnet-50")

inputs = processor(image, return_tensors="pt")

with torch.no_grad():
   logits = model(**inputs).logits

# modelo predice una de las 1000 clases de ImageNet
predicted_label = logits.argmax(-1).item()
print(model.config.id2label[predicted_label])

Funcionalidades

Clasificación de imágenes
Transformers
PyTorch
TensorFlow
JAX
Safetensors

Casos de uso

Clasificación de imágenes