microsoft/resnet-34

microsoft

Clasificación de imagen

ResNet (Red de Residuos) es una red neuronal convolucional que democratizó los conceptos de aprendizaje residual y conexiones de salto. Esto permite entrenar modelos mucho más profundos. Esta es ResNet v1.5, que difiere del modelo original: en los bloques de cuello de botella que requieren muestreo descendente, v1 tiene stride = 2 en la primera convolución de 1x1, mientras que v1.5 tiene stride = 2 en la convolución de 3x3. Esta diferencia hace que ResNet50 v1.5 sea ligeramente más precisa (~0.5% top1) que v1, pero viene con una pequeña desventaja de rendimiento (~5% imágenes/seg) según Nvidia.

Como usar

Aquí se explica cómo usar este modelo para clasificar una imagen del conjunto de datos COCO 2017 en una de las 1,000 clases de ImageNet:
from transformers import AutoFeatureExtractor, ResNetForImageClassification
import torch
from datasets import load_dataset

dataset = load_dataset("huggingface/cats-image")
image = dataset["test"]["image"][0]

feature_extractor = AutoFeatureExtractor.from_pretrained("microsoft/resnet-34")
model = ResNetForImageClassification.from_pretrained("microsoft/resnet-34")

inputs = feature_extractor(image, return_tensors="pt")

with torch.no_grad():
    logits = model(**inputs).logits

# el modelo predice una de las 1000 clases de ImageNet
predicted_label = logits.argmax(-1).item()
print(model.config.id2label[predicted_label])

Para más ejemplos de código, consulte la documentación.

Funcionalidades

Aprendizaje residual
Conexiones de salto
Convoluciones profundas
Modelos preentrenados en ImageNet-1k

Casos de uso

Clasificación de imágenes