microsoft/resnet-34
ResNet (Red de Residuos) es una red neuronal convolucional que democratizó los conceptos de aprendizaje residual y conexiones de salto. Esto permite entrenar modelos mucho más profundos. Esta es ResNet v1.5, que difiere del modelo original: en los bloques de cuello de botella que requieren muestreo descendente, v1 tiene stride = 2 en la primera convolución de 1x1, mientras que v1.5 tiene stride = 2 en la convolución de 3x3. Esta diferencia hace que ResNet50 v1.5 sea ligeramente más precisa (~0.5% top1) que v1, pero viene con una pequeña desventaja de rendimiento (~5% imágenes/seg) según Nvidia.
Como usar
Aquí se explica cómo usar este modelo para clasificar una imagen del conjunto de datos COCO 2017 en una de las 1,000 clases de ImageNet:
from transformers import AutoFeatureExtractor, ResNetForImageClassification
import torch
from datasets import load_dataset
dataset = load_dataset("huggingface/cats-image")
image = dataset["test"]["image"][0]
feature_extractor = AutoFeatureExtractor.from_pretrained("microsoft/resnet-34")
model = ResNetForImageClassification.from_pretrained("microsoft/resnet-34")
inputs = feature_extractor(image, return_tensors="pt")
with torch.no_grad():
logits = model(**inputs).logits
# el modelo predice una de las 1000 clases de ImageNet
predicted_label = logits.argmax(-1).item()
print(model.config.id2label[predicted_label])
Para más ejemplos de código, consulte la documentación.
Funcionalidades
- Aprendizaje residual
- Conexiones de salto
- Convoluciones profundas
- Modelos preentrenados en ImageNet-1k
Casos de uso
- Clasificación de imágenes