MiniLM-L6-danish-reranker

KennethTM

Clasificación de texto

Este es un modelo liviano (~22 M parámetros) de sentence-transformers para NLP en danés: Toma dos oraciones como entrada y genera un puntaje de relevancia. Por lo tanto, el modelo se puede usar para la recuperación de información, por ejemplo, dado una consulta y posibles coincidencias, clasificar a los candidatos según su relevancia. La longitud máxima de la secuencia es de 512 tokens (para ambos pasajes). El modelo no fue preentrenado desde cero, sino que se adaptó de la versión en inglés de cross-encoder/ms-marco-MiniLM-L-6-v2 con un tokenizador en danés. Entrenado en datos de ELI5 y SQUAD traducidos automáticamente de inglés a danés.

Como usar

from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch

model = AutoModelForSequenceClassification.from_pretrained('KennethTM/MiniLM-L6-danish-reranker')
tokenizer = AutoTokenizer.from_pretrained('KennethTM/MiniLM-L6-danish-reranker')
features = tokenizer(['Kører der cykler på vejen?', 'Kører der cykler på vejen?'], ['En panda løber på vejen.', 'En mand kører hurtigt forbi på cykel.'],  padding=True, truncation=True, return_tensors="pt")

model.eval()
with torch.no_grad():
scores = model(**features).logits
print(scores)

Usage with SentenceTransformers
The usage becomes easier when you have SentenceTransformers installed. Then, you can use the pre-trained models like this:
from sentence_transformers import CrossEncoder
model = CrossEncoder('KennethTM/MiniLM-L6-danish-reranker', max_length=512)
scores = model.predict([('Kører der cykler på vejen?', 'En panda løber på vejen.'), ('Kører der cykler på vejen?', 'En mand kører hurtigt forbi på cykel.')])

Funcionalidades

Clasificación de Textos
Transformers
PyTorch
Safetensors

Casos de uso

Recuperación de información
Clasificación de relevancia de textos
Clasificación de preguntas y respuestas