MiniLM-L6-danish-reranker
Este es un modelo liviano (~22 M parámetros) de sentence-transformers para NLP en danés: Toma dos oraciones como entrada y genera un puntaje de relevancia. Por lo tanto, el modelo se puede usar para la recuperación de información, por ejemplo, dado una consulta y posibles coincidencias, clasificar a los candidatos según su relevancia. La longitud máxima de la secuencia es de 512 tokens (para ambos pasajes). El modelo no fue preentrenado desde cero, sino que se adaptó de la versión en inglés de cross-encoder/ms-marco-MiniLM-L-6-v2 con un tokenizador en danés. Entrenado en datos de ELI5 y SQUAD traducidos automáticamente de inglés a danés.
Como usar
from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch
model = AutoModelForSequenceClassification.from_pretrained('KennethTM/MiniLM-L6-danish-reranker')
tokenizer = AutoTokenizer.from_pretrained('KennethTM/MiniLM-L6-danish-reranker')
features = tokenizer(['Kører der cykler på vejen?', 'Kører der cykler på vejen?'], ['En panda løber på vejen.', 'En mand kører hurtigt forbi på cykel.'], padding=True, truncation=True, return_tensors="pt")
model.eval()
with torch.no_grad():
scores = model(**features).logits
print(scores)
Usage with SentenceTransformers
The usage becomes easier when you have SentenceTransformers installed. Then, you can use the pre-trained models like this:
from sentence_transformers import CrossEncoder
model = CrossEncoder('KennethTM/MiniLM-L6-danish-reranker', max_length=512)
scores = model.predict([('Kører der cykler på vejen?', 'En panda løber på vejen.'), ('Kører der cykler på vejen?', 'En mand kører hurtigt forbi på cykel.')])
Funcionalidades
- Clasificación de Textos
- Transformers
- PyTorch
- Safetensors
Casos de uso
- Recuperación de información
- Clasificación de relevancia de textos
- Clasificación de preguntas y respuestas