dangvantuan/vietnamese-embedding-LongContext
dangvantuan
Similitud de oraciones
vietnamese-embedding-LongContext es un modelo de incrustación para el idioma vietnamita con una longitud de contexto de hasta 8096 tokens. Este modelo es una incrustación de texto especializada entrenada específicamente para el idioma vietnamita, construido sobre gte-multilingual y entrenado usando la pérdida Multi-Negative Ranking Loss, Matryoshka2dLoss y SimilarityLoss.
Como usar
Usar este modelo es fácil cuando tienes 'sentence-transformers' instalado:
pip install -U sentence-transformers
Luego puedes usar el modelo así:
```python
from sentence_transformers import SentenceTransformer
sentences = ["Hà Nội là thủ đô của Việt Nam", "Đà Nẵng là thành phố du lịch"]
model = SentenceTransformer('dangvantuan/vietnamese-embedding-LongContext', trust_remote_code=True)
embeddings = model.encode(sentences)
print(embeddings)
Funcionalidades
- Modelo especializado en incrustación de texto para el idioma vietnamita
- Longitud de contexto de hasta 8096 tokens
- Entrenado usando pérdidas Multi-Negative Ranking Loss, Matryoshka2dLoss y SimilarityLoss
- Compatible con la biblioteca 'sentence-transformers'
Casos de uso
- Generación de incrustaciones precisas y contextualmente relevantes para oraciones en vietnamita
- Mejora de la capacidad del modelo para discernir y clasificar las diferencias matizadas en la semántica de las oraciones
- Captura de similitud semántica en diferentes tipos de textos vietnamitas