dangvantuan/vietnamese-embedding-LongContext

dangvantuan
Similitud de oraciones

vietnamese-embedding-LongContext es un modelo de incrustación para el idioma vietnamita con una longitud de contexto de hasta 8096 tokens. Este modelo es una incrustación de texto especializada entrenada específicamente para el idioma vietnamita, construido sobre gte-multilingual y entrenado usando la pérdida Multi-Negative Ranking Loss, Matryoshka2dLoss y SimilarityLoss.

Como usar

Usar este modelo es fácil cuando tienes 'sentence-transformers' instalado:

pip install -U sentence-transformers

Luego puedes usar el modelo así:
```python
from sentence_transformers import SentenceTransformer

sentences = ["Hà Nội là thủ đô của Việt Nam", "Đà Nẵng là thành phố du lịch"]
model = SentenceTransformer('dangvantuan/vietnamese-embedding-LongContext', trust_remote_code=True)
embeddings = model.encode(sentences)
print(embeddings)

Funcionalidades

Modelo especializado en incrustación de texto para el idioma vietnamita
Longitud de contexto de hasta 8096 tokens
Entrenado usando pérdidas Multi-Negative Ranking Loss, Matryoshka2dLoss y SimilarityLoss
Compatible con la biblioteca 'sentence-transformers'

Casos de uso

Generación de incrustaciones precisas y contextualmente relevantes para oraciones en vietnamita
Mejora de la capacidad del modelo para discernir y clasificar las diferencias matizadas en la semántica de las oraciones
Captura de similitud semántica en diferentes tipos de textos vietnamitas

Recibe las últimas noticias y actualizaciones sobre el mundo de IA directamente en tu bandeja de entrada.