niancheng/gte-Qwen2-7B-instruct-Q4_K_M-GGUF

niancheng
Similitud de oraciones

Este modelo fue convertido al formato GGUF desde Alibaba-NLP/gte-Qwen2-7B-instruct usando llama.cpp a través del espacio GGUF-my-repo de ggml.ai. Consulta la tarjeta del modelo original para más detalles sobre el modelo.

Como usar

Instalar llama.cpp a través de brew (funciona en Mac y Linux):

brew install llama.cpp

Invocar el servidor llama.cpp o la CLI:

CLI:

llama-cli --hf-repo niancheng/gte-Qwen2-7B-instruct-Q4_K_M-GGUF --hf-file gte-qwen2-7b-instruct-q4_k_m.gguf -p "The meaning to life and the universe is"

Servidor:

llama-server --hf-repo niancheng/gte-Qwen2-7B-instruct-Q4_K_M-GGUF --hf-file gte-qwen2-7b-instruct-q4_k_m.gguf -c 2048

Clonar llama.cpp desde GitHub y construirlo:

Paso 1: Clone llama.cpp desde GitHub.

git clone https://github.com/ggerganov/llama.cpp

Paso 2: Muévase a la carpeta de llama.cpp y construyalo con la bandera LLAMA_CURL=1 y otras banderas específicas de hardware (por ejemplo: LLAMA_CUDA=1 para GPUs Nvidia en Linux):

cd llama.cpp && LLAMA_CURL=1 make

Paso 3: Ejecute la inferencia a través del binario principal:

./llama-cli --hf-repo niancheng/gte-Qwen2-7B-instruct-Q4_K_M-GGUF --hf-file gte-qwen2-7b-instruct-q4_k_m.gguf -p "The meaning to life and the universe is"

O

./llama-server --hf-repo niancheng/gte-Qwen2-7B-instruct-Q4_K_M-GGUF --hf-file gte-qwen2-7b-instruct-q4_k_m.gguf -c 2048

Funcionalidades

Tamaño del modelo GGUF: 7.61B parámetros
Arquitectura: qwen2 con 4-bit Q4_K_M
Similaridad de oraciones
Compatible con transformers y llama-cpp
Resultados de evaluación en varios conjuntos de prueba

Casos de uso

Clasificación de opiniones de Amazon
Clasificación de polaridad de opiniones de Amazon
Clasificación contrafactual de Amazon

Recibe las últimas noticias y actualizaciones sobre el mundo de IA directamente en tu bandeja de entrada.