dell-research-harvard/lt-wikidata-comp-zh
Este es un modelo LinkTransformer. En su núcleo, este modelo es un transformador de oraciones - simplemente envuelve la clase. Está diseñado para la vinculación rápida y fácil de registros (emparejamiento de entidades) a través del paquete LinkTransformer. Las tareas incluyen agrupación, eliminación de duplicados, vinculación, agregación y más. No obstante, se puede utilizar para cualquier tarea de similitud de oraciones dentro del marco de sentence-transformers también. Mapea oraciones y párrafos a un espacio vectorial denso de 768 dimensiones y puede usarse para tareas como agrupación o búsqueda semántica.
Como usar
Usar este modelo se vuelve fácil cuando tienes LinkTransformer instalado:
pip install -U linktransformer
import linktransformer as lt
import pandas as pd
## Cargar los dos dataframes que deseas vincular. Por ejemplo, 2 dataframes con nombres de empresas escritos de manera diferente
df1=pd.read_csv("data/df1.csv") ### Este es el dataframe de la izquierda con la clave CompanyName por ejemplo
df2=pd.read_csv("data/df2.csv") ### Este es el dataframe de la derecha con la clave CompanyName por ejemplo
### Fusionar los dos dataframes en la columna clave!
df_merged = lt.merge(df1, df2, on="CompanyName", how="inner")
## ¡Hecho! El dataframe fusionado tiene una columna llamada "score" que contiene la puntuación de similitud entre los dos nombres de empresa
Cualquier Sentence Transformers puede ser utilizado como columna vertebral simplemente añadiendo una capa de agrupación. También se puede usar cualquier otro transformador en HuggingFace especificando la opción add_pooling_layer==True
. El modelo fue entrenado utilizando pérdida SupCon.
saved_model_path = train_model(
model_path="hiiamsid/sentence_similarity_spanish_es",
dataset_path=dataset_path,
left_col_names=["description47"],
right_col_names=['description48'],
left_id_name=['tariffcode47'],
right_id_name=['tariffcode48'],
log_wandb=False,
config_path=LINKAGE_CONFIG_PATH,
training_args="{"num_epochs`: 1}"
)
También puedes usar este paquete para la eliminación de duplicados (agrupa un df en la columna clave suministrada). Fusionar una clase fina (como producto) a una clase gruesa (como código HS) también es posible.
Funcionalidades
- Modelo LinkTransformer
- Clasificación-transformadores de oraciones
- Vinculación rápida y fácil de registros
- Capacidades de agrupación, eliminación de duplicados, vinculación y agregación
- Transforma oraciones y párrafos a un espacio vectorial denso de 768 dimensiones
Casos de uso
- Vinculación de registros (emparejamiento de entidades)
- Agrupación
- Eliminación de duplicados
- Búsqueda semántica
- Búsqueda de similitud de oraciones