dell-research-harvard/lt-wikidata-comp-zh

dell-research-harvard
Similitud de oraciones

Este es un modelo LinkTransformer. En su núcleo, este modelo es un transformador de oraciones - simplemente envuelve la clase. Está diseñado para la vinculación rápida y fácil de registros (emparejamiento de entidades) a través del paquete LinkTransformer. Las tareas incluyen agrupación, eliminación de duplicados, vinculación, agregación y más. No obstante, se puede utilizar para cualquier tarea de similitud de oraciones dentro del marco de sentence-transformers también. Mapea oraciones y párrafos a un espacio vectorial denso de 768 dimensiones y puede usarse para tareas como agrupación o búsqueda semántica.

Como usar

Usar este modelo se vuelve fácil cuando tienes LinkTransformer instalado:

    pip install -U linktransformer
    import linktransformer as lt
    import pandas as pd

    ## Cargar los dos dataframes que deseas vincular. Por ejemplo, 2 dataframes con nombres de empresas escritos de manera diferente
    df1=pd.read_csv("data/df1.csv") ### Este es el dataframe de la izquierda con la clave CompanyName por ejemplo
    df2=pd.read_csv("data/df2.csv") ### Este es el dataframe de la derecha con la clave CompanyName por ejemplo

    ### Fusionar los dos dataframes en la columna clave!
    df_merged = lt.merge(df1, df2, on="CompanyName", how="inner")

    ## ¡Hecho! El dataframe fusionado tiene una columna llamada "score" que contiene la puntuación de similitud entre los dos nombres de empresa

Cualquier Sentence Transformers puede ser utilizado como columna vertebral simplemente añadiendo una capa de agrupación. También se puede usar cualquier otro transformador en HuggingFace especificando la opción add_pooling_layer==True. El modelo fue entrenado utilizando pérdida SupCon.

 saved_model_path = train_model(
    model_path="hiiamsid/sentence_similarity_spanish_es",
    dataset_path=dataset_path,
    left_col_names=["description47"],
    right_col_names=['description48'],
    left_id_name=['tariffcode47'],
    right_id_name=['tariffcode48'],
    log_wandb=False,
    config_path=LINKAGE_CONFIG_PATH,
    training_args="{"num_epochs`: 1}"
 )

También puedes usar este paquete para la eliminación de duplicados (agrupa un df en la columna clave suministrada). Fusionar una clase fina (como producto) a una clase gruesa (como código HS) también es posible.

Funcionalidades

Modelo LinkTransformer
Clasificación-transformadores de oraciones
Vinculación rápida y fácil de registros
Capacidades de agrupación, eliminación de duplicados, vinculación y agregación
Transforma oraciones y párrafos a un espacio vectorial denso de 768 dimensiones

Casos de uso

Vinculación de registros (emparejamiento de entidades)
Agrupación
Eliminación de duplicados
Búsqueda semántica
Búsqueda de similitud de oraciones

Recibe las últimas noticias y actualizaciones sobre el mundo de IA directamente en tu bandeja de entrada.