bert-large-uncased-whole-word-masking-finetuned-squad
Modelo grande de BERT (uncased) con enmascaramiento de palabras completas afinado en SQuAD. Modelo preentrenado en el idioma inglés utilizando un objetivo de modelado de lenguaje enmascarado (MLM). Este modelo es uncased: no diferencia entre english y English. A diferencia de otros modelos BERT, este fue entrenado con una técnica nueva: Enmascaramiento de Palabras Completas. En este caso, todos los tokens correspondientes a una palabra se enmascaran a la vez. La tasa de enmascaramiento general se mantiene igual. Después del pre-entrenamiento, este modelo fue afinado en el conjunto de datos de SQuAD con uno de nuestros scripts de afinado. BERT es un modelo de transformers preentrenado en un gran corpus de datos en inglés de forma autosupervisada. Esto significa que se preentrenó solo con textos sin procesar, sin ninguna etiquetación humana, mediante un proceso automático para generar entradas y etiquetas a partir de esos textos. Se preentrenó con dos objetivos: modelado de lenguaje enmascarado (MLM) y predicción de la siguiente oración (NSP).
Como usar
python -m torch.distributed.launch --nproc_per_node=8 ./examples/question-answering/run_qa.py \
--model_name_or_path bert-large-uncased-whole-word-masking \
--dataset_name squad \
--do_train \
--do_eval \
--learning_rate 3e-5 \
--num_train_epochs 2 \
--max_seq_length 384 \
--doc_stride 128 \
--output_dir ./examples/models/wwm_uncased_finetuned_squad/ \
--per_device_eval_batch_size=3 \
--per_device_train_batch_size=3 \
Funcionalidades
- 24 capas
- 1024 dimensiones ocultas
- 16 cabezas de atención
- 336M parámetros
Casos de uso
- Modelo de respuesta a preguntas. Puede ser utilizado en un pipeline de respuesta a preguntas o para obtener resultados en bruto dada una consulta y un contexto.