BERT (Representaciones codificadoras bidireccionales a partir de transformadores)
Descubra BERT, el revolucionario modelo de PNL de Google. Descubre cómo su comprensión bidireccional del contexto transforma tareas de IA como la búsqueda y los chatbots.
BERT, acrónimo de Bidirectional Encoder Representations from Transformers, es una técnica histórica para el preentrenamiento del procesamiento del lenguaje natural (PLN ) desarrollada por investigadores de Google AI Language. Presentado en 2018 a través del influyente artículo"BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding", BERT revolucionó la forma en que las máquinas entienden el lenguaje humano. Fue una de las primeras representaciones lingüísticas profundamente bidireccionales y no supervisadas, preentrenada utilizando solo un corpus de texto plano como Wikipedia. BERT aprovecha la potente arquitectura Transformer, concretamente la parte codificadora, para procesar las palabras en relación con todas las demás palabras de una frase simultáneamente, en lugar de secuencialmente. Esto permite una comprensión más profunda del contexto en comparación con los modelos unidireccionales anteriores.
Cómo funciona Bert
A diferencia de los modelos anteriores, que procesaban el texto en una sola dirección (de izquierda a derecha o de derecha a izquierda), BERT procesa toda la secuencia de palabras a la vez utilizando su codificador Transformer y el mecanismo de autoatención. Este enfoque bidireccional le permite captar el contexto de una palabra basándose en las palabras que la rodean, tanto las que la preceden como las que la siguen. Por ejemplo, BERT puede diferenciar el significado de "bank" en "I need to go to the bank to withdraw cash" frente a "The river bank was muddy" teniendo en cuenta el contexto completo de la frase.
BERT aprende estas complejas relaciones lingüísticas durante una fase de preentrenamiento en grandes cantidades de datos de texto. Esto implica dos tareas principales no supervisadas:
- Modelo de lenguaje enmascarado (MLM): Un porcentaje de los tokens de entrada (palabras o subpalabras) se enmascaran (ocultan) aleatoriamente, y el modelo aprende a predecir estos tokens enmascarados basándose en su contexto.
- Predicción de la siguiente frase (NSP): el modelo recibe pares de frases y aprende a predecir si la segunda frase es la siguiente que sigue a la primera en el texto original, o simplemente una frase aleatoria.
El resultado de este preentrenamiento es un modelo con una rica incrustación lingüística que capta la sintaxis y la semántica. Este modelo BERT preentrenado puede adaptarse rápidamente o"afinarse" para diversas tareas específicas de PLN posteriores utilizando conjuntos de datos más pequeños y específicos de la tarea. Este proceso de aprovechamiento de los conocimientos preentrenados es una forma de aprendizaje por transferencia.
Principales características y ventajas
- Contexto bidireccional profundo: La principal innovación de BERT es su capacidad para comprender el contexto de una palabra examinando simultáneamente las palabras que la preceden y las que la siguen. Esto permite una comprensión mucho más rica y precisa de los matices del lenguaje en comparación con modelos unidireccionales como las primeras versiones de GPT.
- Rendimiento de vanguardia: En el momento de su lanzamiento, BERT obtuvo resultados punteros en una amplia gama de pruebas de PNL, incluidas tareas de respuesta a preguntas (como el conjunto de datos SQuAD) y de comprensión del lenguaje natural (NLU ).
- Potente sistema de aprendizaje por transferencia: Los modelos preentrenados de BERT sirven de potente base. Al ajustar BERT a tareas específicas como el análisis de sentimientos o el reconocimiento de entidades con nombre (NER), los desarrolladores pueden lograr un alto rendimiento con una cantidad significativamente menor de datos específicos de la tarea y de tiempo de entrenamiento en comparación con el entrenamiento de un modelo desde cero.
- Amplia disponibilidad: Los modelos BERT preentrenados son fácilmente accesibles a través de plataformas como Hugging Face y se pueden utilizar con marcos de aprendizaje profundo (Deep Learning, DL) populares como PyTorch y TensorFlow.
Aplicaciones reales
La capacidad de BERT para comprender los matices del lenguaje ha dado lugar a mejoras significativas en diversas aplicaciones de Inteligencia Artificial (IA) del mundo real:
- Motores de búsqueda: La búsqueda de Google incorporó BERT para comprender mejor las consultas de los usuarios, especialmente las conversacionales o complejas, y obtener resultados de búsqueda más relevantes. Como se explica en una entrada del blog de IA de Google, BERT ayuda a comprender la intención de búsquedas como "¿puedes conseguir medicamentos para una farmacia?
- Chatbots y asistentes virtuales: BERT mejora la capacidad de los chatbots y asistentes virtuales para comprender las peticiones de los usuarios con mayor precisión, mantener el contexto en las conversaciones y ofrecer respuestas más útiles en el servicio de atención al cliente, los sistemas de reservas y la recuperación de información.
- Análisis de sentimiento: Las empresas utilizan modelos basados en BERT para analizar reseñas de clientes, comentarios en redes sociales y respuestas a encuestas para calibrar la opinión pública y los comentarios sobre productos con mayor precisión.
- Resumen de textos y respuesta a preguntas: BERT puede perfeccionarse para crear sistemas que resuman automáticamente documentos largos(resumen de texto) o respondan a preguntas basadas en un pasaje de texto dado.
Aunque BERT se utiliza principalmente en PNL, la arquitectura Transformer que popularizó también ha inspirado avances en Visión por Computador (CV), como los Transformadores de Visión (ViT) utilizados en modelos como RT-DETR. Plataformas como Ultralytics HUB facilitan la formación y el despliegue de diversos modelos de IA, incluidos los basados en los principios de Transformer.