Explore BERT, the groundbreaking bidirectional transformer model for NLP. Learn how it understands context, its real-world apps, and integration with YOLO26.
BERT (Bidirectional Encoder Representations from Transformers) es una innovadora arquitectura de aprendizaje profundo diseñada por investigadores de Google ayudar a las máquinas a comprender mejor los matices del lenguaje humano. Introducido en 2018, BERT revolucionó el campo del procesamiento del lenguaje natural (NLP) al introducir un método de entrenamiento bidireccional. A diferencia de los modelos anteriores, que leían el texto secuencialmente de izquierda a derecha o de derecha a izquierda, BERT analiza el contexto de una palabra observando simultáneamente las palabras que la preceden y la siguen . Este enfoque permite al modelo captar significados sutiles, expresiones idiomáticas y homónimos (palabras con múltiples significados) de forma mucho más eficaz que sus predecesores.
En esencia, BERT se basa en la arquitectura Transformer, concretamente en el mecanismo codificador . La naturaleza «bidireccional» se consigue mediante una técnica de entrenamiento denominada Masked Language Modeling (MLM). Durante el preentrenamiento, aproximadamente el 15 % de las palabras de una frase se ocultan aleatoriamente, y el modelo intenta predecir las palabras que faltan basándose en el contexto circundante. Esto obliga al modelo a aprender representaciones bidireccionales profundas.
Además, BERT utiliza la predicción de la siguiente frase (NSP) para comprender la relación entre las frases. En esta tarea, el modelo recibe pares de frases y debe determinar si la segunda frase sigue lógicamente a la primera. Esta capacidad es crucial para tareas que requieren una comprensión del discurso, como la respuesta a preguntas y la síntesis de textos.
La versatilidad de BERT lo ha convertido en un componente estándar en muchos sistemas modernos de IA. A continuación se presentan dos ejemplos concretos de su aplicación:
Es útil distinguir BERT de otras arquitecturas destacadas para comprender su nicho específico.
Para utilizar BERT, el texto sin procesar debe convertirse en tokens numéricos. El modelo utiliza un vocabulario específico (como WordPiece) para descomponer las palabras. Aunque BERT es un modelo de texto, se aplican conceptos de preprocesamiento similares en la visión por ordenador, donde las imágenes se dividen en fragmentos.
El siguiente Python muestra cómo utilizar el transformers biblioteca para tokenizar una frase para el
procesamiento BERT. Tenga en cuenta que, aunque Ultralytics en la visión, comprender la tokenización es clave para
IA multimodal flujos de trabajo.
from transformers import BertTokenizer
# Initialize the tokenizer with the pre-trained 'bert-base-uncased' vocabulary
tokenizer = BertTokenizer.from_pretrained("bert-base-uncased")
# Tokenize a sample sentence relevant to AI
text = "Ultralytics simplifies computer vision."
# Convert text to input IDs (numerical representations)
encoded_input = tokenizer(text, return_tensors="pt")
# Display the resulting token IDs
print(f"Token IDs: {encoded_input['input_ids']}")
La introducción de BERT marcó elImageNet » para el PLN, demostrando que el aprendizaje por transferencia—preentrenar un modelo en un conjunto de datos masivo y luego ajustarlo para una tarea específica— era muy eficaz para el texto. Esto redujo la necesidad de arquitecturas específicas para cada tarea y grandes conjuntos de datos etiquetados para cada nuevo problema.
Hoy en día, variaciones de BERT, como RoBERTa y DistilBERT, siguen impulsando la eficiencia en las aplicaciones de IA de vanguardia. Los desarrolladores que buscan crear soluciones de IA integrales suelen integrar estos modelos de lenguaje junto con las herramientas de visión disponibles en la Ultralytics para crear sistemas que puedan ver y comprender el mundo.