Découvrez BERT, le modèle de transformateur bidirectionnel révolutionnaire pour le traitement du langage naturel (NLP). Apprenez comment il comprend le contexte, ses applications concrètes et son intégration avec YOLO26.
BERT (Bidirectional Encoder Representations from Transformers) est une architecture d'apprentissage profond révolutionnaire conçue par des chercheurs de Google aider les machines Google mieux comprendre les nuances du langage humain. Lancé en 2018, BERT a révolutionné le domaine du traitement du langage naturel (NLP) en introduisant une méthode d'entraînement bidirectionnelle. Contrairement aux modèles précédents qui lisaient le texte de manière séquentielle de gauche à droite ou de droite à gauche, BERT analyse le contexte d'un mot en examinant simultanément les mots qui le précèdent et ceux qui le suivent . Cette approche permet au modèle de saisir les nuances de sens, les expressions idiomatiques et les homonymes (mots ayant plusieurs sens) de manière beaucoup plus efficace que ses prédécesseurs.
À la base, BERT s'appuie sur l' architecture Transformer, en particulier le mécanisme d'encodeur . La nature « bidirectionnelle » est obtenue grâce à une technique d'entraînement appelée Masked Language Modeling (MLM). Pendant le pré-entraînement, environ 15 % des mots d'une phrase sont masqués (cachés) de manière aléatoire, et le modèle tente de prédire les mots manquants en se basant sur le contexte environnant. Cela oblige le modèle à apprendre des représentations bidirectionnelles profondes.
De plus, BERT utilise la prédiction de la phrase suivante (NSP) pour comprendre la relation entre les phrases. Dans cette tâche, le modèle reçoit des paires de phrases et doit déterminer si la deuxième phrase suit logiquement la première. Cette capacité est cruciale pour les tâches nécessitant une compréhension du discours, telles que la réponse à des questions et le résumé de textes.
La polyvalence de BERT en a fait un composant standard dans de nombreux systèmes d'IA modernes. Voici deux exemples concrets de son application :
Il est utile de distinguer BERT des autres architectures importantes afin de comprendre son créneau spécifique.
Pour utiliser BERT, le texte brut doit être converti en jetons numériques. Le modèle utilise un vocabulaire spécifique (comme WordPiece) pour décomposer les mots. Bien que BERT soit un modèle textuel, des concepts de prétraitement similaires s'appliquent en vision par ordinateur, où les images sont décomposées en patchs.
Python suivant montre comment utiliser la fonction transformers bibliothèque pour tokeniser une phrase en vue du
traitement BERT. Notez que si Ultralytics sur la vision, la compréhension de la tokenisation est essentielle pour
IA multimodale flux de travail.
from transformers import BertTokenizer
# Initialize the tokenizer with the pre-trained 'bert-base-uncased' vocabulary
tokenizer = BertTokenizer.from_pretrained("bert-base-uncased")
# Tokenize a sample sentence relevant to AI
text = "Ultralytics simplifies computer vision."
# Convert text to input IDs (numerical representations)
encoded_input = tokenizer(text, return_tensors="pt")
# Display the resulting token IDs
print(f"Token IDs: {encoded_input['input_ids']}")
L'introduction de BERT a marqué le «ImageNet » pour le NLP, prouvant que l' apprentissage par transfert(pré-entraînement d'un modèle sur un ensemble de données massif, puis ajustement pour une tâche spécifique) était très efficace pour le texte. Cela a réduit le besoin d' architectures spécifiques à chaque tâche et de grands ensembles de données étiquetées pour chaque nouveau problème.
Aujourd'hui, des variantes de BERT, telles que RoBERTa et DistilBERT, continuent d'améliorer l'efficacité des applications d'IA de pointe. Les développeurs qui cherchent à créer des solutions d'IA complètes intègrent souvent ces modèles linguistiques aux outils de vision disponibles sur Ultralytics afin de créer des systèmes capables à la fois de voir et de comprendre le monde.