Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

BERT (Bidirectional Encoder Representations from Transformers)

Découvrez BERT, le modèle de transformateur bidirectionnel révolutionnaire pour le traitement du langage naturel (NLP). Apprenez comment il comprend le contexte, ses applications concrètes et son intégration avec YOLO26.

BERT (Bidirectional Encoder Representations from Transformers) est une architecture d'apprentissage profond révolutionnaire conçue par des chercheurs de Google aider les machines Google mieux comprendre les nuances du langage humain. Lancé en 2018, BERT a révolutionné le domaine du traitement du langage naturel (NLP) en introduisant une méthode d'entraînement bidirectionnelle. Contrairement aux modèles précédents qui lisaient le texte de manière séquentielle de gauche à droite ou de droite à gauche, BERT analyse le contexte d'un mot en examinant simultanément les mots qui le précèdent et ceux qui le suivent . Cette approche permet au modèle de saisir les nuances de sens, les expressions idiomatiques et les homonymes (mots ayant plusieurs sens) de manière beaucoup plus efficace que ses prédécesseurs.

Fonctionnement de l'ORET

À la base, BERT s'appuie sur l' architecture Transformer, en particulier le mécanisme d'encodeur . La nature « bidirectionnelle » est obtenue grâce à une technique d'entraînement appelée Masked Language Modeling (MLM). Pendant le pré-entraînement, environ 15 % des mots d'une phrase sont masqués (cachés) de manière aléatoire, et le modèle tente de prédire les mots manquants en se basant sur le contexte environnant. Cela oblige le modèle à apprendre des représentations bidirectionnelles profondes.

De plus, BERT utilise la prédiction de la phrase suivante (NSP) pour comprendre la relation entre les phrases. Dans cette tâche, le modèle reçoit des paires de phrases et doit déterminer si la deuxième phrase suit logiquement la première. Cette capacité est cruciale pour les tâches nécessitant une compréhension du discours, telles que la réponse à des questions et le résumé de textes.

Applications concrètes

La polyvalence de BERT en a fait un composant standard dans de nombreux systèmes d'IA modernes. Voici deux exemples concrets de son application :

  1. Optimisation pour les moteurs de recherche : Google BERT dans ses algorithmes de recherche afin de mieux interpréter les requêtes complexes. Par exemple, dans la requête « 2019 brazil traveler to usa need a visa » (voyageur brésilien se rendant aux États-Unis en 2019, besoin d'un visa), le mot « to » (à) est essentiel. Les modèles traditionnels traitaient souvent « to » comme un mot vide (mot courant filtré ), passant à côté de la relation directionnelle. BERT comprend que l'utilisateur est un Brésilien voyageant aux États-Unis, et non l'inverse, et fournit des résultats de recherche très pertinents.
  2. Analyse des sentiments dans les commentaires des clients : les entreprises utilisent BERT pour analyser automatiquement des milliers d'avis clients ou de tickets d'assistance. Comme BERT comprend le contexte, il peut faire la distinction entre « Cet aspirateur est nul » (sentiment négatif) et « Cet aspirateur aspire toute la saleté » (sentiment positif). Cette analyse précise des sentiments aide les entreprises à trier les problèmes d'assistance et track avec précision la santé track .

Comparaison avec des concepts connexes

Il est utile de distinguer BERT des autres architectures importantes afin de comprendre son créneau spécifique.

  • BERT vs. GPT (Generative Pre-trained Transformer): Bien que les deux utilisent l'architecture Transformer, leurs objectifs diffèrent. BERT utilise la pile Encoder et est optimisé pour les tâches de compréhension et de discrimination (par exemple, la classification, l'extraction d'entités). En revanche, GPT utilise la pile Decoder et est conçu pour la génération de texte, en prédisant le mot suivant dans une séquence afin de rédiger des essais ou du code.
  • BERT vs YOLO26: ces modèles fonctionnent dans des domaines différents. BERT traite des données textuelles séquentielles pour des tâches linguistiques. YOLO26 est un modèle de vision de pointe qui traite des grilles de pixels pour la détection d'objets en temps réel. Cependant, les systèmes multimodaux modernes les combinent souvent ; par exemple, un YOLO peut detect dans une image, et un modèle basé sur BERT peut ensuite répondre à des questions sur leurs relations.

Exemple de mise en œuvre : tokenisation

Pour utiliser BERT, le texte brut doit être converti en jetons numériques. Le modèle utilise un vocabulaire spécifique (comme WordPiece) pour décomposer les mots. Bien que BERT soit un modèle textuel, des concepts de prétraitement similaires s'appliquent en vision par ordinateur, où les images sont décomposées en patchs.

Python suivant montre comment utiliser la fonction transformers bibliothèque pour tokeniser une phrase en vue du traitement BERT. Notez que si Ultralytics sur la vision, la compréhension de la tokenisation est essentielle pour IA multimodale flux de travail.

from transformers import BertTokenizer

# Initialize the tokenizer with the pre-trained 'bert-base-uncased' vocabulary
tokenizer = BertTokenizer.from_pretrained("bert-base-uncased")

# Tokenize a sample sentence relevant to AI
text = "Ultralytics simplifies computer vision."

# Convert text to input IDs (numerical representations)
encoded_input = tokenizer(text, return_tensors="pt")

# Display the resulting token IDs
print(f"Token IDs: {encoded_input['input_ids']}")

Importance dans le paysage de l'IA

L'introduction de BERT a marqué le «ImageNet » pour le NLP, prouvant que l' apprentissage par transfert(pré-entraînement d'un modèle sur un ensemble de données massif, puis ajustement pour une tâche spécifique) était très efficace pour le texte. Cela a réduit le besoin d' architectures spécifiques à chaque tâche et de grands ensembles de données étiquetées pour chaque nouveau problème.

Aujourd'hui, des variantes de BERT, telles que RoBERTa et DistilBERT, continuent d'améliorer l'efficacité des applications d'IA de pointe. Les développeurs qui cherchent à créer des solutions d'IA complètes intègrent souvent ces modèles linguistiques aux outils de vision disponibles sur Ultralytics afin de créer des systèmes capables à la fois de voir et de comprendre le monde.

Rejoindre la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant