Glossaire

BERT (Bidirectional Encoder Representations from Transformers)

Découvrez BERT, le modèle NLP révolutionnaire de Google. Découvrez comment sa compréhension contextuelle bidirectionnelle transforme les tâches d'IA telles que la recherche et les chatbots.

BERT, qui signifie Bidirectional Encoder Representations from Transformers, est un modèle de langage révolutionnaire développé par Google. Introduit dans un article de recherche en 2018, BERT a transformé le domaine du traitement automatique du langage naturel (TALN) en étant le premier modèle à comprendre le contexte d'un mot en fonction de son environnement à la fois à gauche et à droite (bidirectionnel). Cette capacité à saisir le contexte permet à BERT de capturer les nuances du langage humain beaucoup plus efficacement que les modèles précédents, qui traitaient généralement le texte dans une seule direction. Il s'agit d'un type de grand modèle de langage (LLM) et est considéré comme une technologie fondamentale pour de nombreuses applications modernes de TALN.

Comment fonctionne Bert

L'innovation fondamentale de BERT réside dans son approche d'entraînement bidirectionnelle, qui repose sur l'architecture Transformer. Contrairement aux modèles antérieurs qui lisaient le texte de manière séquentielle, le mécanisme d'attention de BERT lui permet de considérer l'ensemble de la phrase en une seule fois. Pour parvenir à cette compréhension bidirectionnelle pendant le pré-entraînement, BERT utilise deux stratégies principales :

Modèle de langage masqué (MLM) : Dans cette tâche, certains mots d'une phrase sont cachés aléatoirement, ou « masqués », et le travail du modèle est de prédire les mots masqués originaux en se basant sur les mots non masqués environnants. Cela force le modèle à apprendre des relations contextuelles profondes dans les deux sens.
Prédiction de la phrase suivante (NSP) : Le modèle reçoit deux phrases et doit prédire si la deuxième phrase est celle qui suit logiquement la première dans le texte original. Cela aide BERT à comprendre les relations entre les phrases, ce qui est essentiel pour des tâches comme la réponse aux questions et l’analyse de paragraphes.

Après cette phase de pré-entraînement approfondie sur un corpus de texte massif, BERT peut être adapté à des tâches spécifiques grâce à un processus appelé fine-tuning (ajustement fin). Cela implique d'entraîner davantage le modèle sur un jeu de données plus petit et spécifique à la tâche, ce qui en fait un outil très polyvalent pour les développeurs et les chercheurs. De nombreux modèles BERT pré-entraînés sont accessibles via des plateformes comme Hugging Face.

Applications concrètes

La capacité de BERT à comprendre les nuances du langage a conduit à des améliorations significatives dans diverses applications d'Intelligence Artificielle (IA) concrètes :

Moteurs de Recherche : Google Search a intégré BERT, ce qui est bien connu, afin de mieux comprendre les requêtes des utilisateurs, en particulier celles qui sont conversationnelles ou complexes, ce qui a permis d'obtenir des résultats de recherche plus pertinents. Par exemple, BERT aide à saisir l'intention derrière les recherches comme « pouvez-vous obtenir des médicaments pour quelqu'un en pharmacie » en comprenant l'importance des prépositions comme « pour » et « en ».
Chatbots et assistants virtuels : BERT améliore la capacité des chatbots et des assistants virtuels à comprendre plus précisément les demandes des utilisateurs, à maintenir le contexte dans les conversations et à fournir des réponses plus utiles dans le service client, les systèmes de réservation et la recherche d'informations.
Analyse des sentiments : Les entreprises utilisent des modèles basés sur BERT pour analyser les avis des clients, les commentaires sur les médias sociaux et les réponses aux enquêtes afin d'évaluer l'opinion publique et les commentaires sur les produits avec une plus grande précision.
Résumé de texte et réponse aux questions : BERT peut être affiné pour créer des systèmes qui résument automatiquement de longs documents ou répondent à des questions basées sur un passage de texte donné. Ceci est évalué sur des ensembles de données comme le Stanford Question Answering Dataset (SQuAD).

Bert contre d'autres modèles

Il est important de distinguer BERT des autres modèles d'IA :

vs. GPT : Bien que les deux soient des LLM basés sur des transformateurs, BERT est un modèle à encodeur uniquement conçu pour comprendre le contexte dans les deux sens. Cela le rend excellent dans les tâches analytiques comme l'analyse des sentiments, la reconnaissance d'entités nommées (NER) et la classification de texte. En revanche, les modèles GPT sont axés sur le décodeur et lisent le texte dans un seul sens (de gauche à droite), ce qui les rend optimisés pour la génération de texte nouveau et cohérent.
vs. Modèles de vision par ordinateur : BERT traite et comprend le texte, ce qui est fondamentalement différent des modèles de vision par ordinateur (CV) comme Ultralytics YOLO. Les modèles de vision tels que YOLO11 analysent les pixels des images et des vidéos pour effectuer des tâches telles que la détection d'objets ou la segmentation d'instance. Alors que BERT interprète le langage, l'architecture de transformateur qu'il a popularisée a inspiré des avancées en CV, conduisant à des modèles comme le Vision Transformer (ViT) utilisé dans des modèles comme RT-DETR.

Des plateformes comme Ultralytics HUB facilitent l'entraînement et le déploiement de divers modèles d'IA, y compris ceux basés sur les principes des Transformers. Le développement de BERT et de modèles similaires implique souvent des frameworks d'apprentissage automatique standard tels que PyTorch et TensorFlow.

BERT (Bidirectional Encoder Representations from Transformers)

Entraînez les modèles Ultralytics YOLO pour rationaliser les flux de travail dans tous les secteurs

Solution de licence d'entreprise flexible pour dynamiser votre innovation

Entraînez des modèles d'IA en quelques secondes avec Ultralytics YOLO

Comment fonctionne Bert

Applications concrètes

Bert contre d'autres modèles

En savoir plus dans cette catégorie

Points forts d'Ultralytics à la conférence PyTorch 2025

Utilisation de l'apprentissage auto-supervisé pour le débruitage des images

L'IA de Vision alimente les systèmes de surveillance de l'attention des conducteurs

Rejoignez la communauté Ultralytics