BERT (Bidirectional Encoder Representations from Transformers)
Découvrez BERT, le modèle NLP révolutionnaire de Google. Apprenez comment sa compréhension bidirectionnelle du contexte transforme les tâches d'IA telles que la recherche et les chatbots.
BERT, qui signifie Bidirectional Encoder Representations from Transformers, est une technique historique de pré-entraînement au traitement du langage naturel (NLP) développée par des chercheurs de Google AI Language. Présentée en 2018 via l'article influent"BERT : Pre-training of Deep Bidirectional Transformers for Language Understanding", BERT a révolutionné la manière dont les machines comprennent le langage humain. Il s'agissait de l'une des premières représentations linguistiques profondément bidirectionnelles et non supervisées, pré-entraînées en utilisant uniquement un corpus de texte brut comme Wikipédia. BERT exploite la puissante architecture Transformer, en particulier la partie encodage, pour traiter les mots en relation avec tous les autres mots d'une phrase simultanément, plutôt que séquentiellement. Cela permet une compréhension plus profonde du contexte par rapport aux modèles unidirectionnels précédents.
Principales caractéristiques et avantages
- Contexte bidirectionnel profond : La principale innovation de BERT réside dans sa capacité à comprendre le contexte d'un mot en examinant simultanément les mots qui le précèdent et le suivent. Cela permet une compréhension beaucoup plus riche et précise des nuances de la langue par rapport aux modèles unidirectionnels tels que les premières versions de GPT.
- Des performances de pointe : Dès sa sortie, BERT a obtenu des résultats de pointe sur une large gamme de tests NLP, y compris la réponse aux questions (comme l'ensemble de données SQuAD) et les tâches de compréhension du langage naturel (NLU).
- La puissance de l'apprentissage par transfert : Les modèles pré-entraînés de BERT constituent une base puissante. En affinant BERT sur des tâches spécifiques telles que l'analyse des sentiments ou la reconnaissance des entités nommées (NER), les développeurs peuvent atteindre des performances élevées avec beaucoup moins de données spécifiques à la tâche et de temps de formation par rapport à la formation d'un modèle à partir de zéro.
- Large disponibilité : Les modèles BERT pré-entraînés sont facilement accessibles via des plateformes telles que Hugging Face et peuvent être utilisés avec des frameworks populaires de Deep Learning (DL) tels que PyTorch et TensorFlow.
Applications dans le monde réel
La capacité de l'ORET à comprendre les nuances du langage a conduit à des améliorations significatives dans diverses applications d'intelligence artificielle (IA) dans le monde réel :
- Moteurs de recherche : Le moteur de recherche Google a incorporé BERT pour mieux comprendre les requêtes des utilisateurs, en particulier les requêtes conversationnelles ou complexes, ce qui permet d'obtenir des résultats de recherche plus pertinents. Comme l'explique un article du Google AI Blog, BERT aide à saisir l'intention derrière des recherches telles que "can you get medicine for someone pharmacy" en comprenant l'importance de prépositions telles que "for" et "to".
- Chatbots et assistants virtuels : BERT améliore la capacité des chatbots et des assistants virtuels à comprendre plus précisément les demandes des utilisateurs, à maintenir le contexte dans les conversations et à fournir des réponses plus utiles dans le service clientèle, les systèmes de réservation et la recherche d'informations.
- Analyse des sentiments : Les entreprises utilisent des modèles basés sur BERT pour analyser les avis des clients, les commentaires des médias sociaux et les réponses aux enquêtes afin d'évaluer l'opinion publique et les commentaires sur les produits avec une plus grande précision.
- Résumés de textes et réponses aux questions : BERT peut être affiné pour créer des systèmes qui résument automatiquement de longs documents(résumé de texte) ou répondent à des questions sur la base d'un passage de texte donné.
Bien que BERT soit principalement utilisé en NLP, l'architecture Transformer qu'il a popularisée a également inspiré des avancées dans le domaine de la vision par ordinateur (CV), telles que les Transformateurs de vision (ViT) utilisés dans des modèles tels que RT-DETR. Des plateformes comme Ultralytics HUB facilitent l'entraînement et le déploiement de divers modèles d'IA, y compris ceux construits sur les principes de Transformer.
Comment fonctionne Bert
Contrairement aux modèles précédents qui traitaient le texte dans une seule direction (de gauche à droite ou de droite à gauche), BERT traite toute la séquence de mots en une seule fois grâce à son encodeur Transformer et au mécanisme d'auto-attention. Cette approche bidirectionnelle lui permet de saisir le contexte d'un mot en fonction des mots qui l'entourent, qu'ils le précèdent ou qu'ils le suivent. Par exemple, l'ORET peut différencier la signification de "banque" dans "Je dois aller à la banque pour retirer de l'argent" de celle de "La berge de la rivière était boueuse" en prenant en compte le contexte complet de la phrase.
BERT apprend ces relations linguistiques complexes au cours d'une phase de préapprentissage sur de grandes quantités de données textuelles. Cela implique deux tâches non supervisées principales :
Le résultat de ce pré-entraînement est un modèle avec de riches enchâssements linguistiques qui capturent la syntaxe et la sémantique. Ce modèle BERT pré-entraîné peut ensuite être rapidement adapté ou"affiné" pour diverses tâches NLP spécifiques en aval à l'aide d'ensembles de données plus petits et spécifiques à la tâche. Ce processus d'exploitation des connaissances pré-entraînées est une forme d'apprentissage par transfert.