Découvrez comment les grands modèles linguistiques (LLM) révolutionnent l'IA avec la PNL avancée, alimentant les chatbots, la création de contenu, et plus encore. Apprenez les concepts clés!
Un grand modèle linguistique (LLM) est un type sophistiqué d'algorithme d'intelligence artificielle ( IA). algorithme d'intelligence artificielle (IA) qui applique des techniques d'apprentissage profond pour comprendre, résumer, générer et prédire de nouveaux contenus. Ces modèles sont formés sur des ensembles de données massifs comprenant milliards de mots provenant de livres, d'articles et de sites web, ce qui leur permet de saisir les nuances du langage humain. Au cœur de la fonction d'un LLM est l'architecture Transformer, qui utilise un mécanisme d'auto-attention pour évaluer l'importance des différents mots dans une séquence. l'importance des différents mots d'une séquence, facilitant ainsi la compréhension contextuelle des longues phrases et des paragraphes. Cette capacité en fait la pierre angulaire du traitement moderne du langage naturel (NLP). traitement du langage naturel (NLP).
Le développement d'un LLM comporte deux étapes principales : la préformation et la mise au point. la mise au point. Au cours du pré-entraînement, le modèle s'engage dans un apprentissage non supervisé sur un vaste corpus de données. apprentissage non supervisé sur un vaste corpus de textes texte non étiqueté pour apprendre la grammaire, les faits et les capacités de raisonnement. Ce processus s'appuie fortement sur sur la tokenisation, qui consiste à décomposer le texte en unités unités plus petites appelées "tokens". Ensuite, les développeurs procèdent à un réglage fin à l'aide de données d'entraînement étiquetées afin d'adapter le modèle à des besoins spécifiques. données d'entraînement étiquetées pour adapter le modèle à des tâches spécifiques, telles que le diagnostic médical ou l'analyse juridique, telles que le diagnostic médical ou l'analyse juridique. Des organisations comme le Stanford Center for Research on Foundation Models (CRFM classify ces systèmes adaptables modèles de base en raison de leur large applicabilité. leur large applicabilité.
Les LLM sont passés des laboratoires de recherche à des outils pratiques qui alimentent d'innombrables applications dans tous les secteurs. Leur capacité à générer des textes cohérents et à traiter des informations a conduit à une adoption généralisée.
Alors que les LLM se spécialisent dans le texte, le domaine évolue vers l 'IA multimodale, qui intègre le texte à d'autres types de données types de données comme les images et le son. Cela permet de combler le fossé entre la modélisation du langage et la vision par ordinateur (VA). C'est le cas par exemple, modèles linguistiques de vision (VLM) peuvent analyser une image et répondre à des questions à son sujet.
Dans ce contexte, les modèles de détection d'objets tels que Ultralytics YOLO11 fournissent une compréhension visuelle qui qui complète le raisonnement textuel d'un LLM. Des modèles spécialisés tels que YOLO permettent aux utilisateurs de detect objets à l'aide d'invites textuelles à vocabulaire ouvert, combinant ainsi efficacement les concepts linguistiques et la reconnaissance visuelle. des objets à l'aide d'invites textuelles à vocabulaire ouvert, combinant efficacement les concepts linguistiques et la reconnaissance visuelle.
from ultralytics import YOLOWorld
# Load a YOLO-World model capable of understanding text prompts
model = YOLOWorld("yolov8s-world.pt")
# Define custom classes using natural language text
model.set_classes(["person wearing a hat", "red backpack"])
# Run inference to detect these specific text-defined objects
results = model("path/to/image.jpg")
# Display the detection results
results[0].show()
Malgré leur puissance, les LLM sont confrontés à des défis importants. Ils peuvent présenter biais dans l'IA dérivée de leurs données d'apprentissage, ce qui des résultats injustes ou biaisés. En outre, l'immense coût informatique de l'exécution de ces modèles a stimulé la recherche sur la quantification et l'optimisation des modèles. sur la quantification des modèles et les techniques d'optimisation de quantification et d'optimisation des modèles afin de les rendre plus efficaces sur du matériel tel que celui de NVIDIA. La compréhension de ces limites est pour déployer l'IA générative de manière responsable.
Pour en savoir plus sur l'architecture fondamentale des LLM, l'article Attention Is All You Need (L'attention est tout ce dont vous avez besoin ) fournit la définition originale du modèle du Transformer. Des ressources supplémentaires sur les modèles d'entreprise sont disponibles auprès de IBM Research et Google DeepMind.