Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Grand modèle de langage (LLM)

Découvrez les principes fondamentaux des grands modèles linguistiques (LLM). Apprenez-en davantage sur l'architecture Transformer, la tokenisation et comment combiner les LLM avec Ultralytics .

Un modèle linguistique à grande échelle (LLM) est un type sophistiqué d' intelligence artificielle (IA) entraîné sur des ensembles de données massifs afin de comprendre, générer et manipuler le langage humain. Ces modèles représentent une évolution significative dans le domaine du Deep Learning (DL), utilisant des réseaux neuronaux avec des milliards de paramètres pour capturer des modèles linguistiques complexes, la grammaire et les relations sémantiques. À la base, la plupart des LLM modernes s'appuient sur l' architecture Transformer, qui leur permet de traiter des séquences de données en parallèle plutôt que séquentiellement. Cette architecture utilise un mécanisme d'auto-attention, qui permet au modèle de pondérer l'importance des différents mots d'une phrase les uns par rapport aux autres, quelle que soit leur distance dans le texte.

Mécanismes fondamentaux des LLM

La fonctionnalité d'un LLM commence par la tokenisation, un processus qui consiste à décomposer le texte brut en unités plus petites appelées tokens (mots ou sous-mots). Pendant la phase d'entraînement du modèle, le système analyse des pétaoctets de texte provenant d'Internet, de livres et d'articles. Il procède à un apprentissage non supervisé pour prédire le prochain token d'une séquence, apprenant ainsi efficacement la structure statistique du langage.

Après cette formation initiale, les développeurs procèdent souvent à des ajustements afin de spécialiser le modèle pour des tâches distinctes, telles que l'analyse médicale ou l'aide au codage. C'est cette adaptabilité qui explique pourquoi des organisations telles que le Stanford Center for Research on Foundation Models classify comme des « modèles de base », c'est-à-dire des bases larges sur lesquelles s'appuient des applications spécifiques.

Applications concrètes

Les LLM ont dépassé le stade de la recherche théorique pour trouver des applications pratiques à fort impact dans divers secteurs :

  • Assistants virtuels intelligents : le service client moderne s'appuie fortement sur les chatbots alimentés par des LLM. Contrairement aux anciens systèmes basés sur des règles , ces agents peuvent traiter des requêtes nuancées. Pour améliorer la précision et réduire les hallucinations, les développeurs intègrent la génération augmentée par la récupération (RAG), qui permet au modèle de consulter la documentation externe et actualisée de l'entreprise avant de répondre.
  • Systèmes multimodaux vision-langage : la frontière de l'IA relie le texte aux données visuelles. Les modèles vision-langage (VLM) permettent aux utilisateurs d'interroger des images à l'aide du langage naturel. Par exemple, la combinaison d'une interface linguistique avec un détecteur robuste tel que YOLO26 permet aux systèmes d'identifier et de décrire des objets dans des flux vidéo en temps réel à partir de commandes vocales.

Relier le texte et la vision grâce au code

Alors que les LLM standard traitent le texte, l'industrie s'oriente vers l' IA multimodale. L'exemple suivant montre comment les invites linguistiques peuvent contrôler les tâches de vision par ordinateur à l'aide de YOLO, un modèle qui comprend les descripteurs textuels pour la détection à vocabulaire ouvert.

from ultralytics import YOLOWorld

# Load a model capable of understanding natural language prompts
model = YOLOWorld("yolov8s-world.pt")

# Define custom classes using text descriptions rather than fixed labels
model.set_classes(["person wearing a red helmet", "blue industrial machine"])

# Run inference to detect these specific text-defined objects
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Show results
results[0].show()

Distinguer les concepts apparentés

Il est important de différencier les LLM des termes plus généraux ou parallèles :

  • LLM vs. Traitement du langage naturel (NLP): Le NLP est le domaine académique général qui s'intéresse à l'interaction entre les ordinateurs et le langage humain. Un LLM est un outil ou une technologie spécifique utilisé dans ce domaine pour obtenir des résultats de pointe.
  • LLM vs IA générative: l'IA générative est une catégorie qui englobe toute IA capable de créer du nouveau contenu. Les LLM sont le sous-ensemble textuel de cette catégorie, tandis que des modèles tels que Stable Diffusion représentent le sous-ensemble de génération d'images .

Défis et perspectives d'avenir

Malgré leurs capacités, les LLM sont confrontés à des défis liés aux biais dans l'IA, car ils peuvent reproduire involontairement les préjugés présents dans leurs données d'entraînement. En outre, la puissance de calcul massive nécessaire pour entraîner des modèles tels que GPT-4 ou Google soulève des préoccupations en matière de consommation d'énergie. La recherche se concentre actuellement sur la quantification des modèles afin de rendre ces systèmes suffisamment efficaces pour fonctionner sur du matériel de pointe.

Pour approfondir vos connaissances techniques, l'article original Attention Is All You Need fournit la théorie fondamentale des Transformers. Vous pouvez également découvrir comment NVIDIA optimise le matériel pour ces charges de travail massives.

Rejoindre la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant