Large Language Model (LLM)
Explore les fondamentaux des Large Language Models (LLM). Apprends sur l'architecture Transformer, la tokenisation et comment combiner les LLM avec Ultralytics YOLO26.
Un modèle de langage étendu (LLM) est un type sophistiqué d'intelligence artificielle (IA) entraîné sur des jeux de données massifs pour comprendre, générer et manipuler le langage humain. Ces modèles représentent une évolution significative dans le Deep Learning (DL), utilisant des réseaux de neurones avec des milliards de paramètres pour capturer des modèles linguistiques, une grammaire et des relations sémantiques complexes. Au cœur de leur fonctionnement, la plupart des LLM modernes reposent sur l'architecture Transformer, qui leur permet de traiter des séquences de données en parallèle plutôt que de manière séquentielle. Cette architecture emploie un mécanisme d'auto-attention, permettant au modèle de pondérer l'importance de différents mots dans une phrase les uns par rapport aux autres, indépendamment de leur distance dans le texte.
Link to this sectionMécanismes fondamentaux des LLM#
La fonctionnalité d'un LLM commence par la tokenisation, un processus où le texte brut est décomposé en unités plus petites appelées jetons ou « tokens » (mots ou sous-mots). Pendant la phase d'entraînement du modèle, le système analyse des pétaoctets de texte provenant d'Internet, de livres et d'articles. Il s'engage dans un apprentissage non supervisé pour prédire le jeton suivant dans une séquence, apprenant ainsi efficacement la structure statistique du langage.
Suite à cet entraînement initial, les développeurs appliquent souvent un fine-tuning pour spécialiser le modèle sur des tâches distinctes, comme l'analyse médicale ou l'assistance au codage. Cette adaptabilité est la raison pour laquelle des organisations comme le Stanford Center for Research on Foundation Models les classent comme des « modèles de fondation » — des bases larges sur lesquelles des applications spécifiques sont construites.
Link to this sectionApplications concrètes#
Les LLM ont dépassé la recherche théorique pour atteindre des applications pratiques à fort impact dans diverses industries :
- Assistants virtuels intelligents : Le service client moderne repose largement sur des chatbots propulsés par des LLM. Contrairement aux anciens systèmes basés sur des règles, ces agents peuvent gérer des requêtes nuancées. Pour améliorer la précision et réduire les hallucinations, les développeurs intègrent la génération augmentée par récupération (RAG), permettant au modèle de référencer une documentation d'entreprise externe et à jour avant de répondre.
- Systèmes multimodaux vision-langage : La frontière de l'IA relie le texte aux données visuelles. Les modèles vision-langage (VLM) permettent aux utilisateurs d'interroger des images en utilisant le langage naturel. Par exemple, combiner une interface linguistique avec un détecteur robuste comme YOLO26 permet aux systèmes d'identifier et de décrire des objets dans des flux vidéo en temps réel basés sur des commandes vocales.
Link to this sectionFaire le pont entre texte et vision avec du code#
Alors que les LLM standards traitent du texte, l'industrie s'oriente vers l'IA multimodale. L'exemple suivant montre comment des invites linguistiques peuvent contrôler des tâches de vision par ordinateur en utilisant YOLO-World, un modèle qui comprend des descripteurs textuels pour la détection à vocabulaire ouvert.
from ultralytics import YOLOWorld
# Load a model capable of understanding natural language prompts
model = YOLOWorld("yolov8s-world.pt")
# Define custom classes using text descriptions rather than fixed labels
model.set_classes(["person wearing a red helmet", "blue industrial machine"])
# Run inference to detect these specific text-defined objects
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Show results
results[0].show()Link to this sectionDistinguer les concepts apparentés#
Il est important de différencier les LLM des termes plus larges ou parallèles :
- LLM vs Traitement du langage naturel (NLP) : Le NLP est le domaine académique global qui s'intéresse à l'interaction entre les ordinateurs et le langage humain. Un LLM est un outil ou une technologie spécifique utilisé au sein de ce domaine pour obtenir des résultats de pointe.
- LLM vs IA générative : L'IA générative est une catégorie qui englobe toute IA capable de créer du nouveau contenu. Les LLM constituent le sous-ensemble textuel de cette catégorie, tandis que des modèles comme Stable Diffusion représentent le sous-ensemble de génération d'images.
Link to this sectionDéfis et perspectives d'avenir#
Malgré leurs capacités, les LLM font face à des défis concernant le biais dans l'IA, car ils peuvent reproduire par inadvertance les préjugés trouvés dans leurs données d'entraînement. De plus, la puissance de calcul massive requise pour entraîner des modèles comme GPT-4 ou Google Gemini soulève des inquiétudes concernant la consommation d'énergie. La recherche se concentre actuellement sur la quantification de modèle pour rendre ces systèmes suffisamment efficaces pour fonctionner sur du matériel en périphérie.
Pour des aperçus techniques plus approfondis, le papier original Attention Is All You Need fournit la théorie fondamentale des Transformers. Tu peux également explorer comment NVIDIA optimise le matériel pour ces charges de travail massives.






