Découvre YOLO26 : l'IA de vision de nouvelle génération.
Ultralytics
Retour au glossaire Ultralytics

Medusa Heads

Découvre comment les têtes Medusa accélèrent le décodage des LLM. Apprends comment cette architecture multi-têtes permet la prédiction parallèle de jetons pour réduire la latence dans l'inférence IA.

Dans l'apprentissage automatique moderne, particulièrement au sein de l'architecture des modèles de langage étendus, ce terme désigne un cadre de décodage innovant conçu pour accélérer la génération de texte. En s'inspirant de la créature mythologique aux cheveux de serpents, ces architectures utilisent plusieurs têtes de décodage attachées à un seul modèle de base figé. Cette structure permet au réseau de prédire simultanément plusieurs jetons successifs plutôt que de dépendre strictement d'une génération autorégressive étape par étape. En esquissant plusieurs possibilités futures en parallèle, les systèmes peuvent réduire considérablement la latence d'inférence sans avoir besoin d'un modèle d'esquisse séparé et plus petit.

Link to this sectionComprendre l'architecture#

La génération de langage traditionnelle repose sur un processus autorégressif, où un modèle prédit le mot suivant en se basant sur la séquence des mots précédents. Bien qu'exact, ce traitement séquentiel crée des goulots d'étranglement dans la vitesse de calcul, un défi bien documenté dans des recherches récentes du Stanford NLP Group. Le cadre Medusa contourne cela en ajoutant des têtes de réseau neuronal supplémentaires au dernier état caché du modèle.

Chacune de ces têtes supplémentaires est entraînée à prédire un jeton à une position future différente. Pendant la génération, ces têtes créent un arbre de séquences de jetons probables. Un mécanisme d'attention sur l'arbre vérifie ensuite ces séquences simultanément. Si les prédictions correspondent aux attentes du modèle de base, plusieurs jetons sont acceptés en un seul passage vers l'avant. Cette technique est une forme très efficace de décodage spéculatif, et les détails sur ses mécanismes fondamentaux peuvent être explorés dans des articles académiques modernes sur arXiv.

Link to this sectionApplications concrètes en IA#

Les capacités de prédiction parallèle de cette architecture sont particulièrement précieuses dans les scénarios nécessitant une inférence en temps réel rapide et à haut volume.

  • Agents conversationnels en temps réel : Les bots de service client avancés propulsés par les modèles génératifs d'OpenAI ou le cadre Claude d'Anthropic s'appuient sur des réponses à faible latence pour maintenir un flux conversationnel naturel. En prédisant plusieurs jetons à la fois, ces agents peuvent diffuser du texte aux utilisateurs beaucoup plus rapidement.
  • Outils d'autocomplétion de code : Les environnements de programmation assistés par IA utilisent ces architectures multi-têtes pour suggérer instantanément des lignes entières ou des blocs de code. Comme le code possède des structures de syntaxe hautement prévisibles, les têtes parallèles peuvent esquisser précisément des fermetures de fonctions ou des boucles, améliorant ainsi l'efficacité du développeur.

Link to this sectionDistinction entre les termes architecturaux connexes#

Bien qu'ils partagent des similitudes conceptuelles, il est important de distinguer ce terme spécifique au TAL des composants structurels trouvés dans les systèmes de vision par ordinateur.

  • Tête de détection : Dans les modèles de vision comme le modèle de pointe Ultralytics YOLO26, la "tête" fait référence aux dernières couches du réseau responsables de la production de prédictions spatiales, telles que les boîtes englobantes et les probabilités de classe pour la détection d'objets.
  • Tête Medusa : Inversement, ce terme s'applique spécifiquement au traitement du langage naturel et aux modèles de vision-langage où l'objectif est de prédire des jetons séquentiels en parallèle pour contourner les goulots d'étranglement autorégressifs.

Link to this sectionMise en œuvre de structures multi-têtes#

Qu'il s'agisse de construire des têtes de prédiction spatiale pour la vision ou des prédicteurs de jetons parallèles pour le texte, les structures multi-têtes partagent des principes de mise en œuvre similaires en utilisant des bibliothèques de bas niveau comme PyTorch. L'extrait suivant montre comment construire un module multi-tête simple qui traite une représentation de caractéristiques partagée à travers plusieurs couches parallèles.

import torch
import torch.nn as nn


class ParallelHeads(nn.Module):
    def __init__(self, hidden_dim, num_heads):
        super().__init__()
        # Shared backbone representation
        self.base = nn.Linear(128, hidden_dim)
        # Multiple parallel heads predicting concurrent states
        self.heads = nn.ModuleList([nn.Linear(hidden_dim, 50) for _ in range(num_heads)])

    def forward(self, x):
        features = torch.relu(self.base(x))
        # Return predictions from all heads simultaneously
        return [head(features) for head in self.heads]


model = ParallelHeads(hidden_dim=64, num_heads=3)
predictions = model(torch.randn(1, 128))

Pour rationaliser le développement et le déploiement de modèles complexes à plusieurs couches dans des environnements de production, les développeurs utilisent souvent des systèmes complets comme la Plateforme Ultralytics. Cela permet aux équipes de gérer les options de déploiement de modèles de manière transparente, garantissant que les architectures optimisées pour la vitesse — que ce soit par le décodage spéculatif ou des têtes de détection de vision efficaces — fonctionnent de manière fiable dans le monde réel. Pour plus d'informations sur l'optimisation des flux de travail d'apprentissage automatique, tu peux consulter les publications de Google DeepMind ou explorer les actes dans la ACM Digital Library.

Explore solutions

Real-time AI that works with your team

IA dans la robotique

Équipe tes machines plus intelligentes avec les modèles Ultralytics YOLO. La vision par IA dans la robotique propulse la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans la logistique

Simplifie la logistique avec les modèles Ultralytics YOLO. La vision par IA permet l'inspection des colis, le tri, le suivi des véhicules et la surveillance de la sécurité des entrepôts en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans le commerce de détail

Réinvente le commerce de détail avec les modèles Ultralytics YOLO. La vision par IA alimente le suivi des stocks, la surveillance des étagères, la gestion des files d'attente et des informations plus intelligentes sur les clients.

En savoir plus
Real-time AI that works with your team

IA dans la santé

Construis des solutions de santé avec les modèles Ultralytics YOLO. L'IA de vision dans la santé permet une imagerie médicale plus rapide, des diagnostics plus intelligents et une surveillance des patients.

En savoir plus
Real-time AI that works with your team

IA dans la fabrication

Optimise la fabrication avec les modèles Ultralytics YOLO. La vision par IA favorise le contrôle qualité, la détection des défauts, la conformité aux EPI et l'automatisation des chaînes de montage.

En savoir plus
Real-time AI that works with your operation

IA dans l'automobile

Applique la vision par ordinateur dans l'automobile avec les modèles Ultralytics YOLO. L'IA de vision améliore la sécurité routière, l'assistance à la conduite et l'automatisation des véhicules pour des routes plus intelligentes.

En savoir plus
Real-time AI tailored to your operation

IA en agriculture

Intègre l'IA de vision à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise la surveillance des cultures, le suivi du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.

En savoir plus
Real-time AI that works with your team

IA dans la robotique

Équipe tes machines plus intelligentes avec les modèles Ultralytics YOLO. La vision par IA dans la robotique propulse la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans la logistique

Simplifie la logistique avec les modèles Ultralytics YOLO. La vision par IA permet l'inspection des colis, le tri, le suivi des véhicules et la surveillance de la sécurité des entrepôts en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans le commerce de détail

Réinvente le commerce de détail avec les modèles Ultralytics YOLO. La vision par IA alimente le suivi des stocks, la surveillance des étagères, la gestion des files d'attente et des informations plus intelligentes sur les clients.

En savoir plus
Real-time AI that works with your team

IA dans la santé

Construis des solutions de santé avec les modèles Ultralytics YOLO. L'IA de vision dans la santé permet une imagerie médicale plus rapide, des diagnostics plus intelligents et une surveillance des patients.

En savoir plus
Real-time AI that works with your team

IA dans la fabrication

Optimise la fabrication avec les modèles Ultralytics YOLO. La vision par IA favorise le contrôle qualité, la détection des défauts, la conformité aux EPI et l'automatisation des chaînes de montage.

En savoir plus
Real-time AI that works with your operation

IA dans l'automobile

Applique la vision par ordinateur dans l'automobile avec les modèles Ultralytics YOLO. L'IA de vision améliore la sécurité routière, l'assistance à la conduite et l'automatisation des véhicules pour des routes plus intelligentes.

En savoir plus
Real-time AI tailored to your operation

IA en agriculture

Intègre l'IA de vision à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise la surveillance des cultures, le suivi du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.

En savoir plus
Real-time AI that works with your team

IA dans la robotique

Équipe tes machines plus intelligentes avec les modèles Ultralytics YOLO. La vision par IA dans la robotique propulse la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans la logistique

Simplifie la logistique avec les modèles Ultralytics YOLO. La vision par IA permet l'inspection des colis, le tri, le suivi des véhicules et la surveillance de la sécurité des entrepôts en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans le commerce de détail

Réinvente le commerce de détail avec les modèles Ultralytics YOLO. La vision par IA alimente le suivi des stocks, la surveillance des étagères, la gestion des files d'attente et des informations plus intelligentes sur les clients.

En savoir plus
Real-time AI that works with your team

IA dans la santé

Construis des solutions de santé avec les modèles Ultralytics YOLO. L'IA de vision dans la santé permet une imagerie médicale plus rapide, des diagnostics plus intelligents et une surveillance des patients.

En savoir plus
Real-time AI that works with your team

IA dans la fabrication

Optimise la fabrication avec les modèles Ultralytics YOLO. La vision par IA favorise le contrôle qualité, la détection des défauts, la conformité aux EPI et l'automatisation des chaînes de montage.

En savoir plus
Real-time AI that works with your operation

IA dans l'automobile

Applique la vision par ordinateur dans l'automobile avec les modèles Ultralytics YOLO. L'IA de vision améliore la sécurité routière, l'assistance à la conduite et l'automatisation des véhicules pour des routes plus intelligentes.

En savoir plus
Real-time AI tailored to your operation

IA en agriculture

Intègre l'IA de vision à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise la surveillance des cultures, le suivi du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.

En savoir plus

Construisons ensemble le futur de l'IA !

Commence ton aventure avec le futur de l'apprentissage automatique