Découvre YOLO26 : l'IA de vision de nouvelle génération.
Ultralytics
Retour au glossaire Ultralytics

Token Merging (ToMe)

Apprends comment la fusion de tokens (ToMe) optimise les modèles Transformer et ViT. Découvre comment réduire les FLOPs, accélérer l'inférence en temps réel et booster la vitesse de l'IA générative.

Token Merging (ToMe) est une technique de pointe conçue pour optimiser les performances et l'efficacité des architectures Transformer en réduisant le nombre de jetons traités lors des passes avant. Initialement développée pour accélérer les modèles Vision Transformer (ViT), ToMe fonctionne en identifiant et en combinant systématiquement les jetons redondants au sein du réseau sans nécessiter d'entraînement supplémentaire. Comme la complexité computationnelle du mécanisme d'self-attention augmente de façon quadratique avec le nombre de jetons, la fusion de jetons similaires réduit considérablement le nombre total d'opérations en virgule flottante (FLOPs), permettant une real-time inference nettement plus rapide.

Link to this sectionComprendre le processus de Token Merging#

ToMe est fondamentalement différent de la tokenization, qui est l'étape de prétraitement initiale consistant à décomposer une image ou un texte en tokens individuels. Alors que la tokenization crée les éléments discrets, le Token Merging agit comme un mécanisme de sous-échantillonnage dynamique lors de l'exécution avant du modèle.

L'algorithme utilise généralement le couplage biparti pour évaluer la similarité des jetons, en calculant souvent la similarité cosinus entre les clés des jetons dans les couches d'attention. Les jetons qui partagent des informations visuelles ou sémantiques très similaires sont fusionnés, souvent en faisant la moyenne de leurs caractéristiques. Cela garantit que les informations spatiales ou contextuelles essentielles sont préservées tout en éliminant la charge computationnelle inutile, permettant à des frameworks comme PyTorch de traiter des modèles de vision complexes beaucoup plus rapidement.

Link to this sectionApplications concrètes du Token Merging#

Le Token Merging est devenu une stratégie d'optimisation critique pour le déploiement d'architectures lourdes basées sur l'attention dans des environnements aux ressources computationnelles limitées.

  1. Generative AI and Image Synthesis : Dans les modèles de diffusion texte-image populaires, ToMe est fréquemment utilisé pour accélérer la génération d'images. En fusionnant les jetons d'arrière-plan ou peu détaillés, le processus de génération nécessite moins d'étapes, économisant d'immenses ressources GPU et réduisant la latence pour les utilisateurs finaux qui dépendent de modèles génératifs. Tu peux en apprendre davantage sur les processus de diffusion dans la recherche fondamentale sur arXiv.

  2. Edge AI Deployments : Le déploiement de modèles massifs comme le Segment Anything Model (SAM) sur des appareils mobiles est notoirement difficile en raison des contraintes de mémoire. ToMe aide à réduire l'empreinte mémoire de manière dynamique, permettant à des tâches complexes d'image segmentation de s'exécuter sur du matériel en périphérie (edge). Pour les scénarios où la vitesse pure est critique, les ingénieurs se tournent souvent vers des architectures optimisées nativement et sans attention comme Ultralytics YOLO26 pour une inférence edge de bout en bout plus rapide.

Link to this sectionExemple Python : Calcul de la similarité des jetons#

Bien que l'intégration de ToMe dans une architecture complète nécessite de modifier les blocs d'attention, le concept de base repose sur la recherche de jetons similaires. L'extrait PyTorch suivant montre comment calculer la similarité cosinus entre un ensemble de jetons pour identifier ceux qui sont candidats à la fusion.

import torch
import torch.nn.functional as F

# Simulate a batch of 4 image patches (tokens) with 64-dimensional features
tokens = torch.randn(1, 4, 64)

# Normalize the tokens to easily compute cosine similarity via dot product
normalized_tokens = F.normalize(tokens, p=2, dim=-1)

# Compute the similarity matrix between all tokens (1 x 4 x 4)
similarity_matrix = torch.matmul(normalized_tokens, normalized_tokens.transpose(1, 2))

# Tokens with high similarity scores (close to 1.0) off the diagonal
# are prime candidates for Token Merging.
print("Similarity Matrix:", similarity_matrix)

Les pipelines d'apprentissage automatique modernes exigent un équilibre minutieux entre précision et vitesse. Que tu utilises le Token Merging pour optimiser un ViT personnalisé ou que tu te fies aux efficacités de pointe de YOLO26, la gestion de ces flux de données complexes est grandement simplifiée par la Ultralytics Platform. La plateforme fournit un écosystème intuitif pour la data annotation automatisée, l'entraînement cloud fluide et le déploiement robuste de modèles sur divers environnements matériels d'edge computing. Les organisations qui mettent à l'échelle leurs initiatives de computer vision s'appuient sur ces outils pour mettre en production des modèles de pointe de manière fiable et efficace.

Explore solutions

Real-time AI that works with your team

IA dans la robotique

Équipe tes machines plus intelligentes avec les modèles Ultralytics YOLO. La vision par IA dans la robotique propulse la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans la logistique

Simplifie la logistique avec les modèles Ultralytics YOLO. La vision par IA permet l'inspection des colis, le tri, le suivi des véhicules et la surveillance de la sécurité des entrepôts en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans le commerce de détail

Réinvente le commerce de détail avec les modèles Ultralytics YOLO. La vision par IA alimente le suivi des stocks, la surveillance des étagères, la gestion des files d'attente et des informations plus intelligentes sur les clients.

En savoir plus
Real-time AI that works with your team

IA dans la santé

Construis des solutions de santé avec les modèles Ultralytics YOLO. L'IA de vision dans la santé permet une imagerie médicale plus rapide, des diagnostics plus intelligents et une surveillance des patients.

En savoir plus
Real-time AI that works with your team

IA dans la fabrication

Optimise la fabrication avec les modèles Ultralytics YOLO. La vision par IA favorise le contrôle qualité, la détection des défauts, la conformité aux EPI et l'automatisation des chaînes de montage.

En savoir plus
Real-time AI that works with your operation

IA dans l'automobile

Applique la vision par ordinateur dans l'automobile avec les modèles Ultralytics YOLO. L'IA de vision améliore la sécurité routière, l'assistance à la conduite et l'automatisation des véhicules pour des routes plus intelligentes.

En savoir plus
Real-time AI tailored to your operation

IA en agriculture

Intègre l'IA de vision à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise la surveillance des cultures, le suivi du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.

En savoir plus
Real-time AI that works with your team

IA dans la robotique

Équipe tes machines plus intelligentes avec les modèles Ultralytics YOLO. La vision par IA dans la robotique propulse la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans la logistique

Simplifie la logistique avec les modèles Ultralytics YOLO. La vision par IA permet l'inspection des colis, le tri, le suivi des véhicules et la surveillance de la sécurité des entrepôts en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans le commerce de détail

Réinvente le commerce de détail avec les modèles Ultralytics YOLO. La vision par IA alimente le suivi des stocks, la surveillance des étagères, la gestion des files d'attente et des informations plus intelligentes sur les clients.

En savoir plus
Real-time AI that works with your team

IA dans la santé

Construis des solutions de santé avec les modèles Ultralytics YOLO. L'IA de vision dans la santé permet une imagerie médicale plus rapide, des diagnostics plus intelligents et une surveillance des patients.

En savoir plus
Real-time AI that works with your team

IA dans la fabrication

Optimise la fabrication avec les modèles Ultralytics YOLO. La vision par IA favorise le contrôle qualité, la détection des défauts, la conformité aux EPI et l'automatisation des chaînes de montage.

En savoir plus
Real-time AI that works with your operation

IA dans l'automobile

Applique la vision par ordinateur dans l'automobile avec les modèles Ultralytics YOLO. L'IA de vision améliore la sécurité routière, l'assistance à la conduite et l'automatisation des véhicules pour des routes plus intelligentes.

En savoir plus
Real-time AI tailored to your operation

IA en agriculture

Intègre l'IA de vision à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise la surveillance des cultures, le suivi du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.

En savoir plus
Real-time AI that works with your team

IA dans la robotique

Équipe tes machines plus intelligentes avec les modèles Ultralytics YOLO. La vision par IA dans la robotique propulse la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans la logistique

Simplifie la logistique avec les modèles Ultralytics YOLO. La vision par IA permet l'inspection des colis, le tri, le suivi des véhicules et la surveillance de la sécurité des entrepôts en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans le commerce de détail

Réinvente le commerce de détail avec les modèles Ultralytics YOLO. La vision par IA alimente le suivi des stocks, la surveillance des étagères, la gestion des files d'attente et des informations plus intelligentes sur les clients.

En savoir plus
Real-time AI that works with your team

IA dans la santé

Construis des solutions de santé avec les modèles Ultralytics YOLO. L'IA de vision dans la santé permet une imagerie médicale plus rapide, des diagnostics plus intelligents et une surveillance des patients.

En savoir plus
Real-time AI that works with your team

IA dans la fabrication

Optimise la fabrication avec les modèles Ultralytics YOLO. La vision par IA favorise le contrôle qualité, la détection des défauts, la conformité aux EPI et l'automatisation des chaînes de montage.

En savoir plus
Real-time AI that works with your operation

IA dans l'automobile

Applique la vision par ordinateur dans l'automobile avec les modèles Ultralytics YOLO. L'IA de vision améliore la sécurité routière, l'assistance à la conduite et l'automatisation des véhicules pour des routes plus intelligentes.

En savoir plus
Real-time AI tailored to your operation

IA en agriculture

Intègre l'IA de vision à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise la surveillance des cultures, le suivi du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.

En savoir plus

Construisons ensemble le futur de l'IA !

Commence ton aventure avec le futur de l'apprentissage automatique