Triff YOLO26: Vision-KI der nächsten Generation.
Ultralytics
Zurück zum Ultralytics Glossar

Token Merging (ToMe)

Lerne, wie Token Merging (ToMe) Transformer- und ViT-Modelle optimiert. Entdecke, wie du FLOPs reduzierst, die Echtzeit-Inferenz beschleunigst und die Geschwindigkeit generativer KI steigerst.

Token Merging (ToMe) ist eine hochmoderne Technik, die darauf ausgelegt ist, die Leistung und Effizienz von Transformer-Architekturen zu optimieren, indem die Anzahl der während des Forward-Pass verarbeiteten Tokens reduziert wird. Ursprünglich entwickelt, um Vision Transformer (ViT)-Modelle zu beschleunigen, funktioniert ToMe durch die systematische Identifizierung und Kombination redundanter Tokens innerhalb des Netzwerks, ohne dass zusätzliches Training erforderlich ist. Da die Rechenkomplexität des self-attention-Mechanismus quadratisch mit der Anzahl der Tokens skaliert, reduziert das Zusammenführen ähnlicher Tokens die gesamte Anzahl der Gleitkommaoperationen (FLOPs) drastisch, was eine deutlich schnellere real-time inference ermöglicht.

Link to this sectionDen Token-Merging-Prozess verstehen#

ToMe unterscheidet sich grundlegend von der tokenization, dem anfänglichen Vorverarbeitungsschritt, bei dem ein Bild oder Text in einzelne tokens zerlegt wird. Während die Tokenisierung die diskreten Elemente erstellt, fungiert Token Merging als dynamischer Downsampling-Mechanismus während der Forward-Ausführung des Modells.

Der Algorithmus verwendet typischerweise bipartites Matching, um die Token-Ähnlichkeit zu bewerten, wobei oft die Kosinus-Ähnlichkeit zwischen den Keys der Tokens in den Attention-Layern berechnet wird. Tokens, die hochgradig ähnliche visuelle oder semantische Informationen teilen, werden zusammengeführt – oft durch Mittelwertbildung ihrer Features. Dies stellt sicher, dass wesentliche räumliche oder kontextbezogene Informationen erhalten bleiben, während unnötiger Rechenaufwand entfällt, was es Frameworks wie PyTorch ermöglicht, komplexe Vision-Modelle wesentlich schneller zu verarbeiten.

Link to this sectionAnwendungen von Token Merging in der Praxis#

Token Merging ist zu einer kritischen Optimierungsstrategie für den Einsatz schwerer Attention-basierter Architekturen in rechentechnisch eingeschränkten Umgebungen geworden.

  1. Generative AI und Bildsynthese: In populären Text-zu-Bild-Diffusionsmodellen wird ToMe häufig eingesetzt, um die Bildgenerierung zu beschleunigen. Durch das Zusammenführen von Hintergrund- oder detailarmen Tokens erfordert der Generierungsprozess weniger Schritte, was enorme GPU-Ressourcen spart und die Latenz für Endbenutzer reduziert, die auf generative Modelle angewiesen sind. Du kannst mehr über Diffusionsprozesse in grundlegenden Forschungsarbeiten auf arXiv erfahren.

  2. Edge AI Deployments: Das Bereitstellen massiver Modelle wie das Segment Anything Model (SAM) auf mobilen Geräten ist aufgrund von Speicherbeschränkungen bekanntermaßen schwierig. ToMe hilft dabei, den Speicherbedarf dynamisch zu reduzieren, wodurch komplexe image segmentation-Aufgaben auf Edge-Hardware ausgeführt werden können. Für Szenarien, in denen reine Geschwindigkeit entscheidend ist, setzen Ingenieure oft auf nativ optimierte, Attention-freie Architekturen wie Ultralytics YOLO26 für schnellere End-to-End Edge-Inferenz.

Link to this sectionPython-Beispiel: Berechnung der Token-Ähnlichkeit#

Während die Integration von ToMe in eine vollständige Architektur das Modifizieren der Attention-Blöcke erfordert, beruht das Kernkonzept darauf, ähnliche Tokens zu finden. Der folgende PyTorch-Schnipsel demonstriert, wie man die Kosinus-Ähnlichkeit zwischen einer Reihe von Tokens berechnen könnte, um zu identifizieren, welche davon Kandidaten für eine Zusammenführung sind.

import torch
import torch.nn.functional as F

# Simulate a batch of 4 image patches (tokens) with 64-dimensional features
tokens = torch.randn(1, 4, 64)

# Normalize the tokens to easily compute cosine similarity via dot product
normalized_tokens = F.normalize(tokens, p=2, dim=-1)

# Compute the similarity matrix between all tokens (1 x 4 x 4)
similarity_matrix = torch.matmul(normalized_tokens, normalized_tokens.transpose(1, 2))

# Tokens with high similarity scores (close to 1.0) off the diagonal
# are prime candidates for Token Merging.
print("Similarity Matrix:", similarity_matrix)

Moderne Machine-Learning-Pipelines erfordern ein sorgfältiges Gleichgewicht zwischen Genauigkeit und Geschwindigkeit. Egal, ob du Token Merging einsetzt, um ein benutzerdefiniertes ViT zu optimieren, oder dich auf die hochmodernen Effizienzen von YOLO26 verlässt, die Verwaltung dieser komplexen Daten-Workflows wird durch die Ultralytics Platform massiv vereinfacht. Die Plattform bietet ein intuitives Ökosystem für automatisierte data annotation, nahtloses Cloud-Training und robustes Model-Deployment über verschiedene edge computing-Hardwareumgebungen hinweg. Organisationen, die ihre computer vision-Initiativen skalieren, verlassen sich auf diese Tools, um State-of-the-Art-Modelle zuverlässig und effizient in die Produktion zu bringen.

Explore solutions

Real-time AI that works with your team

KI in der Robotik

Stärke intelligentere Maschinen mit Ultralytics YOLO Modellen. Vision AI in der Robotik treibt autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung voran.

Erfahre mehr
Real-time AI that works with your team

KI in der Logistik

Optimiere die Logistik mit Ultralytics YOLO-Modellen. Vision AI ermöglicht Paketkontrolle, Sortierung, Fahrzeugverfolgung und Echtzeit-Überwachung der Lagersicherheit.

Erfahre mehr
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO-Modellen. Vision AI fördert Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.

Erfahre mehr
Real-time AI that works with your team

KI im Gesundheitswesen

Baue Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision AI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.

Erfahre mehr
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO-Modellen. Vision AI treibt Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien voran.

Erfahre mehr
Real-time AI that works with your operation

KI in der Automobilbranche

Nutze Computer Vision in der Automobilindustrie mit Ultralytics YOLO Modellen. Vision AI steigert die Verkehrssicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.

Erfahre mehr
Real-time AI tailored to your operation

KI in der Landwirtschaft

Bringe Vision AI mit Ultralytics YOLO Modellen in die smarte Landwirtschaft. Optimiere die Ernteüberwachung, Viehverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.

Erfahre mehr
Real-time AI that works with your team

KI in der Robotik

Stärke intelligentere Maschinen mit Ultralytics YOLO Modellen. Vision AI in der Robotik treibt autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung voran.

Erfahre mehr
Real-time AI that works with your team

KI in der Logistik

Optimiere die Logistik mit Ultralytics YOLO-Modellen. Vision AI ermöglicht Paketkontrolle, Sortierung, Fahrzeugverfolgung und Echtzeit-Überwachung der Lagersicherheit.

Erfahre mehr
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO-Modellen. Vision AI fördert Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.

Erfahre mehr
Real-time AI that works with your team

KI im Gesundheitswesen

Baue Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision AI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.

Erfahre mehr
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO-Modellen. Vision AI treibt Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien voran.

Erfahre mehr
Real-time AI that works with your operation

KI in der Automobilbranche

Nutze Computer Vision in der Automobilindustrie mit Ultralytics YOLO Modellen. Vision AI steigert die Verkehrssicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.

Erfahre mehr
Real-time AI tailored to your operation

KI in der Landwirtschaft

Bringe Vision AI mit Ultralytics YOLO Modellen in die smarte Landwirtschaft. Optimiere die Ernteüberwachung, Viehverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.

Erfahre mehr
Real-time AI that works with your team

KI in der Robotik

Stärke intelligentere Maschinen mit Ultralytics YOLO Modellen. Vision AI in der Robotik treibt autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung voran.

Erfahre mehr
Real-time AI that works with your team

KI in der Logistik

Optimiere die Logistik mit Ultralytics YOLO-Modellen. Vision AI ermöglicht Paketkontrolle, Sortierung, Fahrzeugverfolgung und Echtzeit-Überwachung der Lagersicherheit.

Erfahre mehr
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO-Modellen. Vision AI fördert Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.

Erfahre mehr
Real-time AI that works with your team

KI im Gesundheitswesen

Baue Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision AI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.

Erfahre mehr
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO-Modellen. Vision AI treibt Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien voran.

Erfahre mehr
Real-time AI that works with your operation

KI in der Automobilbranche

Nutze Computer Vision in der Automobilindustrie mit Ultralytics YOLO Modellen. Vision AI steigert die Verkehrssicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.

Erfahre mehr
Real-time AI tailored to your operation

KI in der Landwirtschaft

Bringe Vision AI mit Ultralytics YOLO Modellen in die smarte Landwirtschaft. Optimiere die Ernteüberwachung, Viehverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.

Erfahre mehr

Lass uns gemeinsam die Zukunft der KI bauen!

Beginne deine Reise mit der Zukunft des maschinellen Lernens