Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten
Glossar

Token-Zusammenführung (ToMe)

Erfahren Sie, wie „Token Merging“ (ToMe) Transformer- und ViT-Modelle optimiert. Entdecken Sie, wie Sie die FLOPs reduzieren, die Echtzeit-Inferenz beschleunigen und die Geschwindigkeit generativer KI steigern können.

Token Merging (ToMe) ist eine hochmoderne Technik, die darauf ausgelegt ist, die Leistung und Effizienz von Transformer-Architekturen zu optimieren, indem die Anzahl der während der Vorwärtsdurchläufe verarbeiteten Token reduziert wird. Ursprünglich entwickelt, um Vision-Transformer-Modelle (ViT) zu beschleunigen, funktioniert ToMe durch die systematische Identifizierung und Zusammenführung redundanter Token innerhalb des Netzwerks, ohne dass ein zusätzliches Training erforderlich ist. Da die Rechenkomplexität des Self-Attention-Mechanismus quadratisch mit der Anzahl der Token skaliert, reduziert das Zusammenführen ähnlicher Token die Gesamtzahl der Gleitkommaoperationen (FLOPs) drastisch und ermöglicht so eine deutlich schnellere Echtzeit-Inferenz.

Der Prozess der Token-Zusammenführung verstehen

ToMe unterscheidet sich grundlegend von der Tokenisierung, die den ersten Vorverarbeitungsschritt darstellt, bei dem ein Bild oder ein Text in einzelne Token zerlegt wird. Während bei der Tokenisierung diskrete Elemente erzeugt werden, fungiert das Token-Merging während der Vorwärtsausführung des Modells als dynamischer Downsampling-Mechanismus.

Der Algorithmus nutzt in der Regel eine bipartite Zuordnung, um die Ähnlichkeit von Tokens zu bewerten, wobei häufig die Kosinusähnlichkeit zwischen den Schlüsseln der Tokens in den Aufmerksamkeitsschichten berechnet wird. Tokens, die sehr ähnliche visuelle oder semantische Informationen aufweisen, werden miteinander verschmolzen – häufig durch Mittelung ihrer Merkmale. Dies stellt sicher, dass wesentliche räumliche oder kontextuelle Informationen erhalten bleiben, während unnötiger Rechenaufwand vermieden wird, was Frameworks wie PyTorch komplexe Bildverarbeitungsmodelle wesentlich schneller verarbeiten können.

Praktische Anwendungen der Token-Zusammenführung

Das „Token Merging“ hat sich zu einer entscheidenden Optimierungsstrategie für den Einsatz ressourcenintensiver, auf Attention basierender Architekturen in Umgebungen mit begrenzten Rechenressourcen entwickelt.

  1. Generative KI und Bildsynthese: In gängigen Text-zu-Bild-Diffusionsmodellen wird ToMe häufig eingesetzt, um die Bildgenerierung zu beschleunigen. Durch das Zusammenführen von Hintergrund- oder wenig detaillierten Tokens erfordert der Generierungsprozess weniger Schritte, was immense GPU einspart und die Latenz für Endnutzer verringert, die auf generative Modelle angewiesen sind. Mehr über Diffusionsprozesse erfahren Sie in der Grundlagenforschung auf arXiv.
  2. Edge-KI-Implementierungen: Die Bereitstellung umfangreicher Modelle wie des Segment Anything Model (SAM) auf Mobilgeräten ist bekanntermaßen aufgrund von Speicherbeschränkungen schwierig. ToMe hilft dabei, den Speicherbedarf dynamisch zu reduzieren, sodass komplexe Bildsegmentierungsaufgaben auf Edge-Hardware ausgeführt werden können. In Szenarien, in denen reine Geschwindigkeit entscheidend ist, greifen Ingenieure häufig auf nativ optimierte, aufmerksamkeitsfreie Architekturen wie Ultralytics zurück, um eine schnellere, durchgängige Edge-Inferenz zu erzielen.

Python : Berechnung der Token-Ähnlichkeit

Zwar erfordert die Integration von ToMe in eine vollständige Architektur eine Anpassung der Attention-Blöcke, doch basiert das Kernkonzept darauf, ähnliche Token zu finden. Der folgende PyTorch veranschaulicht, wie man die Kosinusähnlichkeit zwischen einer Gruppe von Token berechnen kann, um zu ermitteln, welche davon für eine Zusammenführung in Frage kommen.

import torch
import torch.nn.functional as F

# Simulate a batch of 4 image patches (tokens) with 64-dimensional features
tokens = torch.randn(1, 4, 64)

# Normalize the tokens to easily compute cosine similarity via dot product
normalized_tokens = F.normalize(tokens, p=2, dim=-1)

# Compute the similarity matrix between all tokens (1 x 4 x 4)
similarity_matrix = torch.matmul(normalized_tokens, normalized_tokens.transpose(1, 2))

# Tokens with high similarity scores (close to 1.0) off the diagonal
# are prime candidates for Token Merging.
print("Similarity Matrix:", similarity_matrix)

Moderne Machine-Learning-Pipelines erfordern einen sorgfältigen Kompromiss zwischen Genauigkeit und Geschwindigkeit. Ganz gleich, ob Sie Token Merging zur Optimierung eines benutzerdefinierten ViT einsetzen oder auf die bahnbrechende Effizienz von YOLO26 setzen – die Verwaltung dieser komplexen Daten- Workflows wird durch die Ultralytics erheblich vereinfacht. Die Plattform bietet ein intuitives Ökosystem für automatisierte Datenannotation, nahtloses Cloud-Training und robuste Modellbereitstellung in verschiedenen Edge-Computing-Hardwareumgebungen. Unternehmen, die ihre Computer-Vision- Initiativen ausbauen, verlassen sich auf diese Tools, um modernste Modelle zuverlässig und effizient in die Produktion zu bringen.

Lassen Sie uns gemeinsam die Zukunft der KI gestalten!

Beginnen Sie Ihre Reise mit der Zukunft des maschinellen Lernens