Erfahren Sie, wie „Token Merging“ (ToMe) Transformer- und ViT-Modelle optimiert. Entdecken Sie, wie Sie die FLOPs reduzieren, die Echtzeit-Inferenz beschleunigen und die Geschwindigkeit generativer KI steigern können.
Token Merging (ToMe) ist eine hochmoderne Technik, die darauf ausgelegt ist, die Leistung und Effizienz von Transformer-Architekturen zu optimieren, indem die Anzahl der während der Vorwärtsdurchläufe verarbeiteten Token reduziert wird. Ursprünglich entwickelt, um Vision-Transformer-Modelle (ViT) zu beschleunigen, funktioniert ToMe durch die systematische Identifizierung und Zusammenführung redundanter Token innerhalb des Netzwerks, ohne dass ein zusätzliches Training erforderlich ist. Da die Rechenkomplexität des Self-Attention-Mechanismus quadratisch mit der Anzahl der Token skaliert, reduziert das Zusammenführen ähnlicher Token die Gesamtzahl der Gleitkommaoperationen (FLOPs) drastisch und ermöglicht so eine deutlich schnellere Echtzeit-Inferenz.
ToMe unterscheidet sich grundlegend von der Tokenisierung, die den ersten Vorverarbeitungsschritt darstellt, bei dem ein Bild oder ein Text in einzelne Token zerlegt wird. Während bei der Tokenisierung diskrete Elemente erzeugt werden, fungiert das Token-Merging während der Vorwärtsausführung des Modells als dynamischer Downsampling-Mechanismus.
Der Algorithmus nutzt in der Regel eine bipartite Zuordnung, um die Ähnlichkeit von Tokens zu bewerten, wobei häufig die Kosinusähnlichkeit zwischen den Schlüsseln der Tokens in den Aufmerksamkeitsschichten berechnet wird. Tokens, die sehr ähnliche visuelle oder semantische Informationen aufweisen, werden miteinander verschmolzen – häufig durch Mittelung ihrer Merkmale. Dies stellt sicher, dass wesentliche räumliche oder kontextuelle Informationen erhalten bleiben, während unnötiger Rechenaufwand vermieden wird, was Frameworks wie PyTorch komplexe Bildverarbeitungsmodelle wesentlich schneller verarbeiten können.
Das „Token Merging“ hat sich zu einer entscheidenden Optimierungsstrategie für den Einsatz ressourcenintensiver, auf Attention basierender Architekturen in Umgebungen mit begrenzten Rechenressourcen entwickelt.
Zwar erfordert die Integration von ToMe in eine vollständige Architektur eine Anpassung der Attention-Blöcke, doch basiert das Kernkonzept darauf, ähnliche Token zu finden. Der folgende PyTorch veranschaulicht, wie man die Kosinusähnlichkeit zwischen einer Gruppe von Token berechnen kann, um zu ermitteln, welche davon für eine Zusammenführung in Frage kommen.
import torch
import torch.nn.functional as F
# Simulate a batch of 4 image patches (tokens) with 64-dimensional features
tokens = torch.randn(1, 4, 64)
# Normalize the tokens to easily compute cosine similarity via dot product
normalized_tokens = F.normalize(tokens, p=2, dim=-1)
# Compute the similarity matrix between all tokens (1 x 4 x 4)
similarity_matrix = torch.matmul(normalized_tokens, normalized_tokens.transpose(1, 2))
# Tokens with high similarity scores (close to 1.0) off the diagonal
# are prime candidates for Token Merging.
print("Similarity Matrix:", similarity_matrix)
Moderne Machine-Learning-Pipelines erfordern einen sorgfältigen Kompromiss zwischen Genauigkeit und Geschwindigkeit. Ganz gleich, ob Sie Token Merging zur Optimierung eines benutzerdefinierten ViT einsetzen oder auf die bahnbrechende Effizienz von YOLO26 setzen – die Verwaltung dieser komplexen Daten- Workflows wird durch die Ultralytics erheblich vereinfacht. Die Plattform bietet ein intuitives Ökosystem für automatisierte Datenannotation, nahtloses Cloud-Training und robuste Modellbereitstellung in verschiedenen Edge-Computing-Hardwareumgebungen. Unternehmen, die ihre Computer-Vision- Initiativen ausbauen, verlassen sich auf diese Tools, um modernste Modelle zuverlässig und effizient in die Produktion zu bringen.
Beginnen Sie Ihre Reise mit der Zukunft des maschinellen Lernens