Triff YOLO26: Vision-KI der nächsten Generation.
Ultralytics
Zurück zum Ultralytics Glossar

Vision Transformer (ViT)

Erkunde die Stärke von Vision Transformers (ViT). Lerne, wie Self-Attention und Patch-Tokenisierung die Computer Vision jenseits von CNNs mit Ultralytics revolutionieren.

Ein Vision Transformer (ViT) ist eine Deep-Learning-Architektur, die die ursprünglich für Natural Language Processing (NLP) entwickelten Self-Attention-Mechanismen zur Lösung visueller Aufgaben adaptiert. Im Gegensatz zu einem herkömmlichen Convolutional Neural Network (CNN), das Bilder durch eine Hierarchie lokaler Pixelgitter verarbeitet, behandelt ein ViT ein Bild als eine Sequenz diskreter Patches. Dieser Ansatz wurde durch die wegweisende Forschungsarbeit "An Image is Worth 16x16 Words" populär gemacht, die zeigte, dass reine Transformer-Architekturen in der computer vision (CV) eine bahnbrechende Performance erzielen können, ohne auf Faltungsschichten angewiesen zu sein. Durch die Nutzung globaler Aufmerksamkeit können ViTs bereits ab der ersten Schicht weitreichende Abhängigkeiten über ein gesamtes Bild hinweg erfassen.

Link to this sectionWie Vision Transformer funktionieren#

Die grundlegende Innovation des ViT ist die Art und Weise, wie es Eingabedaten strukturiert. Um ein Bild mit einem Standard-Transformer kompatibel zu machen, zerlegt das Modell die visuellen Informationen in eine Sequenz von Vektoren, was nachahmt, wie ein Sprachmodell einen Satz aus Wörtern verarbeitet.

  1. Patch-Tokenisierung: Das Eingabebild wird in ein Gitter aus Quadraten fester Größe unterteilt, typischerweise 16x16 Pixel. Jedes Quadrat wird in einen Vektor abgeflacht und wird so effektiv zu einem visuellen Token.

  2. Lineare Projektion: Diese abgeflachten Patches werden durch eine trainierbare lineare Schicht geleitet, um dichte Embeddings zu erstellen. Dieser Schritt bildet die rohen Pixelwerte in einen hochdimensionalen Raum ab, den das Modell verarbeiten kann.

  3. Positions-Encoding: Da die Architektur Sequenzen parallel verarbeitet und kein inhärentes Verständnis für Reihenfolge oder Raum besitzt, werden lernbare positional encodings zu den Patch-Embeddings hinzugefügt. Dies ermöglicht es dem Modell, räumliche Informationen darüber beizubehalten, wo jeder Patch im Originalbild hingehört.

  4. Self-Attention-Mechanismus: Die Sequenz tritt in den Transformer-Encoder ein, wo self-attention es jedem Patch ermöglicht, gleichzeitig mit jedem anderen Patch zu interagieren. Dies ermöglicht es dem Netzwerk, globalen Kontext zu lernen und zu verstehen, wie ein Pixel in der oberen linken Ecke mit einem in der unteren rechten zusammenhängt.

  5. Klassifizierungskopf: Für Aufgaben wie die image classification wird der Sequenz oft ein spezielles „Class-Token“ vorangestellt. Der finale Ausgabezustand dieses Tokens dient als aggregierte Repräsentation des Bildes, welche dann in einen Klassifikator eingespeist wird, beispielsweise ein multilayer perceptron (MLP).

Link to this sectionVision Transformer vs. CNNs#

Während beide Architekturen darauf abzielen, visuelle Daten zu verstehen, unterscheiden sie sich in ihrer operativen Philosophie erheblich. CNNs besitzen einen starken „induktiven Bias“, bekannt als Translationsinvarianz, was bedeutet, dass sie inhärent davon ausgehen, dass lokale Merkmale (wie Kanten und Texturen) unabhängig von ihrer Position wichtig sind. Dies macht CNNs sehr dateneffizient und effektiv bei kleineren datasets.

Umgekehrt haben Vision Transformer weniger bildspezifischen Bias. Sie müssen räumliche Beziehungen von Grund auf lernen, wofür enorme Mengen an training data erforderlich sind, wie etwa die Datensätze JFT-300M oder vollständige ImageNet-Datensätze. Während dies das Training rechenintensiver macht, ermöglicht es ViTs, sich bemerkenswert gut zu skalieren; mit ausreichend Daten und compute power können sie CNNs übertreffen, indem sie komplexe globale Strukturen erfassen, die lokalen Faltungen entgehen könnten.

Link to this sectionPraxisanwendungen#

Die Fähigkeit, globalen Kontext zu verstehen, macht ViTs besonders nützlich für komplexe Umgebungen mit hohen Anforderungen.

  • Medizinische Bildanalyse: In der healthcare AI werden ViTs verwendet, um hochauflösende Scans wie MRTs oder histopathologische Schnitte zu analysieren. Zum Beispiel kann ein ViT bei der tumor detection subtile Texturanomalien im Gewebe mit breiteren strukturellen Veränderungen im gesamten Schnitt korrelieren und so bösartige Muster identifizieren, die eine lokale Verarbeitung übersehen könnte.
  • Satellitenbilder und Fernerkundung: ViTs zeichnen sich bei der satellite image analysis aus, bei der sich die Beziehungen zwischen Objekten über große Entfernungen erstrecken. Zum Beispiel erfordert die Verbindung eines Abholzungsgebiets mit einer weit entfernten Holzfällerstraße das Verständnis des „großen Ganzen“ einer Landschaft – eine Aufgabe, bei der die globale Aufmerksamkeit eines ViT das begrenzte rezeptive Feld von Standard-CNNs übertrifft.

Link to this sectionNutzung von Transformern mit Ultralytics#

Die ultralytics-Bibliothek unterstützt Transformer-basierte Architekturen, allen voran den RT-DETR (Real-Time Detection Transformer). Während der Flaggschiff-Prototyp YOLO26 aufgrund seiner Balance aus Geschwindigkeit und Genauigkeit auf Edge-Geräten oft bevorzugt wird, bietet RT-DETR eine leistungsstarke Alternative für Szenarien, bei denen der globale Kontext im Vordergrund steht.

Das folgende Python-Beispiel demonstriert, wie man ein vortrainiertes Transformer-basiertes Modell lädt und die Inferenz ausführt:

from ultralytics import RTDETR

# Load a pre-trained RT-DETR model (Vision Transformer-based)
model = RTDETR("rtdetr-l.pt")

# Run inference on an image source
# The model uses self-attention to detect objects globally
results = model("https://ultralytics.com/images/bus.jpg")

# Display the detection results
results[0].show()

Link to this sectionAusblick auf die Zukunft#

Die Forschung entwickelt sich rasant weiter, um die hohen Rechenkosten von ViTs zu adressieren. Techniken wie FlashAttention machen diese Modelle schneller und speichereffizienter. Darüber hinaus werden hybride Architekturen, die die Effizienz von CNNs mit der Aufmerksamkeit von Transformern kombinieren, immer häufiger. Für Teams, die diese fortgeschrittenen Arbeitsabläufe verwalten möchten, bietet die Ultralytics Platform eine einheitliche Umgebung, um Daten zu annotieren, komplexe Modelle über die Cloud zu trainieren und sie auf verschiedenen Endpunkten bereitzustellen.

Explore solutions

Real-time AI that works with your team

KI in der Robotik

Stärke intelligentere Maschinen mit Ultralytics YOLO Modellen. Vision AI in der Robotik treibt autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung voran.

Erfahre mehr
Real-time AI that works with your team

KI in der Logistik

Optimiere die Logistik mit Ultralytics YOLO-Modellen. Vision AI ermöglicht Paketkontrolle, Sortierung, Fahrzeugverfolgung und Echtzeit-Überwachung der Lagersicherheit.

Erfahre mehr
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO-Modellen. Vision AI fördert Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.

Erfahre mehr
Real-time AI that works with your team

KI im Gesundheitswesen

Baue Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision AI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.

Erfahre mehr
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO-Modellen. Vision AI treibt Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien voran.

Erfahre mehr
Real-time AI that works with your operation

KI in der Automobilbranche

Nutze Computer Vision in der Automobilindustrie mit Ultralytics YOLO Modellen. Vision AI steigert die Verkehrssicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.

Erfahre mehr
Real-time AI tailored to your operation

KI in der Landwirtschaft

Bringe Vision AI mit Ultralytics YOLO Modellen in die smarte Landwirtschaft. Optimiere die Ernteüberwachung, Viehverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.

Erfahre mehr
Real-time AI that works with your team

KI in der Robotik

Stärke intelligentere Maschinen mit Ultralytics YOLO Modellen. Vision AI in der Robotik treibt autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung voran.

Erfahre mehr
Real-time AI that works with your team

KI in der Logistik

Optimiere die Logistik mit Ultralytics YOLO-Modellen. Vision AI ermöglicht Paketkontrolle, Sortierung, Fahrzeugverfolgung und Echtzeit-Überwachung der Lagersicherheit.

Erfahre mehr
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO-Modellen. Vision AI fördert Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.

Erfahre mehr
Real-time AI that works with your team

KI im Gesundheitswesen

Baue Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision AI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.

Erfahre mehr
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO-Modellen. Vision AI treibt Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien voran.

Erfahre mehr
Real-time AI that works with your operation

KI in der Automobilbranche

Nutze Computer Vision in der Automobilindustrie mit Ultralytics YOLO Modellen. Vision AI steigert die Verkehrssicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.

Erfahre mehr
Real-time AI tailored to your operation

KI in der Landwirtschaft

Bringe Vision AI mit Ultralytics YOLO Modellen in die smarte Landwirtschaft. Optimiere die Ernteüberwachung, Viehverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.

Erfahre mehr
Real-time AI that works with your team

KI in der Robotik

Stärke intelligentere Maschinen mit Ultralytics YOLO Modellen. Vision AI in der Robotik treibt autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung voran.

Erfahre mehr
Real-time AI that works with your team

KI in der Logistik

Optimiere die Logistik mit Ultralytics YOLO-Modellen. Vision AI ermöglicht Paketkontrolle, Sortierung, Fahrzeugverfolgung und Echtzeit-Überwachung der Lagersicherheit.

Erfahre mehr
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO-Modellen. Vision AI fördert Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.

Erfahre mehr
Real-time AI that works with your team

KI im Gesundheitswesen

Baue Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision AI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.

Erfahre mehr
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO-Modellen. Vision AI treibt Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien voran.

Erfahre mehr
Real-time AI that works with your operation

KI in der Automobilbranche

Nutze Computer Vision in der Automobilindustrie mit Ultralytics YOLO Modellen. Vision AI steigert die Verkehrssicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.

Erfahre mehr
Real-time AI tailored to your operation

KI in der Landwirtschaft

Bringe Vision AI mit Ultralytics YOLO Modellen in die smarte Landwirtschaft. Optimiere die Ernteüberwachung, Viehverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.

Erfahre mehr

Lass uns gemeinsam die Zukunft der KI bauen!

Beginne deine Reise mit der Zukunft des maschinellen Lernens