Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten
Glossar

Vision Transformer (ViT)

Entdecken Sie die Leistungsfähigkeit von Vision Transformers (ViT). Erfahren Sie, wie Selbstaufmerksamkeit und Patch-Tokenisierung mit Ultralytics die Computer Vision über CNNs hinaus revolutionieren.

Ein Vision Transformer (ViT) ist eine Deep-Learning-Architektur, die die ursprünglich für die natürliche Sprachverarbeitung (Natural Language Processing, NLP) entwickelten Selbstaufmerksamkeitsmechanismen zur Lösung visueller Aufgaben anpasst. Im Gegensatz zu einem herkömmlichen Convolutional Neural Network (CNN), das Bilder über eine Hierarchie lokaler Pixelgitter verarbeitet, behandelt ein ViT ein Bild als eine Folge diskreter Patches. Dieser Ansatz wurde durch die bahnbrechende Forschungsarbeit „An Image is Worth 16x16 Words” populär gemacht, die zeigte, dass reine Transformer-Architekturen ohne Rückgriff auf Faltungsschichten eine hochmoderne Leistung im Bereich Computer Vision (CV) erzielen können. Durch die Nutzung globaler Aufmerksamkeit können ViTs bereits ab der ersten Schicht weitreichende Abhängigkeiten über ein gesamtes Bild hinweg erfassen .

Wie Vision Transformer funktionieren

Die grundlegende Innovation des ViT besteht in der Art und Weise, wie es Eingabedaten strukturiert. Um ein Bild mit einem Standard-Transformer kompatibel zu machen , zerlegt das Modell die visuellen Informationen in eine Folge von Vektoren und ahmt damit die Art und Weise nach, wie ein Sprachmodell einen Satz aus Wörtern verarbeitet.

  1. Patch-Tokenisierung: Das Eingabebild wird in ein Raster aus Quadraten fester Größe unterteilt, in der Regel 16 x 16 Pixel. Jedes Quadrat wird zu einem Vektor abgeflacht und wird so zu einem visuellen Token.
  2. Lineare Projektion: Diese abgeflachten Patches werden durch eine trainierbare lineare Schicht geleitet, um dichte Einbettungen zu erzeugen. Dieser Schritt bildet die rohen Pixelwerte in einen hochdimensionalen Raum ab, den das Modell verarbeiten kann.
  3. Positionskodierung: Da die Architektur Sequenzen parallel verarbeitet und kein inhärentes Verständnis von Reihenfolge oder Raum besitzt, werden lernbare Positionskodierungen zu den Patch-Einbettungen hinzugefügt. Dadurch kann das Modell räumliche Informationen darüber behalten, wo jeder Patch im Originalbild hingehört.
  4. Selbstaufmerksamkeitsmechanismus: Die Sequenz wird in den Transformer-Encoder eingegeben, wo die Selbstaufmerksamkeit es jedem Patch ermöglicht, mit allen anderen Patches gleichzeitig zu interagieren. Dadurch kann das Netzwerk den globalen Kontext lernen und verstehen, wie ein Pixel in der oberen linken Ecke mit einem Pixel in der unteren rechten Ecke zusammenhängt.
  5. Klassifizierungskopf: Bei Aufgaben wie der Bildklassifizierung wird der Sequenz häufig ein spezielles „Klassifizierungstoken” vorangestellt. Der endgültige Ausgabestatus dieses Tokens dient als aggregierte Darstellung des Bildes, die dann in einen Klassifikator, beispielsweise ein mehrschichtiges Perzeptron (MLP), eingespeist wird.

Vision-Transformatoren vs. CNNs

Obwohl beide Architekturen darauf abzielen, visuelle Daten zu verstehen, unterscheiden sie sich erheblich in ihrer Funktionsweise. CNNs besitzen eine starke „induktive Tendenz”, die als Translationsinvarianz bekannt ist, was bedeutet, dass sie von Natur aus davon ausgehen, dass lokale Merkmale (wie Kanten und Texturen) unabhängig von ihrer Position wichtig sind. Dadurch sind CNNs sehr dateneffizient und effektiv bei kleineren Datensätzen.

Umgekehrt weisen Vision Transformers weniger bildspezifische Verzerrungen auf. Sie müssen räumliche Beziehungen von Grund auf neu lernen und dabei riesige Mengen an Trainingsdaten verwenden, wie beispielsweise das JFT-300M oder das vollständige ImageNet Datensätze. Dadurch wird das Training zwar rechenintensiver, aber ViTs lassen sich dadurch bemerkenswert gut skalieren; mit ausreichenden Daten und Rechenleistung können sie CNNs übertreffen, indem sie komplexe globale Strukturen erfassen, die lokale Faltungen möglicherweise übersehen.

Anwendungsfälle in der Praxis

Die Fähigkeit, globale Zusammenhänge zu verstehen, macht ViTs besonders nützlich für komplexe Umgebungen mit hohem Risiko.

  • Medizinische Bildanalyse: Im Gesundheitswesen werden ViTs zur Analyse hochauflösender Scans wie MRTs oder histopathologischer Präparate eingesetzt. Bei der Tumordiagnostik beispielsweise kann ein ViT subtile strukturelle Anomalien im Gewebe mit umfassenderen strukturellen Veränderungen auf dem gesamten Präparat in Zusammenhang bringen und so bösartige Muster identifizieren, die bei einer lokalen Verarbeitung möglicherweise übersehen würden.
  • Satellitenbilder und Fernerkundung: ViTs zeichnen sich bei der Satellitenbildanalyse aus, bei der die Beziehungen zwischen Objekten große Entfernungen überspannen. Um beispielsweise eine Abholzungsstelle mit einer entfernten Forststraße zu verbinden, muss man das „Gesamtbild” einer Landschaft verstehen – eine Aufgabe, bei der die globale Aufmerksamkeit eines ViT das begrenzte Rezeptionsfeld von Standard-CNNs übertrifft.

Verwendung von Transformatoren mit Ultralytics

Die ultralytics Die Bibliothek unterstützt Transformer-basierte Architekturen, insbesondere die RT-DETR Echtzeit-Erkennungstransformator)Während das Flaggschiff YOLO26 wird oft wegen seiner Ausgewogenheit zwischen Geschwindigkeit und Genauigkeit auf Edge-Geräten bevorzugt, RT-DETR eine leistungsstarke Alternative für Szenarien, in denen der globale Kontext im Vordergrund steht.

Das Folgende Python -Beispiel zeigt, wie ein vortrainiertes Transformer-basiertes Modell geladen und eine Inferenz durchgeführt wird:

from ultralytics import RTDETR

# Load a pre-trained RT-DETR model (Vision Transformer-based)
model = RTDETR("rtdetr-l.pt")

# Run inference on an image source
# The model uses self-attention to detect objects globally
results = model("https://ultralytics.com/images/bus.jpg")

# Display the detection results
results[0].show()

Zukünftiger Ausblick

Die Forschung entwickelt sich rasant weiter, um die hohen Rechenkosten von ViTs zu bewältigen. Techniken wie FlashAttention machen diese Modelle schneller und speichereffizienter. Darüber hinaus werden hybride Architekturen, die die Effizienz von CNNs mit der Aufmerksamkeit von Transformern kombinieren, immer häufiger eingesetzt. Für Teams, die diese fortschrittlichen Workflows verwalten möchten, bietet Ultralytics eine einheitliche Umgebung, um Daten zu annotieren, komplexe Modelle über die Cloud zu trainieren und sie auf verschiedenen Endpunkten bereitzustellen.

Werden Sie Mitglied der Ultralytics

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten