Glossar

Vision Transformer (ViT)

Entdecken Sie die Leistungsfähigkeit von Vision Transformers (ViTs) in der Computer Vision. Erfahren Sie, wie sie CNNs übertreffen, indem sie den globalen Bildkontext erfassen.

Ein Vision Transformer (ViT) ist eine Art von neuronaler Netzarchitektur, die das äußerst erfolgreiche Transformer-Modell, das ursprünglich für die Verarbeitung natürlicher Sprache (NLP) entwickelt wurde, auf Computer-Vision-Aufgaben (CV) anwendet. Die von Google-Forschern in der Veröffentlichung "An Image is Worth 16x16 Words" vorgestellten ViTs stellen eine deutliche Abkehr von den vorherrschenden Architekturen der Convolutional Neural Networks (CNN) dar. Anstatt Bilder mit gleitenden Filtern zu verarbeiten, behandelt ein ViT ein Bild als eine Abfolge von Flecken, was es ihm ermöglicht, globale Beziehungen zwischen verschiedenen Teilen eines Bildes mit Hilfe des Mechanismus der Selbstaufmerksamkeit zu erfassen.

Wie Vision Transformers funktionieren

Der Kerngedanke hinter einem ViT ist die Verarbeitung eines Bildes in einer Weise, die die Verarbeitung von Text durch Transformers nachahmt. Der Prozess umfasst einige wichtige Schritte:

  1. Bildaufteilung: Das Eingabebild wird zunächst in ein Raster aus nicht überlappenden Feldern fester Größe aufgeteilt. Ein Bild mit 224 x 224 Pixeln kann beispielsweise in 196 Felder mit je 16 x 16 Pixeln unterteilt werden.
  2. Patch-Einbettung: Jeder Fleck wird in einen einzigen Vektor abgeflacht. Diese Vektoren werden dann in einen niedrigdimensionalen Raum projiziert, um "Fleckeinbettungen" zu erstellen. Zu jeder Patch-Einbettung wird eine erlernbare "Positionseinbettung" hinzugefügt, um die räumlichen Informationen zu erhalten.
  3. Transformer-Encoder: Diese Folge von Einbettungen wird in einen Standard-Transformer-Encoder eingespeist. Durch seine Selbstbeobachtungsebenen lernt das Modell die Beziehungen zwischen allen Patch-Paaren und kann so bereits in der ersten Ebene den globalen Kontext des gesamten Bildes erfassen.
  4. Klassifizierungskopf: Für Aufgaben wie die Bildklassifizierung wird der Sequenz eine zusätzliche lernfähige Einbettung (ähnlich dem [CLS]-Token in BERT) hinzugefügt. Die entsprechende Ausgabe des Transformers wird an eine abschließende Klassifizierungsschicht weitergeleitet, um die Vorhersage zu erstellen.

ViT Vs. CNNs

Obwohl sowohl ViTs als auch CNNs zu den grundlegenden Architekturen des Computersehens gehören, unterscheiden sie sich erheblich in ihrem Ansatz:

  • Induktive Voreingenommenheit: CNNs besitzen starke induktive Voreingenommenheiten (Annahmen über die Daten), wie z. B. Lokalität und Übersetzungsäquivarianz durch ihre Faltungsund Pooling-Schichten. ViTs haben viel schwächere induktive Vorurteile, was sie flexibler, aber auch abhängiger vom Lernen von Mustern direkt aus Daten macht.
  • Datenabhängigkeit: Aufgrund ihrer schwächeren Voreingenommenheit benötigen ViTs in der Regel große Datensätze (z. B. ImageNet-21k) oder umfangreiches Vortraining, um modernste CNNs zu übertreffen. Bei kleineren Datensätzen verallgemeinern CNNs oft besser. Aus diesem Grund ist das Transfer-Lernen für ViTs entscheidend.
  • Globaler vs. lokaler Kontext: CNNs bauen hierarchische Merkmale von lokalen zu globalen Mustern auf. Im Gegensatz dazu können ViTs globale Interaktionen zwischen Flecken von den ersten Schichten an modellieren, wodurch ein breiterer Kontext für bestimmte Aufgaben möglicherweise effektiver erfasst werden kann.
  • Berechnungsaufwand: Das Training von ViTs kann rechenintensiv sein und erfordert oft erhebliche GPU-Ressourcen. Frameworks wie PyTorch und TensorFlow bieten Implementierungen für das Training dieser Modelle.

Anwendungen und Hybridmodelle

ViTs haben sich in verschiedenen Anwendungen als außergewöhnlich leistungsfähig erwiesen, vor allem dort, wo das Verständnis des globalen Kontextes entscheidend ist.

  • Medizinische Bildanalyse: ViTs sind äußerst effektiv bei der Analyse medizinischer Scans wie MRTs oder histopathologischer Bilder. Bei der Tumorerkennung kann ein ViT beispielsweise Beziehungen zwischen entfernten Geweben erkennen und so helfen, Tumore genauer zu klassifizieren als Modelle, die sich nur auf lokale Texturen konzentrieren.
  • Autonomes Fahren: In selbstfahrenden Autos können ViTs komplexe Szenen zur Objekterkennung und -segmentierung analysieren. Durch die globale Verarbeitung der gesamten Szene können sie die Interaktionen zwischen Fahrzeugen, Fußgängern und der Infrastruktur besser verstehen, wie in mehreren KI-Studien für den Automobilbereich beschrieben.

Der Erfolg von ViTs hat auch hybride Architekturen inspiriert. Modelle wie RT-DETR kombinieren ein CNN-Grundgerüst zur effizienten Merkmalsextraktion mit einem Transformator-basierten Encoder-Decoder zur Modellierung von Objektbeziehungen. Dieser Ansatz zielt darauf ab, das Beste aus beiden Welten zu nutzen: die Effizienz von CNNs und das globale Kontextbewusstsein von Transformers.

Für viele Echtzeitanwendungen, insbesondere auf ressourcenbeschränkten Edge-Geräten, bieten hoch optimierte CNN-basierte Modelle wie die YOLO-Familie von Ultralytics (z. B. YOLOv8 und YOLO11) oft ein besseres Gleichgewicht zwischen Geschwindigkeit und Genauigkeit. Sie können einen detaillierten Vergleich zwischen RT-DETR und YOLO11 sehen, um die Kompromisse zu verstehen. Die Wahl zwischen einem ViT und einem CNN hängt letztendlich von der spezifischen Aufgabe, den verfügbaren Daten und dem Rechenbudget ab.

Werden Sie Mitglied der Ultralytics-Gemeinschaft

Beteiligen Sie sich an der Zukunft der KI. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten
Link in die Zwischenablage kopiert