Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten
Glossar

Vision Transformer (ViT)

Entdecken Sie die Leistungsfähigkeit von Vision Transformers (ViTs) in der Computer Vision. Erfahren Sie, wie sie CNNs übertreffen, indem sie den globalen Bildkontext erfassen.

Ein Vision Transformer (ViT) ist eine eine Deep-Learning-Architektur, die die Prinzipien Prinzipien des ursprünglichen Transformer-Modells direkt auf Bildsequenzen anwendet. Ursprünglich eingeführt für Verarbeitung natürlicher Sprache (NLP) eingeführt, Transformers revolutionierten das Feld durch die Verwendung von Mechanismen, die es dem Modell ermöglichen, die Bedeutung verschiedener Teile der Teile der Eingabedaten zu gewichten. Der ViT wurde von Google Research in dem Papier "An Image is Worth 16x16 Words" als eine Alternative zum Standard Faltungsneuronalen Netzwerk (CNN) für visuelle Aufgaben vorgeschlagen. Im Gegensatz zu CNNs, die Pixel mit lokalen Filtern verarbeiten, behandeln ViTs ein Bild als eine Folge von Patches fester Größe, wodurch sie in der Lage sind, globale Zusammenhänge und weitreichende Abhängigkeiten bereits in der ersten Schicht zu erfassen durch Selbstbeobachtung.

Wie Vision Transformer funktionieren

Die Architektur eines ViT stellt eine bedeutende Veränderung in der Art und Weise dar, wie Maschinen visuelle Informationen verarbeiten. Der Arbeitsablauf besteht darin, ein Bild in kleinere Komponenten zu zerlegen, die ähnlich wie Wörter in einem Satz verarbeitet werden können.

  1. Patch-Partitionierung: Das Eingabebild wird in ein Raster aus nicht überlappenden Feldern (z. B. 16x16 Pixel). In diesem Schritt wird das 2D-Bild in eine Folge von 1D-Vektoren umgewandelt, wodurch die visuellen Daten in Token umgewandelt werden.
  2. Lineare Projektion von abgeflachten Feldern: Jeder Fleck wird abgeflacht und in einen niedriger-dimensionalen Raum projiziert, wodurch Einbettungen entstehen, die die die visuellen Merkmale dieses spezifischen Bereichs darstellen.
  3. Positionelle Einbettungen: Da die Transformer-Architektur die Reihenfolge der Sequenz nicht versteht, werden der Sequenz nicht versteht, werden den Patch-Einbettungen erlernbare Positionseinbettungen hinzugefügt, um räumliche Informationen darüber zu erhalten zu erhalten, wo sich jeder Fleck im Originalbild befindet.
  4. Transformer-Encoder: Die Sequenz von Einbettungen wird in einen Standard-Transformator-Encoder eingespeist. Hier, ermöglicht der Aufmerksamkeitsmechanismus dem Modell Beziehungen zwischen jedem Fleck und jedem anderen Fleck zu lernen, unabhängig von ihrem Abstand zueinander im Bild. Bild.
  5. Klassifizierung Kopf: Für Aufgaben wie Bildklassifizierung, wird ein spezielles Token ein spezielles Token zur Sequenz hinzugefügt, dessen Endzustand in einen Multi-Layer-Perceptron (MLP)-Kopf eingespeist wird, um die Klassenbezeichnung Etikett.

ViT vs. CNN-Architekturen

Beide Architekturen sind zwar grundlegend für die moderne Computer Vision (CV) sind, beruhen sie auf unterschiedlichen induktive Verzerrungen. CNNs verwenden Faltungsoperationen die lokale Interaktionen und Translationsinvarianz (Erkennung eines Objekts unabhängig von seiner Position) in den Vordergrund stellen. Diese macht CNNs bei kleineren Datensätzen sehr effizient. Im Gegensatz dazu haben ViTs weniger bildspezifische Strukturen und verlassen sich auf auf das Lernen von Mustern direkt aus großen Datensätzen wie ImageNet.

ViTs zeichnen sich im Allgemeinen aus, wenn sie mit sehr großen Datenmengen trainiert werden, da sie komplexe globale Beziehungen modellieren können, die CNNs übersehen könnten. Diese globale Reichweite geht jedoch oft mit höheren Rechenanforderungen für das Training Training und langsamere Inferenzgeschwindigkeiten auf ressourcenbeschränkten Endgeräten. Hybride Modelle wie RT-DETR versuchen, diese Lücke zu schließen, indem sie ein CNN Backbone für eine effiziente Merkmalsextraktion mit einem Transformer-Encoder für den globalen Kontext.

Anwendungsfälle in der Praxis

Vision Transformers haben sich in Bereichen bewährt, in denen das Verständnis des ganzheitlichen Kontextes einer Szene wichtiger ist wichtiger ist als Texturdetails auf niedriger Ebene.

  • Medizinische Bildanalyse: In Bereichen wie medizinischen Bildanalyse werden ViTs verwendet, um Anomalien in MRI-Scans oder Röntgenbildern detect . Zum Beispiel bei der Tumorerkennung, ein ViT Merkmale von entfernten Teilen eines Organs korrelieren, um bösartiges Gewebe zu identifizieren, das isoliert betrachtet normal aussehen könnte. normal aussehen, was die Diagnosegenauigkeit verbessert.
  • Fernerkundung und Satellitenbilder: ViTs werden effektiv eingesetzt zur Analyse von Satellitenbildern für die Umweltüberwachung eingesetzt. Ihre Fähigkeit, globale Zusammenhänge zu verarbeiten, hilft bei der Unterscheidung zwischen ähnlichen Geländetypen zu unterscheiden, wie z. B. die Unterscheidung zwischen verschiedenen Getreidefeldern oder die Verfolgung der städtischen Ausdehnung über große geografische Gebiete.

Verwendung von Transformatoren mit Ultralytics

Die ultralytics Paket unterstützt Transformer-basierte Architekturen wie RT-DETR (Real-Time Detection Transformer), die die Stärken von ViTs für die Objekterkennung. Während CNN-basierte Modelle wie das empfohlene YOLO11 für Echtzeitanwendungen in der Regel schneller sind bietet RT-DETR eine robuste Alternative, wenn hohe Genauigkeit und globaler Kontext im Vordergrund stehen.

from ultralytics import RTDETR

# Load a pretrained RT-DETR model (Transformer-based architecture)
model = RTDETR("rtdetr-l.pt")

# Perform inference on an image to detect objects
results = model("https://ultralytics.com/images/bus.jpg")

# Display the results with bounding boxes
results[0].show()

Mit Blick auf die Zukunft sind Innovationen im Bereich der Effizienz von entscheidender Bedeutung. Ultralytics entwickelt derzeit YOLO26, das die mit Transformers verbundene hohe Genauigkeit Transformers und gleichzeitig die Geschwindigkeit von CNNs bieten soll. Außerdem wird die kommende Ultralytics den Arbeitsablauf für das Training und den Einsatz dieser fortschrittlichen Modelle in verschiedenen Umgebungen, von Cloud-Servern bis zu Edge-Hardware. Wichtige Frameworks wie PyTorch und TensorFlow erweitern weiterhin ihre Unterstützung für ViT-Varianten und treiben die Forschung in diesem Bereich weiter voran.

Werden Sie Mitglied der Ultralytics

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten