Entdecken Sie die Leistungsfähigkeit von Vision Transformers (ViTs) in der Computer Vision. Erfahren Sie, wie sie CNNs übertreffen, indem sie den globalen Bildkontext erfassen.
Ein Vision Transformer (ViT) ist eine eine Deep-Learning-Architektur, die die Prinzipien Prinzipien des ursprünglichen Transformer-Modells direkt auf Bildsequenzen anwendet. Ursprünglich eingeführt für Verarbeitung natürlicher Sprache (NLP) eingeführt, Transformers revolutionierten das Feld durch die Verwendung von Mechanismen, die es dem Modell ermöglichen, die Bedeutung verschiedener Teile der Teile der Eingabedaten zu gewichten. Der ViT wurde von Google Research in dem Papier "An Image is Worth 16x16 Words" als eine Alternative zum Standard Faltungsneuronalen Netzwerk (CNN) für visuelle Aufgaben vorgeschlagen. Im Gegensatz zu CNNs, die Pixel mit lokalen Filtern verarbeiten, behandeln ViTs ein Bild als eine Folge von Patches fester Größe, wodurch sie in der Lage sind, globale Zusammenhänge und weitreichende Abhängigkeiten bereits in der ersten Schicht zu erfassen durch Selbstbeobachtung.
Die Architektur eines ViT stellt eine bedeutende Veränderung in der Art und Weise dar, wie Maschinen visuelle Informationen verarbeiten. Der Arbeitsablauf besteht darin, ein Bild in kleinere Komponenten zu zerlegen, die ähnlich wie Wörter in einem Satz verarbeitet werden können.
Beide Architekturen sind zwar grundlegend für die moderne Computer Vision (CV) sind, beruhen sie auf unterschiedlichen induktive Verzerrungen. CNNs verwenden Faltungsoperationen die lokale Interaktionen und Translationsinvarianz (Erkennung eines Objekts unabhängig von seiner Position) in den Vordergrund stellen. Diese macht CNNs bei kleineren Datensätzen sehr effizient. Im Gegensatz dazu haben ViTs weniger bildspezifische Strukturen und verlassen sich auf auf das Lernen von Mustern direkt aus großen Datensätzen wie ImageNet.
ViTs zeichnen sich im Allgemeinen aus, wenn sie mit sehr großen Datenmengen trainiert werden, da sie komplexe globale Beziehungen modellieren können, die CNNs übersehen könnten. Diese globale Reichweite geht jedoch oft mit höheren Rechenanforderungen für das Training Training und langsamere Inferenzgeschwindigkeiten auf ressourcenbeschränkten Endgeräten. Hybride Modelle wie RT-DETR versuchen, diese Lücke zu schließen, indem sie ein CNN Backbone für eine effiziente Merkmalsextraktion mit einem Transformer-Encoder für den globalen Kontext.
Vision Transformers haben sich in Bereichen bewährt, in denen das Verständnis des ganzheitlichen Kontextes einer Szene wichtiger ist wichtiger ist als Texturdetails auf niedriger Ebene.
Die ultralytics Paket unterstützt Transformer-basierte Architekturen wie RT-DETR (Real-Time Detection
Transformer), die die Stärken von ViTs für die
Objekterkennung. Während CNN-basierte Modelle wie das
empfohlene YOLO11 für Echtzeitanwendungen in der Regel schneller sind
bietet RT-DETR eine robuste Alternative, wenn hohe Genauigkeit und globaler Kontext im Vordergrund stehen.
from ultralytics import RTDETR
# Load a pretrained RT-DETR model (Transformer-based architecture)
model = RTDETR("rtdetr-l.pt")
# Perform inference on an image to detect objects
results = model("https://ultralytics.com/images/bus.jpg")
# Display the results with bounding boxes
results[0].show()
Mit Blick auf die Zukunft sind Innovationen im Bereich der Effizienz von entscheidender Bedeutung. Ultralytics entwickelt derzeit YOLO26, das die mit Transformers verbundene hohe Genauigkeit Transformers und gleichzeitig die Geschwindigkeit von CNNs bieten soll. Außerdem wird die kommende Ultralytics den Arbeitsablauf für das Training und den Einsatz dieser fortschrittlichen Modelle in verschiedenen Umgebungen, von Cloud-Servern bis zu Edge-Hardware. Wichtige Frameworks wie PyTorch und TensorFlow erweitern weiterhin ihre Unterstützung für ViT-Varianten und treiben die Forschung in diesem Bereich weiter voran.