Entdecken Sie die Leistungsfähigkeit von Vision Transformers (ViTs) in der Computer Vision. Erfahren Sie, wie sie CNNs übertreffen, indem sie den globalen Bildkontext erfassen.
Ein Vision Transformer (ViT) ist eine Art von neuronaler Netzarchitektur, die das äußerst erfolgreiche Transformer-Modell, das ursprünglich für die Verarbeitung natürlicher Sprache (NLP) entwickelt wurde, auf Computer-Vision-Aufgaben (CV) anwendet. Die von Google-Forschern in der Veröffentlichung "An Image is Worth 16x16 Words" vorgestellten ViTs stellen eine deutliche Abkehr von den vorherrschenden Architekturen der Convolutional Neural Networks (CNN) dar. Anstatt Bilder mit gleitenden Filtern zu verarbeiten, behandelt ein ViT ein Bild als eine Abfolge von Flecken, was es ihm ermöglicht, globale Beziehungen zwischen verschiedenen Teilen eines Bildes mit Hilfe des Mechanismus der Selbstaufmerksamkeit zu erfassen.
Der Kerngedanke hinter einem ViT ist die Verarbeitung eines Bildes in einer Weise, die die Verarbeitung von Text durch Transformers nachahmt. Der Prozess umfasst einige wichtige Schritte:
Obwohl sowohl ViTs als auch CNNs zu den grundlegenden Architekturen des Computersehens gehören, unterscheiden sie sich erheblich in ihrem Ansatz:
ViTs haben sich in verschiedenen Anwendungen als außergewöhnlich leistungsfähig erwiesen, vor allem dort, wo das Verständnis des globalen Kontextes entscheidend ist.
Der Erfolg von ViTs hat auch hybride Architekturen inspiriert. Modelle wie RT-DETR kombinieren ein CNN-Grundgerüst zur effizienten Merkmalsextraktion mit einem Transformator-basierten Encoder-Decoder zur Modellierung von Objektbeziehungen. Dieser Ansatz zielt darauf ab, das Beste aus beiden Welten zu nutzen: die Effizienz von CNNs und das globale Kontextbewusstsein von Transformers.
Für viele Echtzeitanwendungen, insbesondere auf ressourcenbeschränkten Edge-Geräten, bieten hoch optimierte CNN-basierte Modelle wie die YOLO-Familie von Ultralytics (z. B. YOLOv8 und YOLO11) oft ein besseres Gleichgewicht zwischen Geschwindigkeit und Genauigkeit. Sie können einen detaillierten Vergleich zwischen RT-DETR und YOLO11 sehen, um die Kompromisse zu verstehen. Die Wahl zwischen einem ViT und einem CNN hängt letztendlich von der spezifischen Aufgabe, den verfügbaren Daten und dem Rechenbudget ab.