Découvrez la puissance des Vision Transformers (ViT) en vision par ordinateur. Apprenez comment ils surpassent les CNN en capturant le contexte global de l'image.
Un transformateur de vision (ViT) est une architecture de architecture d'apprentissage profond qui applique les principes du modèle Transformer original directement à des séquences d'images. Introduit à l'origine pour le traitement du langage naturel (NLP), Les transformateurs ont révolutionné le domaine en utilisant des mécanismes qui permettent au modèle d'évaluer l'importance des différentes parties des données d'entrée. parties des données d'entrée. Le ViT a été proposé par Google Research dans l'article suivant "An Image is Worth 16x16 Words" (Une image vaut 16x16 mots) comme alternative à la méthode standard réseau neuronal convolutif (CNN) pour les tâches visuelles. Contrairement aux CNN, qui traitent les pixels à l'aide de filtres locaux, les ViT traitent une image comme une séquence de taches de taille fixe, ce qui leur permet de s'adapter à des tâches visuelles. de parcelles de taille fixe, ce qui leur permet de saisir le contexte global et les dépendances à long terme dès la première couche en utilisant l'auto-attention. en utilisant l'auto-attention.
L'architecture d'un ViT représente un changement important dans la manière dont les machines traitent les informations visuelles. Le flux de travail consiste à décomposer une image en éléments plus petits qui peuvent être traités de la même manière que les mots d'une phrase.
Bien que ces deux architectures soient fondamentales pour la modernes , elles reposent sur des biais inductifs différents. biais inductifs différents. Les CNN utilisent des opérations de convolution qui donnent la priorité aux interactions locales et à l'invariance de la translation (reconnaissance d'un objet quelle que soit sa position). Cela Cela rend les CNN très efficaces avec des ensembles de données plus petits. En revanche, les ViT ont une structure moins spécifique à l'image et s'appuient sur l'apprentissage de modèles directement à partir d'ensembles de données massifs. sur l'apprentissage de modèles directement à partir d'ensembles de données massifs tels qu'ImageNet-21k. ImageNet.
Les ViTs excellent généralement lorsqu'ils sont formés sur de très grandes quantités de données, car ils peuvent modéliser des relations globales complexes que les CNN pourraient manquer. Cependant, cette portée globale s'accompagne souvent d'exigences de calcul plus élevées pour la formation et de vitesses d'inférence plus lentes sur les sites à ressources limitées. d 'entraînement et de vitesses d'inférence plus lentes sur les appareils de bord ressources. Les modèles hybrides tels que les RT-DETR tentent de combler cette lacune en combinant un CNN pour une extraction efficace des caractéristiques avec un encodeur Transformer pour le contexte global. un encodeur Transformer pour le contexte global.
Les transformateurs de vision ont fait leurs preuves dans des domaines où la compréhension du contexte holistique d'une scène est plus importante que les détails de texture de bas niveau. que les détails des textures de bas niveau.
Le ultralytics prend en charge les architectures basées sur des transformateurs comme RT-DETR (Real-Time Detection
de détection en temps réel), qui exploite les forces des ViT pour
détection d'objets. Alors que les modèles basés sur le CNN, comme le modèle
recommandés YOLO11 sont généralement plus rapides pour les applications en temps réel, RT-DETR offre une alternative solide lorsque la précision et le contexte global sont prioritaires.
RT-DETR offre une alternative robuste lorsqu'une grande précision et un contexte global sont prioritaires.
from ultralytics import RTDETR
# Load a pretrained RT-DETR model (Transformer-based architecture)
model = RTDETR("rtdetr-l.pt")
# Perform inference on an image to detect objects
results = model("https://ultralytics.com/images/bus.jpg")
# Display the results with bounding boxes
results[0].show()
Pour l'avenir, les innovations en matière d'efficacité sont cruciales. Ultralytics développe actuellement YOLO26, qui vise à fournir la haute précision associée aux transformateurs tout en maintenant la vitesse des CNN. associée aux transformateurs tout en conservant la vitesse des CNN. En outre, la prochaine Ultralytics Platform rationalisera le flux de travail pour la formation et le déploiement de ces modèles avancés dans divers environnements, de l'ordinateur à Ultralytics . ces modèles avancés dans divers environnements, des serveurs en nuage au matériel périphérique. Des cadres majeurs tels que PyTorch et TensorFlow continuent d'étendre leur pour les variantes ViT, ce qui stimule la recherche dans ce domaine.