Découvrez Vision Mamba, une alternative à complexité linéaire aux Transformers. Découvrez comment les modèles d'espace d'état (SSM) améliorent l'efficacité de la vision par ordinateur haute résolution.
Vision Mamba représente un changement significatif dans les architectures d'apprentissage profond pour la vision par ordinateur, s'éloignant de la domination des mécanismes basés sur l'attention que l'on trouve dans les Transformers. Il s'agit d'une adaptation de l'architecture Mamba , initialement conçue pour une modélisation efficace des séquences dans le traitement du langage naturel, spécialement adaptée aux tâches visuelles. En tirant parti des modèles d'espace d'état (SSM), Vision Mamba offre une alternative à complexité linéaire à la complexité quadratique des couches d'auto-attention traditionnelles. Cela lui permet de traiter plus efficacement les images haute résolution , ce qui le rend particulièrement utile pour les applications où les ressources informatiques sont limitées ou où les dépendances à long terme dans les données visuelles doivent être capturées sans l'empreinte mémoire importante typique des Vision Transformers (ViT).
Au cœur de Vision Mamba se trouve le concept de balayage sélectif des données. Les réseaux neuronaux convolutifs (CNN) traditionnels traitent les images à l'aide de fenêtres glissantes locales, qui sont excellentes pour détecter les textures et les contours, mais qui ont du mal à gérer le contexte global. À l'inverse, les transformateurs utilisent l'attention globale pour relier chaque pixel (ou patch) à tous les autres pixels, ce qui fournit un excellent contexte, mais devient coûteux en termes de calcul à mesure que la résolution de l'image augmente. Vision Mamba comble cette lacune en aplatissant les images en séquences et en les traitant à l'aide d'espaces d'état sélectifs. Cela permet au modèle de compresser les informations visuelles en un état de taille fixe, en conservant les détails pertinents sur de longues distances dans la séquence d'images tout en éliminant le bruit non pertinent.
L'architecture implique généralement un mécanisme de balayage bidirectionnel. Les images étant des structures 2D et non intrinsèquement séquentielles comme le texte, Vision Mamba balaye les fragments d'image dans les sens avant et arrière (et parfois selon des chemins variables) afin de garantir la compréhension des relations spatiales, quel que soit l'ordre de balayage. Cette approche permet au modèle d'obtenir des champs réceptifs globaux similaires à ceux des Transformers, mais avec des vitesses d'inférence plus rapides et une utilisation de mémoire moindre, rivalisant souvent avec les résultats de pointe sur des benchmarks tels que ImageNet.
L'efficacité de Vision Mamba le rend particulièrement adapté aux environnements aux ressources limitées et aux tâches nécessitant une haute résolution.
Bien que les deux architectures visent à saisir le contexte global, leur fonctionnement diffère fondamentalement.
Bien que Vision Mamba soit une architecture spécifique, ses principes d'efficacité s'alignent sur les objectifs des modèles modernes en temps réel
tels que Ultralytics YOLO26Les utilisateurs à la recherche de tâches visuelles optimisées
peuvent tirer parti du Plate-forme Ultralytics pour la formation et le
déploiement. Voici un exemple utilisant le ultralytics package pour exécuter l'inférence, démontrant la facilité d'
utilisation de modèles de vision hautement optimisés.
from ultralytics import YOLO
# Load a pre-trained YOLO26 model (optimized for speed and accuracy)
model = YOLO("yolo26n.pt") # 'n' for nano, emphasizing efficiency
# Run inference on an image
results = model.predict("path/to/image.jpg")
# Display the results
results[0].show()
L'introduction d'architectures basées sur Mamba dans la vision par ordinateur marque une évolution vers une IA plus sensible au matériel. En réduisant la charge de calcul associée à l'attention globale, les chercheurs ouvrent la voie au déploiement d'agents IA avancés sur des appareils plus petits.
Des recherches récentes, telles que l'article VMamba et les développements en matière d' apprentissage profond efficace, soulignent le potentiel de ces modèles pour remplacer les structures traditionnelles dans des tâches allant de la compréhension vidéo à la détection d'objets 3D. Alors que la communauté continue d' affiner les stratégies de balayage et l'intégration avec les couches convolutives, Vision Mamba est en passe de devenir un composant standard de la boîte à outils d'apprentissage profond, aux côtés des CNN et des Transformers.