Glossaire

Vision Mamba

Découvrez Vision Mamba, une alternative à complexité linéaire aux Transformers. Découvrez comment les modèles d'espace d'état (SSM) améliorent l'efficacité de la vision par ordinateur haute résolution.

Vision Mamba représente un changement significatif dans les architectures d'apprentissage profond pour la vision par ordinateur, s'éloignant de la domination des mécanismes basés sur l'attention que l'on trouve dans les Transformers. Il s'agit d'une adaptation de l'architecture Mamba , initialement conçue pour une modélisation efficace des séquences dans le traitement du langage naturel, spécialement adaptée aux tâches visuelles. En tirant parti des modèles d'espace d'état (SSM), Vision Mamba offre une alternative à complexité linéaire à la complexité quadratique des couches d'auto-attention traditionnelles. Cela lui permet de traiter plus efficacement les images haute résolution , ce qui le rend particulièrement utile pour les applications où les ressources informatiques sont limitées ou où les dépendances à long terme dans les données visuelles doivent être capturées sans l'empreinte mémoire importante typique des Vision Transformers (ViT).

Comment fonctionne Vision Mamba

Au cœur de Vision Mamba se trouve le concept de balayage sélectif des données. Les réseaux neuronaux convolutifs (CNN) traditionnels traitent les images à l'aide de fenêtres glissantes locales, qui sont excellentes pour détecter les textures et les contours, mais qui ont du mal à gérer le contexte global. À l'inverse, les transformateurs utilisent l'attention globale pour relier chaque pixel (ou patch) à tous les autres pixels, ce qui fournit un excellent contexte, mais devient coûteux en termes de calcul à mesure que la résolution de l'image augmente. Vision Mamba comble cette lacune en aplatissant les images en séquences et en les traitant à l'aide d'espaces d'état sélectifs. Cela permet au modèle de compresser les informations visuelles en un état de taille fixe, en conservant les détails pertinents sur de longues distances dans la séquence d'images tout en éliminant le bruit non pertinent.

L'architecture implique généralement un mécanisme de balayage bidirectionnel. Les images étant des structures 2D et non intrinsèquement séquentielles comme le texte, Vision Mamba balaye les fragments d'image dans les sens avant et arrière (et parfois selon des chemins variables) afin de garantir la compréhension des relations spatiales, quel que soit l'ordre de balayage. Cette approche permet au modèle d'obtenir des champs réceptifs globaux similaires à ceux des Transformers, mais avec des vitesses d'inférence plus rapides et une utilisation de mémoire moindre, rivalisant souvent avec les résultats de pointe sur des benchmarks tels que ImageNet.

Applications concrètes

L'efficacité de Vision Mamba le rend particulièrement adapté aux environnements aux ressources limitées et aux tâches nécessitant une haute résolution.

Analyse d'images médicales : dans des domaines tels que la radiologie, l'analyse d'IRM ou de tomodensitogrammes haute résolution nécessite la détection d'anomalies subtiles qui peuvent être spatialement éloignées dans une image de grande taille. Vision Mamba peut traiter ces fichiers d'analyse d'images médicales volumineux de manière efficace, sans les goulots d'étranglement de mémoire qui affectent souvent les Transformers standard, aidant ainsi les médecins à identifier les tumeurs ou les fractures avec une grande précision.
Navigation autonome sur les appareils périphériques : les voitures et les drones autonomes s'appuient sur l' edge computing pour traiter les flux vidéo en temps réel . La mise à l'échelle linéaire de Vision Mamba permet à ces systèmes de traiter des entrées vidéo à fréquence d'images élevée pour la détection d'objets et la segmentation sémantique plus efficacement que les modèles Transformer lourds, garantissant ainsi des temps de réaction plus rapides pour les décisions critiques en matière de sécurité.

Vision Mamba vs Vision Transformers (ViT)

Bien que les deux architectures visent à saisir le contexte global, leur fonctionnement diffère fondamentalement.

Vision Transformer (ViT): S'appuie sur le mécanisme d'attention, qui calcule la relation entre chaque paire de fragments d'image. Il en résulte une complexité quadratique ($O(N^2)$), ce qui signifie que doubler la taille de l'image quadruple le coût de calcul.
Vision Mamba : utilise des modèles d'espace d'état (SSM) pour traiter les jetons visuels de manière linéaire ($O(N)$). Il maintient un état de fonctionnement qui se met à jour à mesure qu'il voit de nouveaux patchs, ce qui lui permet de mieux s'adapter à des résolutions plus élevées tout en conservant une précision comparable.

Exemple : flux de travail d'inférence efficace

Bien que Vision Mamba soit une architecture spécifique, ses principes d'efficacité s'alignent sur les objectifs des modèles modernes en temps réel tels que Ultralytics YOLO26Les utilisateurs à la recherche de tâches visuelles optimisées peuvent tirer parti du Plate-forme Ultralytics pour la formation et le déploiement. Voici un exemple utilisant le ultralytics package pour exécuter l'inférence, démontrant la facilité d' utilisation de modèles de vision hautement optimisés.

from ultralytics import YOLO

# Load a pre-trained YOLO26 model (optimized for speed and accuracy)
model = YOLO("yolo26n.pt")  # 'n' for nano, emphasizing efficiency

# Run inference on an image
results = model.predict("path/to/image.jpg")

# Display the results
results[0].show()

Principaux avantages et perspectives d'avenir

L'introduction d'architectures basées sur Mamba dans la vision par ordinateur marque une évolution vers une IA plus sensible au matériel. En réduisant la charge de calcul associée à l'attention globale, les chercheurs ouvrent la voie au déploiement d'agents IA avancés sur des appareils plus petits.

Des recherches récentes, telles que l'article VMamba et les développements en matière d' apprentissage profond efficace, soulignent le potentiel de ces modèles pour remplacer les structures traditionnelles dans des tâches allant de la compréhension vidéo à la détection d'objets 3D. Alors que la communauté continue d' affiner les stratégies de balayage et l'intégration avec les couches convolutives, Vision Mamba est en passe de devenir un composant standard de la boîte à outils d'apprentissage profond, aux côtés des CNN et des Transformers.

Vision Mamba

Former les modèlesYOLO d'Ultralytics pour rationaliser les flux de travail dans tous les secteurs d'activité

Solution de licence d'entreprise flexible pour dynamiser votre innovation

Former des modèles d'IA en quelques secondes avec Ultralytics YOLO

Comment fonctionne Vision Mamba

Applications concrètes

Vision Mamba vs Vision Transformers (ViT)

Exemple : flux de travail d'inférence efficace

Principaux avantages et perspectives d'avenir

En savoir plus dans cette catégorie

Comment améliorer mAP du modèle mAP les petits objets : guide rapide

Redéfinir la surveillance de la biodiversité grâce à la vision par ordinateur

Les 5 meilleurs conseils pour déployer efficacement YOLO26 sur le périphérique et dans le cloud

Rejoindre la communauté Ultralytics