Découvre YOLO26 : l'IA de vision de nouvelle génération.
Ultralytics
Retour au glossaire Ultralytics

Visual Reasoning

Explore le raisonnement visuel en IA et apprends comment les modèles déduisent la logique spatiale. Découvre comment construire des pipelines de raisonnement avancés avec Ultralytics YOLO26.

Le raisonnement visuel en intelligence artificielle fait référence à la capacité d'un modèle à analyser, interpréter et tirer des déductions logiques à partir de données visuelles et spatiales. Alors que les systèmes de computer vision (CV) standard excellent à identifier les objets présents dans une scène, le raisonnement visuel va plus loin pour comprendre comment et pourquoi ces objets interagissent. Inspirée par la faculté cognitive humaine du raisonnement visuel et évaluée par des tests de psychologie cognitive standard, cette capacité permet aux modèles d'IA d'effectuer une analyse d'image complexe, de déduire des relations spatiales et de résoudre des problèmes à étapes multiples basés uniquement sur le contexte visuel. C'est un composant essentiel pour combler le fossé entre la perception brute et l'intelligence exploitable dans les systèmes d'multimodal AI.

Link to this sectionConcepts fondamentaux et le paradigme « Penser avec des images »#

Historiquement, les modèles de machine learning convertissaient les données d'image en texte avant d'appliquer une déduction logique. Cependant, les développements récents en 2024 et 2025 ont popularisé un paradigme où les modèles pensent intrinsèquement avec des images. En tirant parti du raisonnement visuel latent, les vision-language models (VLMs) avancés peuvent générer des représentations visuelles intermédiaires — de manière similaire à la façon dont un humain pourrait visualiser une carte mentale telle que définie dans les paramètres spatiaux de la NIH Toolbox — avant d'arriver à une conclusion.

Cette approche utilise souvent un mécanisme connu sous le nom de Multimodal Visualization-of-Thought (MVoT). Au lieu de s'appuyer uniquement sur une chaîne de pensée textuelle, les systèmes peuvent explorer le raisonnement par visualisation spatiale pour vérifier les changements géométriques, évaluer les occlusions et suivre les mouvements continus dans l'espace 3D.

Link to this sectionRaisonnement visuel vs capacités associées#

Il est utile de différencier le raisonnement visuel d'autres terminologies d'IA qui se chevauchent :

  • Reasoning Models : Il s'agit d'une catégorie plus large englobant les modèles conçus pour la déduction logique à étapes multiples, généralement dans le texte, les mathématiques ou le codage. Le raisonnement visuel applique ces principes déductifs spécifiquement aux données visuelles et spatiales.
  • Visual Question Answering (VQA) : Le VQA est une application ou une tâche spécifique où une IA fournit une réponse en langage naturel à l'invite d'un utilisateur concernant une image. Le raisonnement visuel est la capacité cognitive sous-jacente qui alimente le VQA, permettant au modèle de déduire la réponse correcte en fonction du contexte spatial.

Link to this sectionApplications concrètes#

La capacité d'interpréter les contextes spatiaux de manière dynamique débloque des agentic workflows transformateurs dans les domaines physiques et numériques.

  • AI In Robotics And Embodied Intelligence : Les agents autonomes et les bras robotisés nécessitent une intelligence spatiale sophistiquée pour naviguer dans des environnements complexes. En utilisant le raisonnement visuel, un robot peut déduire qu'un objet fragile est empilé sous une boîte lourde et planifier logiquement une séquence de mouvements pour le récupérer sans causer de dommages, en s'appuyant fortement sur l'évaluation des contraintes physiques dynamiques.
  • AI In Healthcare Diagnostics : Dans l'imagerie médicale, les praticiens utilisent des systèmes de raisonnement visuel pour aller au-delà de la simple anomaly detection. Les modèles peuvent évaluer des scans IRM 3D pour raisonner structurellement sur la trajectoire de croissance d'une tumeur par rapport aux organes environnants, fournissant un contexte géométrique crucial pour la planification chirurgicale.

Link to this sectionImplémentation de la perception pour les pipelines de raisonnement#

Pour construire des systèmes de raisonnement efficaces, les développeurs s'appuient sur des modèles de perception à haute vitesse pour extraire le contexte structurel du monde physique. Ultralytics YOLO26 sert de couche fondamentale puissante, convertissant rapidement les pixels en coordonnées structurées de bounding box et en classes d'objets. Ces données structurées sont ensuite introduites dans des moteurs de raisonnement visuel spécialisés construits avec des frameworks comme PyTorch ou TensorFlow pour évaluer la logique spatiale.

Si tu compares YOLO26 et YOLO11 pour cette tâche, l'architecture native de bout en bout de YOLO26 minimise la latence d'inférence, ce qui le rend idéal pour les pipelines logiques en temps réel.

L'extrait de code Python suivant démontre comment utiliser YOLO26 pour extraire des coordonnées spatiales, fournissant les entrées perceptives essentielles nécessaires au raisonnement spatial en aval :

from ultralytics import YOLO

# Load the Ultralytics YOLO26 model to act as the perception layer
model = YOLO("yolo26n.pt")

# Run inference to detect objects in a scene
results = model("https://ultralytics.com/images/bus.jpg")

# Extract structured spatial data for the visual reasoning engine
for result in results:
    for box in result.boxes:
        cls_name = model.names[int(box.cls)]
        # xyxy provides exact spatial coordinates (left, top, right, bottom)
        coords = box.xyxy[0].tolist()
        print(f"Object: {cls_name}, Spatial Coordinates: {coords}")

Le passage à l'échelle de ces applications multimodales complexes nécessite une infrastructure robuste. La Ultralytics Platform fournit un environnement unifié pour annoter en toute transparence les datasets d'spatial intelligence, entraîner des modèles dans le cloud et déployer des systèmes de perception en périphérie (edge) fiables. À mesure que le domaine progresse vers des agentic frameworks for spatial tasks plus avancés et soutenus par la recherche avancée en vision, la combinaison d'une object detection de haute précision avec la déduction logique représente la prochaine frontière de l'intelligence artificielle.

Explore solutions

Real-time AI that works with your team

IA dans la robotique

Équipe tes machines plus intelligentes avec les modèles Ultralytics YOLO. La vision par IA dans la robotique propulse la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans la logistique

Simplifie la logistique avec les modèles Ultralytics YOLO. La vision par IA permet l'inspection des colis, le tri, le suivi des véhicules et la surveillance de la sécurité des entrepôts en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans le commerce de détail

Réinvente le commerce de détail avec les modèles Ultralytics YOLO. La vision par IA alimente le suivi des stocks, la surveillance des étagères, la gestion des files d'attente et des informations plus intelligentes sur les clients.

En savoir plus
Real-time AI that works with your team

IA dans la santé

Construis des solutions de santé avec les modèles Ultralytics YOLO. L'IA de vision dans la santé permet une imagerie médicale plus rapide, des diagnostics plus intelligents et une surveillance des patients.

En savoir plus
Real-time AI that works with your team

IA dans la fabrication

Optimise la fabrication avec les modèles Ultralytics YOLO. La vision par IA favorise le contrôle qualité, la détection des défauts, la conformité aux EPI et l'automatisation des chaînes de montage.

En savoir plus
Real-time AI that works with your operation

IA dans l'automobile

Applique la vision par ordinateur dans l'automobile avec les modèles Ultralytics YOLO. L'IA de vision améliore la sécurité routière, l'assistance à la conduite et l'automatisation des véhicules pour des routes plus intelligentes.

En savoir plus
Real-time AI tailored to your operation

IA en agriculture

Intègre l'IA de vision à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise la surveillance des cultures, le suivi du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.

En savoir plus
Real-time AI that works with your team

IA dans la robotique

Équipe tes machines plus intelligentes avec les modèles Ultralytics YOLO. La vision par IA dans la robotique propulse la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans la logistique

Simplifie la logistique avec les modèles Ultralytics YOLO. La vision par IA permet l'inspection des colis, le tri, le suivi des véhicules et la surveillance de la sécurité des entrepôts en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans le commerce de détail

Réinvente le commerce de détail avec les modèles Ultralytics YOLO. La vision par IA alimente le suivi des stocks, la surveillance des étagères, la gestion des files d'attente et des informations plus intelligentes sur les clients.

En savoir plus
Real-time AI that works with your team

IA dans la santé

Construis des solutions de santé avec les modèles Ultralytics YOLO. L'IA de vision dans la santé permet une imagerie médicale plus rapide, des diagnostics plus intelligents et une surveillance des patients.

En savoir plus
Real-time AI that works with your team

IA dans la fabrication

Optimise la fabrication avec les modèles Ultralytics YOLO. La vision par IA favorise le contrôle qualité, la détection des défauts, la conformité aux EPI et l'automatisation des chaînes de montage.

En savoir plus
Real-time AI that works with your operation

IA dans l'automobile

Applique la vision par ordinateur dans l'automobile avec les modèles Ultralytics YOLO. L'IA de vision améliore la sécurité routière, l'assistance à la conduite et l'automatisation des véhicules pour des routes plus intelligentes.

En savoir plus
Real-time AI tailored to your operation

IA en agriculture

Intègre l'IA de vision à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise la surveillance des cultures, le suivi du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.

En savoir plus
Real-time AI that works with your team

IA dans la robotique

Équipe tes machines plus intelligentes avec les modèles Ultralytics YOLO. La vision par IA dans la robotique propulse la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans la logistique

Simplifie la logistique avec les modèles Ultralytics YOLO. La vision par IA permet l'inspection des colis, le tri, le suivi des véhicules et la surveillance de la sécurité des entrepôts en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans le commerce de détail

Réinvente le commerce de détail avec les modèles Ultralytics YOLO. La vision par IA alimente le suivi des stocks, la surveillance des étagères, la gestion des files d'attente et des informations plus intelligentes sur les clients.

En savoir plus
Real-time AI that works with your team

IA dans la santé

Construis des solutions de santé avec les modèles Ultralytics YOLO. L'IA de vision dans la santé permet une imagerie médicale plus rapide, des diagnostics plus intelligents et une surveillance des patients.

En savoir plus
Real-time AI that works with your team

IA dans la fabrication

Optimise la fabrication avec les modèles Ultralytics YOLO. La vision par IA favorise le contrôle qualité, la détection des défauts, la conformité aux EPI et l'automatisation des chaînes de montage.

En savoir plus
Real-time AI that works with your operation

IA dans l'automobile

Applique la vision par ordinateur dans l'automobile avec les modèles Ultralytics YOLO. L'IA de vision améliore la sécurité routière, l'assistance à la conduite et l'automatisation des véhicules pour des routes plus intelligentes.

En savoir plus
Real-time AI tailored to your operation

IA en agriculture

Intègre l'IA de vision à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise la surveillance des cultures, le suivi du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.

En savoir plus

Construisons ensemble le futur de l'IA !

Commence ton aventure avec le futur de l'apprentissage automatique