Découvrez comment les modèles de raisonnement IA vont au-delà de la simple reconnaissance de formes pour aboutir à une déduction logique. Découvrez comment Ultralytics et la Ultralytics optimisent le raisonnement visuel.
Les modèles de raisonnement représentent une évolution significative dans le domaine de l'intelligence artificielle, allant au-delà de la simple correspondance de modèles pour effectuer des déductions logiques en plusieurs étapes, résoudre des problèmes et prendre des décisions. Contrairement aux architectures traditionnelles d'apprentissage profond qui s'appuient fortement sur les corrélations statistiques trouvées dans de vastes ensembles de données, les modèles de raisonnement sont conçus pour « réfléchir » à un problème. Ils utilisent souvent des techniques telles que la chaîne de pensée ou des blocs-notes internes pour décomposer les requêtes complexes en étapes intermédiaires avant de générer une réponse finale. Cette capacité leur permet d'aborder des tâches nécessitant des mathématiques, du codage et un raisonnement scientifique avec une précision bien supérieure à celle des grands modèles linguistiques (LLM) standard.
Le passage au raisonnement implique d'entraîner les modèles à générer leur propre monologue interne ou trace de raisonnement. Les développements récents en 2024 et 2025, tels que la série OpenAI o1, ont démontré que l'allocation d'un temps de calcul plus important au « raisonnement en temps d'inférence » améliore considérablement les performances. En utilisant des stratégies d'apprentissage par renforcement, ces modèles apprennent à vérifier leurs propres étapes, à revenir en arrière lorsqu'ils detect et à affiner leur logique avant de présenter une solution. Cela contraste avec les anciens modèles qui se contentaient de prédire le token le plus probable suivant en fonction de la probabilité.
Les modèles de raisonnement trouvent leur place dans des flux de travail sophistiqués où la précision est primordiale.
Il est important de différencier les « modèles de raisonnement » de l'IA générative à usage général.
Si le raisonnement textuel est bien connu, le raisonnement visuel est un domaine en pleine expansion. Il consiste à interpréter des scènes visuelles complexes pour répondre à des questions « pourquoi » ou « comment », plutôt que simplement « quoi ». En combinant la détection d'objets à grande vitesse à partir de modèles tels que Ultralytics avec un moteur de raisonnement, les systèmes peuvent analyser les relations de cause à effet dans les flux vidéo.
Par exemple, dans les véhicules autonomes, un système doit non seulement detect piéton, mais aussi déduire que « le piéton regarde son téléphone et marche vers le bord du trottoir, et qu'il pourrait donc s'engager sur la chaussée ».
L'exemple suivant montre comment extraire des données structurées à l'aide de YOLO26, qui peuvent ensuite être intégrées dans un modèle de raisonnement afin de tirer des conclusions sur une scène.
from ultralytics import YOLO
# Load the YOLO26 model for high-accuracy detection
model = YOLO("yolo26n.pt")
# Run inference on an image containing multiple objects
results = model("https://ultralytics.com/images/bus.jpg")
# Extract class names and coordinates for logic processing
# A reasoning model could use this data to determine spatial relationships
detections = []
for r in results:
for box in r.boxes:
detections.append(
{"class": model.names[int(box.cls)], "confidence": float(box.conf), "bbox": box.xywh.tolist()}
)
print(f"Structured data for reasoning: {detections}")
La trajectoire de l'IA s'oriente vers l' intelligence artificielle générale (AGI), où les capacités de raisonnement seront centrales. Nous assistons à une convergence où l' apprentissage multimodal permet aux modèles de raisonner simultanément à partir de textes, de codes, d'enregistrements audio et de vidéos. Des plateformes telles que Ultralytics évoluent pour prendre en charge ces flux de travail complexes, permettant aux utilisateurs de gérer des ensembles de données qui alimentent à la fois la perception visuelle et l'entraînement au raisonnement logique.
Pour en savoir plus sur les fondements techniques, la lecture d' articles de recherche sur la chaîne de pensée permet de mieux comprendre comment les invites peuvent libérer des capacités de raisonnement latentes. De plus, la compréhension de l' IA neuro-symbolique aide à contextualiser la manière dont la logique et les réseaux neuronaux sont combinés pour créer des systèmes plus robustes.