Découvre YOLO26 : l'IA de vision de nouvelle génération.
Ultralytics
Retour au glossaire Ultralytics

Grounding

Explore les bases du grounding dans l'IA. Apprends comment connecter le langage naturel aux données visuelles en utilisant Ultralytics YOLO26 et YOLO-World pour la détection à vocabulaire ouvert.

La mise en relation (grounding) désigne la capacité d'un système d'intelligence artificielle à relier des concepts abstraits, généralement issus du langage naturel, à des représentations spécifiques et concrètes dans le monde physique, comme des données visuelles ou des entrées sensorielles. Dans le contexte de la vision par ordinateur, cela signifie qu'un modèle ne se contente pas de traiter du texte ; il peut analyser une expression comme "une personne promenant un chien" et localiser précisément ces entités dans une image ou un flux vidéo. Ce processus comble le fossé entre le raisonnement symbolique et la perception au niveau des pixels, traitant le problème fondamental de la mise en relation des symboles en sciences cognitives. En liant des jetons linguistiques à des caractéristiques visuelles, la mise en relation devient une pierre angulaire de l'IA multimodale moderne, permettant aux machines d'interagir de manière plus intuitive avec des environnements humains dynamiques.

Link to this sectionLes mécanismes de la mise en relation#

Au niveau technique, la mise en relation implique d'aligner des données provenant de différentes modalités dans un espace vectoriel de haute dimension partagé. Des architectures avancées, souvent construites sur le framework Transformer utilisé dans le traitement du langage naturel (NLP), génèrent des représentations numériques appelées embeddings à la fois pour les descriptions textuelles et les entrées visuelles. Pendant l'entraînement, le modèle apprend à minimiser la distance entre l'embedding d'un prompt textuel (par ex. "sac à dos bleu") et l'embedding de la zone visuelle correspondante.

Cet alignement permet la détection à vocabulaire ouvert. Contrairement à l'apprentissage supervisé traditionnel où un modèle est limité à un ensemble fixe de catégories, la mise en relation permet l'apprentissage zero-shot. Un modèle ainsi configuré peut identifier des objets qu'il n'a jamais vus explicitement pendant son entraînement, à condition de comprendre le langage qui les décrit. Cette flexibilité est soutenue par des frameworks de deep learning comme PyTorch, qui facilitent les opérations matricielles complexes nécessaires à ces alignements multimodaux.

Link to this sectionApplications concrètes#

La technologie de mise en relation transforme les secteurs industriels en permettant aux systèmes d'interpréter l'intention des utilisateurs et de naviguer efficacement dans des environnements non structurés.

  • IA en robotique : La mise en relation est essentielle pour les agents autonomes exécutant des instructions verbales. Si un robot d'entrepôt reçoit l'ordre de "ramasser le colis sur l'étagère du haut", il doit relier les concepts "colis" et "étagère du haut" à des coordonnées 3D spécifiques dans son champ de vision. Cette capacité fait l'objet d'une recherche approfondie au MIT CSAIL en robotique, permettant aux robots d'opérer en toute sécurité aux côtés des humains.
  • Recherche sémantique et recherche de médias : La mise en relation alimente les moteurs de recherche avancés qui vont au-delà de la simple correspondance par mots-clés. Les utilisateurs peuvent interroger des archives vidéo avec des descriptions complexes comme "un cycliste tournant à gauche au coucher du soleil", et le système utilise la mise en relation pour récupérer des horodatages spécifiques. Cela améliore considérablement la compréhension vidéo pour la sécurité et la gestion des médias.
  • Technologie d'assistance : Pour les utilisateurs malvoyants, la mise en relation permet aux applications de décrire leur environnement en temps réel ou de répondre à des questions sur ce qui les entoure, en s'appuyant sur une reconnaissance d'image robuste liée à la synthèse vocale.

Link to this sectionLa mise en relation avec Ultralytics YOLO-World#

L'écosystème Ultralytics prend en charge la mise en relation grâce à des architectures spécialisées comme YOLO-World. Alors que les modèles standards nécessitent un entraînement sur des datasets spécifiques, YOLO-World permet aux utilisateurs de définir des classes de détection personnalisées instantanément à l'aide de prompts textuels. Cela "relie" efficacement l'entrée en langage naturel à l'image sans réentraînement.

L'exemple suivant montre comment utiliser le package ultralytics pour détecter des objets basés sur des descriptions textuelles personnalisées :

from ultralytics import YOLO

# Load a pre-trained YOLO-World model for open-vocabulary detection
model = YOLO("yolov8s-world.pt")

# Define custom text prompts (classes) to ground in the image
# The model maps these descriptions to visual features
model.set_classes(["person wearing hat", "blue backpack"])

# Run prediction on an image source to localize the described objects
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Display the results
results[0].show()

Link to this sectionDistinguer la mise en relation des concepts connexes#

Pour apprécier pleinement l'utilité de la mise en relation, il est utile de la différencier de tâches similaires en vision par ordinateur :

  • vs. Détection d'objets : Les modèles de détection traditionnels, tels que le modèle de pointe YOLO26, identifient les objets à partir d'un ensemble fermé et prédéfini de catégories (par ex. les 80 classes de COCO). La mise en relation est ouverte et identifie les objets en se basant sur du texte libre.
  • vs. Légendage d'image : Le légendage génère une phrase descriptive pour une image entière (Image $\to$ Texte). La mise en relation opère généralement dans la direction opposée ou de manière bidirectionnelle, en localisant des éléments visuels spécifiques basés sur une entrée textuelle (Texte $\to$ Région de l'image).
  • vs. Question-réponse visuelle (VQA) : Le VQA consiste à répondre à une question spécifique sur une image (par ex. "Quelle est la couleur de la voiture ?"). La mise en relation se concentre spécifiquement sur l'étape de localisation : dessiner une bounding box autour de l'objet mentionné.

Link to this sectionDéfis et perspectives d'avenir#

Malgré les avancées, la mise en relation reste intensive en termes de calcul. Aligner des modèles de langage massifs avec des encodeurs de vision nécessite des ressources GPU importantes et une gestion efficace de la mémoire, un défi souvent relevé par des innovateurs matériels comme NVIDIA. De plus, les modèles peuvent avoir des difficultés avec l'ambiguïté linguistique, nécessitant de grandes fenêtres de contexte pour déterminer si le mot "bat" fait référence à un instrument de sport ou à un animal.

Les développements futurs s'orientent vers des modèles de fondation unifiés qui sont nativement multimodaux. Des outils comme la plateforme Ultralytics évoluent pour aider les développeurs à gérer les datasets complexes requis pour ces tâches, en offrant des flux de travail simplifiés pour l'annotation de données et le déploiement de modèles. À mesure que ces technologies arrivent à maturité, nous pouvons nous attendre à une intégration transparente de la mise en relation dans les périphériques edge, permettant des applications d'IA plus intelligentes et plus réactives.

Explore solutions

Real-time AI that works with your team

IA dans la robotique

Équipe tes machines plus intelligentes avec les modèles Ultralytics YOLO. La vision par IA dans la robotique propulse la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans la logistique

Simplifie la logistique avec les modèles Ultralytics YOLO. La vision par IA permet l'inspection des colis, le tri, le suivi des véhicules et la surveillance de la sécurité des entrepôts en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans le commerce de détail

Réinvente le commerce de détail avec les modèles Ultralytics YOLO. La vision par IA alimente le suivi des stocks, la surveillance des étagères, la gestion des files d'attente et des informations plus intelligentes sur les clients.

En savoir plus
Real-time AI that works with your team

IA dans la santé

Construis des solutions de santé avec les modèles Ultralytics YOLO. L'IA de vision dans la santé permet une imagerie médicale plus rapide, des diagnostics plus intelligents et une surveillance des patients.

En savoir plus
Real-time AI that works with your team

IA dans la fabrication

Optimise la fabrication avec les modèles Ultralytics YOLO. La vision par IA favorise le contrôle qualité, la détection des défauts, la conformité aux EPI et l'automatisation des chaînes de montage.

En savoir plus
Real-time AI that works with your operation

IA dans l'automobile

Applique la vision par ordinateur dans l'automobile avec les modèles Ultralytics YOLO. L'IA de vision améliore la sécurité routière, l'assistance à la conduite et l'automatisation des véhicules pour des routes plus intelligentes.

En savoir plus
Real-time AI tailored to your operation

IA en agriculture

Intègre l'IA de vision à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise la surveillance des cultures, le suivi du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.

En savoir plus
Real-time AI that works with your team

IA dans la robotique

Équipe tes machines plus intelligentes avec les modèles Ultralytics YOLO. La vision par IA dans la robotique propulse la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans la logistique

Simplifie la logistique avec les modèles Ultralytics YOLO. La vision par IA permet l'inspection des colis, le tri, le suivi des véhicules et la surveillance de la sécurité des entrepôts en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans le commerce de détail

Réinvente le commerce de détail avec les modèles Ultralytics YOLO. La vision par IA alimente le suivi des stocks, la surveillance des étagères, la gestion des files d'attente et des informations plus intelligentes sur les clients.

En savoir plus
Real-time AI that works with your team

IA dans la santé

Construis des solutions de santé avec les modèles Ultralytics YOLO. L'IA de vision dans la santé permet une imagerie médicale plus rapide, des diagnostics plus intelligents et une surveillance des patients.

En savoir plus
Real-time AI that works with your team

IA dans la fabrication

Optimise la fabrication avec les modèles Ultralytics YOLO. La vision par IA favorise le contrôle qualité, la détection des défauts, la conformité aux EPI et l'automatisation des chaînes de montage.

En savoir plus
Real-time AI that works with your operation

IA dans l'automobile

Applique la vision par ordinateur dans l'automobile avec les modèles Ultralytics YOLO. L'IA de vision améliore la sécurité routière, l'assistance à la conduite et l'automatisation des véhicules pour des routes plus intelligentes.

En savoir plus
Real-time AI tailored to your operation

IA en agriculture

Intègre l'IA de vision à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise la surveillance des cultures, le suivi du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.

En savoir plus
Real-time AI that works with your team

IA dans la robotique

Équipe tes machines plus intelligentes avec les modèles Ultralytics YOLO. La vision par IA dans la robotique propulse la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans la logistique

Simplifie la logistique avec les modèles Ultralytics YOLO. La vision par IA permet l'inspection des colis, le tri, le suivi des véhicules et la surveillance de la sécurité des entrepôts en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans le commerce de détail

Réinvente le commerce de détail avec les modèles Ultralytics YOLO. La vision par IA alimente le suivi des stocks, la surveillance des étagères, la gestion des files d'attente et des informations plus intelligentes sur les clients.

En savoir plus
Real-time AI that works with your team

IA dans la santé

Construis des solutions de santé avec les modèles Ultralytics YOLO. L'IA de vision dans la santé permet une imagerie médicale plus rapide, des diagnostics plus intelligents et une surveillance des patients.

En savoir plus
Real-time AI that works with your team

IA dans la fabrication

Optimise la fabrication avec les modèles Ultralytics YOLO. La vision par IA favorise le contrôle qualité, la détection des défauts, la conformité aux EPI et l'automatisation des chaînes de montage.

En savoir plus
Real-time AI that works with your operation

IA dans l'automobile

Applique la vision par ordinateur dans l'automobile avec les modèles Ultralytics YOLO. L'IA de vision améliore la sécurité routière, l'assistance à la conduite et l'automatisation des véhicules pour des routes plus intelligentes.

En savoir plus
Real-time AI tailored to your operation

IA en agriculture

Intègre l'IA de vision à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise la surveillance des cultures, le suivi du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.

En savoir plus

Construisons ensemble le futur de l'IA !

Commence ton aventure avec le futur de l'apprentissage automatique