Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Ancrage

Découvrez les principes fondamentaux de l'ancrage dans l'IA. Apprenez à relier le langage naturel aux données visuelles à l'aide Ultralytics et YOLO pour la détection à vocabulaire ouvert.

Le « grounding » désigne la capacité d'un système d'intelligence artificielle à relier des concepts abstraits, généralement dérivés du langage naturel, à des représentations spécifiques et concrètes du monde physique, telles que des données visuelles ou des entrées sensorielles. Dans le contexte de la vision par ordinateur, cela signifie qu'un modèle ne se contente pas de traiter du texte, mais qu'il peut analyser une phrase telle que « une personne promène son chien » et localiser précisément ces entités dans une image ou une vidéo. Ce processus comble le fossé entre le raisonnement symbolique et la perception au niveau des pixels, résolvant ainsi le problème fondamental de l'ancrage symbolique en sciences cognitives. En reliant les tokens linguistiques aux caractéristiques visuelles, l'ancrage sert de pierre angulaire à l'IA multimodale moderne , permettant aux machines d'interagir de manière plus intuitive avec les environnements humains dynamiques.

La mécanique de la mise à la terre

Sur le plan technique, l'ancrage consiste à aligner les données provenant de différentes modalités dans un espace vectoriel commun à haute dimension . Des architectures avancées, souvent basées sur le cadre Transformer utilisé dans le traitement du langage naturel (NLP), génèrent des représentations numériques appelées « embeddings » (intégrations) pour les descriptions textuelles et les entrées visuelles. Au cours de l'entraînement, le modèle apprend à minimiser la distance entre l'intégration d'une invite textuelle (par exemple, « sac à dos bleu ») et l'intégration de la région visuelle correspondante.

Cet alignement permet la détection à vocabulaire ouvert. Contrairement à l'apprentissage supervisé traditionnel où un modèle est limité à un ensemble fixe de catégories, l'ancrage permet l' apprentissage sans entraînement. Un modèle ancré peut identifier des objets qu'il n'a jamais explicitement vus pendant l'entraînement, à condition qu'il comprenne le langage qui les décrit. Cette flexibilité est prise en charge par des cadres d'apprentissage profond tels que PyTorch, qui facilitent les opérations matricielles complexes nécessaires à ces alignements multimodaux.

Applications concrètes

La technologie de mise à la terre est en train de remodeler les industries en permettant aux systèmes d’interpréter l’intention de l’utilisateur et de naviguer efficacement dans des environnements non structurés .

  • L'IA en robotique: la mise en pratique est essentielle pour les agents autonomes qui exécutent des instructions verbales. Si un robot d'entrepôt reçoit l'ordre de « prendre le colis sur l'étagère du haut », il doit mettre en pratique les concepts de « colis » et d'« étagère du haut » pour les associer à des coordonnées 3D spécifiques dans son champ de vision. Cette capacité est au cœur des recherches en robotique menées au MIT CSAIL, qui permettent aux robots de fonctionner en toute sécurité aux côtés des humains.
  • Recherche sémantique et récupération de médias : Le grounding alimente des moteurs de recherche avancés qui vont au-delà de la simple correspondance de mots-clés. Les utilisateurs peuvent interroger des archives vidéo à l'aide de des descriptions complexes telles que « un cycliste tournant à gauche au coucher du soleil », et le système utilise le grounding pour récupérer des horodatages spécifiques. Cela améliore considérablement la compréhension des vidéos pour la sécurité et la gestion des médias .
  • Technologie d'assistance : pour les utilisateurs malvoyants, la mise à la terre permet aux applications de décrire l'environnement en temps réel ou de répondre à des questions sur celui-ci, en s'appuyant sur une reconnaissance d'image robuste liée à la génération de la parole.

La mise à la terre avec Ultralytics YOLO

Ultralytics prend en charge l'ancrage grâce à des architectures spécialisées telles que YOLO. Alors que les modèles standard nécessitent un apprentissage sur des ensembles de données spécifiques, YOLO permet aux utilisateurs de définir instantanément des classes de détection personnalisées à l'aide d'invites textuelles. Cela permet d'« ancrer » efficacement l'entrée en langage naturel sur l'image sans nécessiter de nouvel apprentissage.

L'exemple suivant montre comment utiliser la fonction ultralytics paquet permettant de detect à partir de descriptions textuelles personnalisées :

from ultralytics import YOLO

# Load a pre-trained YOLO-World model for open-vocabulary detection
model = YOLO("yolov8s-world.pt")

# Define custom text prompts (classes) to ground in the image
# The model maps these descriptions to visual features
model.set_classes(["person wearing hat", "blue backpack"])

# Run prediction on an image source to localize the described objects
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Display the results
results[0].show()

Distinguer la mise à la terre des concepts connexes

Pour bien comprendre l'utilité du grounding, il est utile de le différencier d'autres tâches similaires de vision par ordinateur :

  • vs. Détection d'objets: Les modèles de détection traditionnels, tels que le modèle de pointe YOLO26, identifient les objets à partir d'un ensemble fermé et prédéfini de catégories (par exemple, les 80 classes du COCO). L'ancrage est ouvert, identifiant les objets sur la base d'un texte libre.
  • vs. Légende d'image: la légende génère une phrase descriptive pour une image entière (image $\to$ texte). L'ancrage fonctionne généralement dans le sens inverse ou de manière bidirectionnelle, en localisant des éléments visuels spécifiques à partir d'une entrée textuelle (texte $\to$ région d'image).
  • vs. Réponse visuelle à une question (VQA): La VQA consiste à répondre à une question spécifique concernant une image (par exemple, « De quelle couleur est la voiture ? »). L'ancrage se concentre spécifiquement sur l'étape de localisation, qui consiste à tracer un cadre autour de l'objet mentionné.

Défis et perspectives d'avenir

Malgré les progrès réalisés, la mise à la terre reste très gourmande en ressources informatiques. L'alignement de modèles linguistiques massifs avec des encodeurs visuels nécessite d'importantes GPU et une gestion efficace de la mémoire , un défi souvent relevé par des innovateurs en matière de matériel informatique tels que NVIDIA. De plus, les modèles peuvent être confrontés à des ambiguïtés linguistiques, nécessitant de grandes fenêtres contextuelles pour déterminer si le mot « bat » fait référence à un instrument de sport ou à un animal.

Les développements futurs s'orientent vers des modèles de base unifiés qui sont nativement multimodaux. Des outils tels que Ultralytics évoluent pour aider les développeurs à gérer les ensembles de données complexes nécessaires à ces tâches, en offrant des flux de travail rationalisés pour l' annotation des données et le déploiement des modèles. À mesure que ces technologies mûrissent, nous pouvons nous attendre à une intégration transparente de la mise à la terre dans les appareils de pointe, permettant des applications d'IA plus intelligentes et plus réactives.

Rejoindre la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant