Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Ancrage

Découvrez comment l'ancrage dans l'IA relie les concepts abstraits aux données du monde réel, améliorant ainsi le contexte, la précision et la confiance dans les applications dynamiques.

La mise à la terre est le processus de l'intelligence artificielle (IA) qui consiste à de relier des concepts abstraits, généralement des mots ou des phrases du langage naturel, à des représentations concrètes dans le monde physique, comme les pixels d'une image ou les données sensorielles d'un robot. concrètes dans le monde physique, comme les pixels d'une image ou les données sensorielles d'un robot. En termes plus simples, si un ordinateur lit le texte "un chat qui dort", il est possible d'établir un lien entre le texte et la réalité. texte "un chat qui dort", l'ancrage est la capacité de regarder une photographie et d'identifier la région spécifique où se trouve le chat. où se trouve le chat. Cette capacité permet de combler le fossé sémantique entre les symboles linguistiques et les informations perceptuelles, un défi connu sous le nom de "grounding". perceptives, un défi connu sous le nom de problème du symbol grounding en sciences cognitives. Alors que les les systèmes traditionnels peuvent traiter le texte et les images séparément, l'ancrage permet à l'IA multimodale de comprendre la relation entre les symboles et les images. l'IA multimodale de comprendre la relation entre les deux entre les deux, facilitant ainsi une interaction homme-machine plus intuitive.

La mécanique de la mise à la terre

D'un point de vue technique, la mise à la terre repose sur l'alignement d'espaces vectoriels à haute dimension. Les modèles modernes utilisent architectures d'apprentissage profond (DL), en particulier le Transformer, pour convertir à la fois le texte et les images en représentations numériques appelées embeddings. Au cours de l'apprentissage, le modèle apprend à cartographier l'intégration d'une phrase de texte (par exemple, "voiture rouge") à proximité de l'intégration des caractéristiques visuelles correspondant à cet objet. des caractéristiques visuelles correspondant à cet objet.

Ce processus permet la détection du vocabulaire ouvert. Contrairement à la détection d'objets détection d'objets standard, qui se limite à une liste de classes pré-entraînées (comme les 80 classes de COCO), les modèles d'ancrage peuvent identifier n'importe quel objet décrit par un texte. texte. Pour ce faire, on utilise l'apprentissage à partir de zéro, c'est-à-dire que où le modèle identifie des objets qu'il n'a jamais explicitement vus au cours de la formation, simplement en comprenant le langage qui les décrit. les décrivant. Les recherches menées par des organisations telles que l'OpenAI sur le CLIP ont jeté les bases de l'alignement de ces modèles visuels sur le CLIP. les bases de l'alignement de ces représentations visuelles et textuelles.

Applications concrètes

La mise à la terre transforme la manière dont les machines interprètent les intentions de l'utilisateur et interagissent avec leur environnement.

  • Robotique et agents autonomes : Dans le domaine de l l 'IA en robotique, les bases sont essentielles pour l'exécution de commandes en langage naturel. Si un utilisateur demande à un robot de service de "ramasser la pomme à côté de la tasse", le robot doit ancrer les mots "pomme", "tasse" et les mots "mug". le robot doit rattacher les mots "pomme", "tasse" et la relation spatiale "à côté de" à des coordonnées physiques spécifiques. "à côté de" à des coordonnées physiques spécifiques dans le flux de sa caméra. Cela permet l'exécution dynamique de tâches dans des Cela permet l'exécution dynamique de tâches dans des environnements non structurés, un point clé de la recherche en robotique à l'IEEE.
  • Recherche et récupération sémantiques : Les pouvoirs de base des moteurs de recherche sémantique avancés sémantiques avancés. Au lieu de faire correspondre des mots-clés, un système peut rechercher dans une base de données vidéo des requêtes complexes telles que "un cycliste tournant à gauche au coucher du soleil". au coucher du soleil". Le moteur intègre la requête dans le contenu visuel des fichiers vidéo afin de récupérer des horodatages précis. des horodatages précis. Cette technologie améliore les outils de de compréhension des vidéos et de gestion des numériques.

La mise à la terre avec Ultralytics YOLO

Le ultralytics soutient la mise à la terre par l'intermédiaire de la YOLO modèle. Ce modèle permet aux utilisateurs de définir des classes personnalisées à la volée à l'aide d'invites textuelles, ce qui a pour effet d'"ancrer" le texte à l'image sans qu'il soit nécessaire de procéder à une nouvelle formation. à l'image sans réentraînement.

L'exemple suivant montre comment charger un modèle pré-entraîné et définir des invites personnalisées pour detect objets spécifiques. spécifiques :

from ultralytics import YOLO

# Load a pre-trained YOLO-World model
model = YOLO("yolov8s-world.pt")

# Define custom text prompts (classes) to ground in the image
# The model will look specifically for these descriptions
model.set_classes(["person wearing hat", "blue backpack"])

# Run prediction on an image source
results = model.predict("bus.jpg")

# Show results to see bounding boxes around the grounded objects
results[0].show()

Distinguer la mise à la terre des concepts connexes

Pour comprendre le grounding, il est utile de le différencier des tâches similaires de vision par ordinateur :

  • vs. détection d'objets : La détection standard, telle que celle effectuée par YOLO11identifie les objets à partir d'un ensemble fermé de catégories (par exemple, "personne", "voiture"). (par exemple, "personne", "voiture"). Le grounding est ouvert et peut detect objets basés sur des descriptions textuelles libres qui ne sont pas présentes dans les données d'apprentissage. pas présentes dans les données d'apprentissage.
  • vs. le sous-titrage d'image : Le sous-titrage d'image génère une description textuelle à partir d'une image (Image $\to$ Texte). Le grounding fonctionne généralement dans le sens inverse ou bidirectionnel, en localisant des éléments visuels sur la base d'un texte (Texte $\à$ Région de l'image). sur la base d'un texte (Texte $\à$ Région de l'image).
  • vs. segmentation sémantique : Alors que la segmentation sémantique classe chaque pixel dans une catégorie, elle ne lie pas intrinsèquement ces pixels à des phrases linguistiques spécifiques ou à des instances distinctes. pixel dans une catégorie, elle ne lie pas intrinsèquement ces pixels à des phrases linguistiques spécifiques ou à des instances distinctes définies par des attributs complexes (par exemple, "la pomme rouge brillante" ou simplement "la pomme"). distinctes définies par des attributs complexes (par exemple, "la pomme rouge brillante" ou simplement "la pomme").

Défis actuels

Malgré les progrès réalisés, la mise à la terre reste un processus lourd en termes de calcul. L'alignement des modèles linguistiques massifs sur les codeurs vision nécessite d'importantes ressources ressourcesGPU . En outre, les modèles peuvent avoir du mal à gérer l'ambiguïté ; l'expression "la banque" peut désigner la berge d'une rivière ou une institution financière, l'IA doit s'appuyer sur des fenêtres contextuelles pour de contexte pour déterminer la base visuelle correcte.

Garantir l'efficacité de ces modèles pour l'inférence en temps réel est un domaine en cours d'étude. l 'inférence en temps réel est un domaine de développement. Les chercheurs se penchent également sur les biais des données pour s'assurer que les modèles d'ancrage se généralisent cultures et contextes différents, un sujet fréquemment abordé dans la littérature sur l 'éthique dans la littérature sur l'IA.

Rejoindre la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant