Découvrez comment l'ancrage dans l'IA relie les concepts abstraits aux données du monde réel, améliorant ainsi le contexte, la précision et la confiance dans les applications dynamiques.
La mise à la terre est le processus de l'intelligence artificielle (IA) qui consiste à de relier des concepts abstraits, généralement des mots ou des phrases du langage naturel, à des représentations concrètes dans le monde physique, comme les pixels d'une image ou les données sensorielles d'un robot. concrètes dans le monde physique, comme les pixels d'une image ou les données sensorielles d'un robot. En termes plus simples, si un ordinateur lit le texte "un chat qui dort", il est possible d'établir un lien entre le texte et la réalité. texte "un chat qui dort", l'ancrage est la capacité de regarder une photographie et d'identifier la région spécifique où se trouve le chat. où se trouve le chat. Cette capacité permet de combler le fossé sémantique entre les symboles linguistiques et les informations perceptuelles, un défi connu sous le nom de "grounding". perceptives, un défi connu sous le nom de problème du symbol grounding en sciences cognitives. Alors que les les systèmes traditionnels peuvent traiter le texte et les images séparément, l'ancrage permet à l'IA multimodale de comprendre la relation entre les symboles et les images. l'IA multimodale de comprendre la relation entre les deux entre les deux, facilitant ainsi une interaction homme-machine plus intuitive.
D'un point de vue technique, la mise à la terre repose sur l'alignement d'espaces vectoriels à haute dimension. Les modèles modernes utilisent architectures d'apprentissage profond (DL), en particulier le Transformer, pour convertir à la fois le texte et les images en représentations numériques appelées embeddings. Au cours de l'apprentissage, le modèle apprend à cartographier l'intégration d'une phrase de texte (par exemple, "voiture rouge") à proximité de l'intégration des caractéristiques visuelles correspondant à cet objet. des caractéristiques visuelles correspondant à cet objet.
Ce processus permet la détection du vocabulaire ouvert. Contrairement à la détection d'objets détection d'objets standard, qui se limite à une liste de classes pré-entraînées (comme les 80 classes de COCO), les modèles d'ancrage peuvent identifier n'importe quel objet décrit par un texte. texte. Pour ce faire, on utilise l'apprentissage à partir de zéro, c'est-à-dire que où le modèle identifie des objets qu'il n'a jamais explicitement vus au cours de la formation, simplement en comprenant le langage qui les décrit. les décrivant. Les recherches menées par des organisations telles que l'OpenAI sur le CLIP ont jeté les bases de l'alignement de ces modèles visuels sur le CLIP. les bases de l'alignement de ces représentations visuelles et textuelles.
La mise à la terre transforme la manière dont les machines interprètent les intentions de l'utilisateur et interagissent avec leur environnement.
Le ultralytics soutient la mise à la terre par l'intermédiaire de la YOLO modèle. Ce modèle
permet aux utilisateurs de définir des classes personnalisées à la volée à l'aide d'invites textuelles, ce qui a pour effet d'"ancrer" le texte à l'image sans qu'il soit nécessaire de procéder à une nouvelle formation.
à l'image sans réentraînement.
L'exemple suivant montre comment charger un modèle pré-entraîné et définir des invites personnalisées pour detect objets spécifiques. spécifiques :
from ultralytics import YOLO
# Load a pre-trained YOLO-World model
model = YOLO("yolov8s-world.pt")
# Define custom text prompts (classes) to ground in the image
# The model will look specifically for these descriptions
model.set_classes(["person wearing hat", "blue backpack"])
# Run prediction on an image source
results = model.predict("bus.jpg")
# Show results to see bounding boxes around the grounded objects
results[0].show()
Pour comprendre le grounding, il est utile de le différencier des tâches similaires de vision par ordinateur :
Malgré les progrès réalisés, la mise à la terre reste un processus lourd en termes de calcul. L'alignement des modèles linguistiques massifs sur les codeurs vision nécessite d'importantes ressources ressourcesGPU . En outre, les modèles peuvent avoir du mal à gérer l'ambiguïté ; l'expression "la banque" peut désigner la berge d'une rivière ou une institution financière, l'IA doit s'appuyer sur des fenêtres contextuelles pour de contexte pour déterminer la base visuelle correcte.
Garantir l'efficacité de ces modèles pour l'inférence en temps réel est un domaine en cours d'étude. l 'inférence en temps réel est un domaine de développement. Les chercheurs se penchent également sur les biais des données pour s'assurer que les modèles d'ancrage se généralisent cultures et contextes différents, un sujet fréquemment abordé dans la littérature sur l 'éthique dans la littérature sur l'IA.