Découvrez les principes fondamentaux de l'ancrage dans l'IA. Apprenez à relier le langage naturel aux données visuelles à l'aide Ultralytics et YOLO pour la détection à vocabulaire ouvert.
Le « grounding » désigne la capacité d'un système d'intelligence artificielle à relier des concepts abstraits, généralement dérivés du langage naturel, à des représentations spécifiques et concrètes du monde physique, telles que des données visuelles ou des entrées sensorielles. Dans le contexte de la vision par ordinateur, cela signifie qu'un modèle ne se contente pas de traiter du texte, mais qu'il peut analyser une phrase telle que « une personne promène son chien » et localiser précisément ces entités dans une image ou une vidéo. Ce processus comble le fossé entre le raisonnement symbolique et la perception au niveau des pixels, résolvant ainsi le problème fondamental de l'ancrage symbolique en sciences cognitives. En reliant les tokens linguistiques aux caractéristiques visuelles, l'ancrage sert de pierre angulaire à l'IA multimodale moderne , permettant aux machines d'interagir de manière plus intuitive avec les environnements humains dynamiques.
Sur le plan technique, l'ancrage consiste à aligner les données provenant de différentes modalités dans un espace vectoriel commun à haute dimension . Des architectures avancées, souvent basées sur le cadre Transformer utilisé dans le traitement du langage naturel (NLP), génèrent des représentations numériques appelées « embeddings » (intégrations) pour les descriptions textuelles et les entrées visuelles. Au cours de l'entraînement, le modèle apprend à minimiser la distance entre l'intégration d'une invite textuelle (par exemple, « sac à dos bleu ») et l'intégration de la région visuelle correspondante.
Cet alignement permet la détection à vocabulaire ouvert. Contrairement à l'apprentissage supervisé traditionnel où un modèle est limité à un ensemble fixe de catégories, l'ancrage permet l' apprentissage sans entraînement. Un modèle ancré peut identifier des objets qu'il n'a jamais explicitement vus pendant l'entraînement, à condition qu'il comprenne le langage qui les décrit. Cette flexibilité est prise en charge par des cadres d'apprentissage profond tels que PyTorch, qui facilitent les opérations matricielles complexes nécessaires à ces alignements multimodaux.
La technologie de mise à la terre est en train de remodeler les industries en permettant aux systèmes d’interpréter l’intention de l’utilisateur et de naviguer efficacement dans des environnements non structurés .
Ultralytics prend en charge l'ancrage grâce à des architectures spécialisées telles que YOLO. Alors que les modèles standard nécessitent un apprentissage sur des ensembles de données spécifiques, YOLO permet aux utilisateurs de définir instantanément des classes de détection personnalisées à l'aide d'invites textuelles. Cela permet d'« ancrer » efficacement l'entrée en langage naturel sur l'image sans nécessiter de nouvel apprentissage.
L'exemple suivant montre comment utiliser la fonction ultralytics paquet permettant de detect à partir de descriptions textuelles personnalisées
:
from ultralytics import YOLO
# Load a pre-trained YOLO-World model for open-vocabulary detection
model = YOLO("yolov8s-world.pt")
# Define custom text prompts (classes) to ground in the image
# The model maps these descriptions to visual features
model.set_classes(["person wearing hat", "blue backpack"])
# Run prediction on an image source to localize the described objects
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Display the results
results[0].show()
Pour bien comprendre l'utilité du grounding, il est utile de le différencier d'autres tâches similaires de vision par ordinateur :
Malgré les progrès réalisés, la mise à la terre reste très gourmande en ressources informatiques. L'alignement de modèles linguistiques massifs avec des encodeurs visuels nécessite d'importantes GPU et une gestion efficace de la mémoire , un défi souvent relevé par des innovateurs en matière de matériel informatique tels que NVIDIA. De plus, les modèles peuvent être confrontés à des ambiguïtés linguistiques, nécessitant de grandes fenêtres contextuelles pour déterminer si le mot « bat » fait référence à un instrument de sport ou à un animal.
Les développements futurs s'orientent vers des modèles de base unifiés qui sont nativement multimodaux. Des outils tels que Ultralytics évoluent pour aider les développeurs à gérer les ensembles de données complexes nécessaires à ces tâches, en offrant des flux de travail rationalisés pour l' annotation des données et le déploiement des modèles. À mesure que ces technologies mûrissent, nous pouvons nous attendre à une intégration transparente de la mise à la terre dans les appareils de pointe, permettant des applications d'IA plus intelligentes et plus réactives.