Glossaire

Mise à la terre

Découvre comment les bases de l'IA relient les concepts abstraits aux données du monde réel, améliorant ainsi le contexte, la précision et la confiance dans les applications dynamiques.

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

En savoir plus

L'ancrage dans l'intelligence artificielle fait référence au processus essentiel qui consiste à relier des informations abstraites, comme le langage ou les symboles, à des données sensorielles concrètes du monde réel, comme des images ou des sons. Il permet aux systèmes d'intelligence artificielle de construire une compréhension significative du monde en reliant les concepts qu'ils traitent en interne (par exemple, les mots dans une description de texte) aux choses qu'ils perçoivent par le biais de capteurs (par exemple, les objets dans un flux de caméra). Cette capacité est fondamentale pour créer une IA capable d'interagir intelligemment et contextuellement avec son environnement, en dépassant la simple reconnaissance des formes pour atteindre une forme de compréhension plus proche de la façon dont les humains associent les mots aux objets et aux actions. L'ancrage est particulièrement vital pour les modèles multimodaux qui traitent plusieurs types de données simultanément, comblant ainsi le fossé entre les différentes modalités d'information telles que le texte et la vision.

Pertinence et concepts clés

La mise à la terre est particulièrement cruciale pour les modèles vision-langage (VLM), tels que le modèleYOLO, qui visent à combler le fossé entre la perception visuelle et la compréhension du langage naturel (NLU). Contrairement à la détection traditionnelle d'objets, qui identifie généralement des objets appartenant à un ensemble prédéfini de catégories (comme "voiture", "personne", "chien"), le grounding permet aux modèles de localiser des objets en se basant sur des descriptions textuelles libres. Par exemple, au lieu de simplement détecter "personne" et "vélo", un VLM ancré pourrait répondre à la requête "trouver la personne portant un casque rouge et conduisant un vélo bleu" en localisant spécifiquement cette configuration d'objets dans une image ou une séquence vidéo. Cela implique de relier les concepts textuels ("personne", "casque rouge", "monter", "vélo bleu") aux pixels correspondants et aux relations spatiales dans les données visuelles. Cette capacité à relier le langage à des détails visuels spécifiques améliore la compréhension du contexte et est étroitement liée aux progrès de la recherche sémantique, où c'est le sens, et pas seulement les mots-clés, qui détermine la recherche d'informations.

Applications concrètes de la mise à la terre

La mise à la terre permet des applications d'IA plus sophistiquées et interactives dans divers domaines :

  • Robotique interactive: Les robots peuvent comprendre et exécuter des commandes données en langage naturel qui font référence à des objets spécifiques dans leur environnement, comme "ramasse la boîte verte à côté de la fenêtre". Pour cela, il faut rattacher les mots "boîte verte" et "fenêtre" aux objets réels perçus par les capteurs du robot. Explore davantage le rôle de l'IA dans la robotique et vois des exemples d'entreprises telles que Boston Dynamics.
  • Systèmes autonomes améliorés: Les voitures autonomes peuvent mieux interpréter les scénarios de circulation complexes décrits par un texte ou par la voix, comme "fais attention au camion de livraison garé devant". Il s'agit d'ancrer la description au véhicule spécifique identifié par le système de vision par ordinateur (VA) de la voiture. Découvre les technologies utilisées par des entreprises comme Waymo.
  • Analyse détaillée des images médicales: Les radiologues peuvent utiliser des requêtes textuelles pour repérer des anomalies spécifiques ou des régions d'intérêt dans les scans médicaux (comme les radiographies ou les IRM), par exemple "mettre en évidence la lésion décrite dans les notes du patient." Cela permet d'améliorer l'efficacité et la précision des diagnostics. Voir les travaux connexes sur l'utilisation de YOLO pour la détection des tumeurs et les recherches publiées dans des revues telles que Radiology : Artificial Intelligence.
  • Recherche d'images et de vidéos basée sur le contenu: Les utilisateurs peuvent rechercher de vastes bases de données visuelles à l'aide de requêtes très spécifiques en langage naturel, comme "trouver des photos de couchers de soleil sur des montagnes avec des nuages", en allant au-delà des simples tags ou mots-clés.

Aspects techniques

L'obtention d'une mise à la terre efficace repose souvent sur des techniques avancées d'apprentissage profond (DL). Les mécanismes d'attention, en particulier l'attention multimodale, aident les modèles à se concentrer sur les parties pertinentes à la fois de l'entrée textuelle (par exemple, des mots spécifiques dans une invite) et de l'entrée sensorielle (par exemple, des régions spécifiques dans une image). Les réseaux de transformateurs, largement utilisés dans le traitement du langage naturel (NLP), sont souvent adaptés aux tâches multimodales impliquant la mise à la terre, comme on le voit dans des modèles tels que CLIP. L'entraînement de ces modèles nécessite de grands ensembles de données ann otées de haute qualité, avec des annotations qui relient explicitement le texte et les éléments visuels, ce qui souligne l'importance des bonnes pratiques d'étiquetage des données, souvent gérées par des plateformes comme Ultralytics HUB. Des techniques telles que l'apprentissage contrastif sont également employées pour apprendre aux modèles à associer efficacement les paires de textes et d'images correspondantes, souvent à l'aide de cadres tels que PyTorch ou TensorFlow.

Distinctions par rapport aux concepts apparentés

  • Détection d'objets: La détection d'objets standard identifie des instances de classes d'objets prédéfinies (par exemple, "chat", "voiture") et dessine des boîtes de délimitation autour d'elles. Le grounding, quant à lui, localise les objets en se basant sur des descriptions en langage naturel potentiellement complexes et ouvertes, non limitées à des catégories fixes.
  • Segmentation sémantique: Cette tâche consiste à attribuer une étiquette de classe à chaque pixel d'une image (par exemple, étiqueter tous les pixels appartenant à "route", "ciel", "bâtiment"). Le grounding se concentre sur la liaison d'une expression linguistique spécifique à une région particulière ou à une instance d'objet dans l'image, plutôt que sur la classification de chaque pixel. Il est plus étroitement lié à la segmentation des expressions de référence, un type de segmentation des instances.

Les défis

Le développement de capacités de mise à la terre robustes est confronté à plusieurs défis. Il est difficile de gérer l'ambiguïté et la variabilité inhérentes au langage naturel. La création des ensembles de données à grande échelle et précisément annotés nécessaires demande beaucoup de travail et est coûteuse. Les ressources informatiques nécessaires à la formation de modèles multimodaux complexes, qui impliquent souvent une formation distribuée ou une formation en nuage, peuvent être considérables. S'assurer que les modèles peuvent effectuer une mise à la terre efficace pour l'inférence en temps réel est également un obstacle important pour le déploiement pratique. La recherche se poursuit dans des domaines tels que l'apprentissage à partir de zéro et l'apprentissage à partir de quelques images afin d'améliorer la généralisation aux descriptions d'objets non vus et de réduire la dépendance aux données, avec des travaux en cours souvent trouvés sur des plateformes comme arXiv.

L'ancrage reste une frontière critique dans l'IA, poussant les systèmes vers une compréhension du monde plus profonde et plus exploitable, qui reflète plus étroitement la cognition humaine et permet une interaction plus naturelle entre l'homme et l'IA.

Tout lire