Yolo Vision Shenzhen
Shenzhen
Iscriviti ora
Glossario

Grounding

Scopri come il grounding nell'IA collega concetti astratti a dati del mondo reale, migliorando il contesto, l'accuratezza e la fiducia in applicazioni dinamiche.

La messa a terra è il processo di Intelligenza Artificiale (IA) di concetti astratti, tipicamente parole o frasi del linguaggio naturale, a rappresentazioni concrete nel mondo fisico, come i pixel di un'immagine o i dati sensoriali di un robot. mondo fisico, come i pixel di un'immagine o i dati sensoriali di un robot. In termini più semplici, se un computer legge il testo testo "un gatto che dorme", il grounding è la capacità di guardare una fotografia e identificare la regione specifica in cui si trova il gatto. dove si trova il gatto. Questa capacità colma il divario semantico tra i simboli linguistici e le informazioni percettive. informazioni percettive, una sfida notoriamente conosciuta come problema della messa a terra dei simboli nelle scienze cognitive. Mentre sistemi tradizionali potrebbero elaborare testo e immagini separatamente, il grounding consente all'intelligenza artificiale multimodale di l 'intelligenza artificiale multimodale di comprendere la relazione tra i due, facilitando un'interazione uomo-macchina più intuitiva.

La meccanica della messa a terra

A livello tecnico, il grounding si basa sull'allineamento di spazi vettoriali ad alta dimensione. I modelli moderni utilizzano architetture di apprendimento profondo (DL), in particolare il Transformer, per convertire sia il testo che le immagini in rappresentazioni numeriche chiamate embeddings. Durante l'addestramento durante l'addestramento, il modello impara a mappare l'embedding di una frase di testo (ad esempio, "auto rossa") vicino all'embedding delle caratteristiche visive corrispondenti a quell'oggetto. delle caratteristiche visive corrispondenti a quell'oggetto.

Questo processo consente il rilevamento del vocabolario aperto. A differenza del rilevamento di oggetti, che si limita a un elenco fisso di classi di classi pre-addestrate (come le 80 classi di COCO), i modelli di grounding possono identificare qualsiasi oggetto descritto da una richiesta di testo. testo. Questo utilizza l'apprendimento a zero colpi, in cui il modello identifica oggetti che non ha mai visto esplicitamente durante l'addestramento, semplicemente comprendendo il linguaggio che li descrive. che li descrive. La ricerca di organizzazioni come OpenAI su CLIP ha posto le basi per l'allineamento di questi modelli visivi. le basi per l'allineamento di queste rappresentazioni visive e testuali.

Applicazioni nel mondo reale

La messa a terra trasforma il modo in cui le macchine interpretano l'intento dell'utente e interagiscono con il loro ambiente.

  • Robotica e agenti autonomi: Nel campo della AI nella robotica, la base è essenziale per l'esecuzione di comandi in linguaggio naturale. Se un utente dice a un robot di servizio di "prendere la mela accanto alla tazza", il robot deve mettere a terra le parole "mela", "tazza" e la parola "mela". tazza", il robot deve collegare le parole "mela", "tazza" e la relazione spaziale "vicino a" a specifiche coordinate fisiche. "accanto a" a specifiche coordinate fisiche nel feed della telecamera. Questo permette l'esecuzione dinamica di compiti in ambienti non strutturati, uno degli obiettivi principali della ricerca robotica dell'IEEE.
  • Ricerca e recupero semantici: Poteri di base dei motori di motori di ricerca semantici. Invece di abbinare parole chiave, un sistema può parole chiave, un sistema può cercare in un database video query complesse come "un ciclista che svolta a sinistra al tramonto". al tramonto". Il motore di ricerca basa l'interrogazione sul contenuto visivo dei file video per recuperare precise indicazioni temporali. Questa tecnologia migliora gli strumenti di comprensione dei video e la gestione delle risorse gestione degli asset digitali.

Messa a terra con Ultralytics YOLO

Il ultralytics Il pacchetto supporta la messa a terra attraverso il YOLO modello. Questo modello consente agli utenti di definire classi personalizzate al volo utilizzando suggerimenti testuali, "ancorando" in modo efficace il testo all'immagine senza dover riqualificare. all'immagine senza dover riqualificare.

L'esempio seguente mostra come caricare un modello pre-addestrato e definire prompt personalizzati per detect oggetti specifici. oggetti specifici:

from ultralytics import YOLO

# Load a pre-trained YOLO-World model
model = YOLO("yolov8s-world.pt")

# Define custom text prompts (classes) to ground in the image
# The model will look specifically for these descriptions
model.set_classes(["person wearing hat", "blue backpack"])

# Run prediction on an image source
results = model.predict("bus.jpg")

# Show results to see bounding boxes around the grounded objects
results[0].show()

Distinguere la messa a terra dai concetti correlati

Per comprendere il grounding, è utile differenziarlo da compiti simili di computer vision:

  • rispetto al rilevamento di oggetti: Il rilevamento standard, come quello eseguito da YOLO11identifica gli oggetti da un insieme chiuso di categorie (ad esempio, "persona", "auto"). (ad esempio, "persona", "auto"). Il grounding è aperto e può detect oggetti basati su descrizioni testuali libere non presenti nei dati di addestramento. presenti nei dati di addestramento.
  • vs. didascalia dell'immagine: La didascalia dell'immagine genera una descrizione testuale da un'immagine (Immagine $a$ Testo). La messa a terra funziona in genere in senso inverso o bidirezionale, localizzando gli elementi visivi in base all'input di testo (Testo $a$ Regione immagine). basandosi sull'input di testo (Testo $a$ Regione immagine).
  • vs. Segmentazione semantica: Mentre segmentazione semantica classifica ogni pixel in una categoria, non collega intrinsecamente tali pixel a frasi linguistiche specifiche o a istanze distinte definite da attributi complessi (ad esempio, "la mela rossa lucida" o "la mela"). definite da attributi complessi (ad esempio, "la mela rossa lucida" o semplicemente "la mela").

Sfide attuali

Nonostante i progressi, la messa a terra rimane un'attività computazionalmente intensa. L'allineamento di modelli linguistici massivi con codificatori di visione richiede risorse significative per le risorseGPU . Inoltre, i modelli possono avere problemi di ambiguità; la frase "la banca" potrebbe riferirsi a un fiume o a un istituto finanziario, che richiede all'intelligenza artificiale di affidarsi alle finestre di contesto per per risolvere la corretta collocazione visiva.

Garantire che questi modelli funzionino in modo efficiente per in tempo reale è un'area di sviluppo sviluppo. I ricercatori stanno anche affrontando dei dati per garantire che i modelli di grounding generalizzino generalizzino in modo equo tra culture e contesti diversi, un argomento frequentemente discusso nella letteratura etica nella letteratura sull'IA.

Unitevi alla comunità di Ultralytics

Entra nel futuro dell'AI. Connettiti, collabora e cresci con innovatori globali

Iscriviti ora