Scopri come il grounding nell'IA collega concetti astratti a dati del mondo reale, migliorando il contesto, l'accuratezza e la fiducia in applicazioni dinamiche.
La messa a terra è il processo di Intelligenza Artificiale (IA) di concetti astratti, tipicamente parole o frasi del linguaggio naturale, a rappresentazioni concrete nel mondo fisico, come i pixel di un'immagine o i dati sensoriali di un robot. mondo fisico, come i pixel di un'immagine o i dati sensoriali di un robot. In termini più semplici, se un computer legge il testo testo "un gatto che dorme", il grounding è la capacità di guardare una fotografia e identificare la regione specifica in cui si trova il gatto. dove si trova il gatto. Questa capacità colma il divario semantico tra i simboli linguistici e le informazioni percettive. informazioni percettive, una sfida notoriamente conosciuta come problema della messa a terra dei simboli nelle scienze cognitive. Mentre sistemi tradizionali potrebbero elaborare testo e immagini separatamente, il grounding consente all'intelligenza artificiale multimodale di l 'intelligenza artificiale multimodale di comprendere la relazione tra i due, facilitando un'interazione uomo-macchina più intuitiva.
A livello tecnico, il grounding si basa sull'allineamento di spazi vettoriali ad alta dimensione. I modelli moderni utilizzano architetture di apprendimento profondo (DL), in particolare il Transformer, per convertire sia il testo che le immagini in rappresentazioni numeriche chiamate embeddings. Durante l'addestramento durante l'addestramento, il modello impara a mappare l'embedding di una frase di testo (ad esempio, "auto rossa") vicino all'embedding delle caratteristiche visive corrispondenti a quell'oggetto. delle caratteristiche visive corrispondenti a quell'oggetto.
Questo processo consente il rilevamento del vocabolario aperto. A differenza del rilevamento di oggetti, che si limita a un elenco fisso di classi di classi pre-addestrate (come le 80 classi di COCO), i modelli di grounding possono identificare qualsiasi oggetto descritto da una richiesta di testo. testo. Questo utilizza l'apprendimento a zero colpi, in cui il modello identifica oggetti che non ha mai visto esplicitamente durante l'addestramento, semplicemente comprendendo il linguaggio che li descrive. che li descrive. La ricerca di organizzazioni come OpenAI su CLIP ha posto le basi per l'allineamento di questi modelli visivi. le basi per l'allineamento di queste rappresentazioni visive e testuali.
La messa a terra trasforma il modo in cui le macchine interpretano l'intento dell'utente e interagiscono con il loro ambiente.
Il ultralytics Il pacchetto supporta la messa a terra attraverso il YOLO modello. Questo modello
consente agli utenti di definire classi personalizzate al volo utilizzando suggerimenti testuali, "ancorando" in modo efficace il testo all'immagine senza dover riqualificare.
all'immagine senza dover riqualificare.
L'esempio seguente mostra come caricare un modello pre-addestrato e definire prompt personalizzati per detect oggetti specifici. oggetti specifici:
from ultralytics import YOLO
# Load a pre-trained YOLO-World model
model = YOLO("yolov8s-world.pt")
# Define custom text prompts (classes) to ground in the image
# The model will look specifically for these descriptions
model.set_classes(["person wearing hat", "blue backpack"])
# Run prediction on an image source
results = model.predict("bus.jpg")
# Show results to see bounding boxes around the grounded objects
results[0].show()
Per comprendere il grounding, è utile differenziarlo da compiti simili di computer vision:
Nonostante i progressi, la messa a terra rimane un'attività computazionalmente intensa. L'allineamento di modelli linguistici massivi con codificatori di visione richiede risorse significative per le risorseGPU . Inoltre, i modelli possono avere problemi di ambiguità; la frase "la banca" potrebbe riferirsi a un fiume o a un istituto finanziario, che richiede all'intelligenza artificiale di affidarsi alle finestre di contesto per per risolvere la corretta collocazione visiva.
Garantire che questi modelli funzionino in modo efficiente per in tempo reale è un'area di sviluppo sviluppo. I ricercatori stanno anche affrontando dei dati per garantire che i modelli di grounding generalizzino generalizzino in modo equo tra culture e contesti diversi, un argomento frequentemente discusso nella letteratura etica nella letteratura sull'IA.