Yolo Vision Shenzhen
Shenzhen
Iscriviti ora
Glossario

Suggerimenti visivi

Esplora i suggerimenti visivi per guidare i modelli di IA con punti e riquadri. Scopri come Ultralytics YOLO SAM una segmentazione precisa e un'annotazione dei dati più rapida.

Il prompting visivo è una tecnica emergente nella visione artificiale in cui gli utenti forniscono indicazioni spaziali o visive, come punti, riquadri di delimitazione o scarabocchi, per guidare l'attenzione di un modello di IA verso oggetti o regioni specifici all'interno di un'immagine. A differenza della tradizionale ingegneria dei prompt, che si basa principalmente su descrizioni testuali, il prompting visivo consente un'interazione più precisa e intuitiva con i sistemi di intelligenza artificiale (IA). Questo metodo sfrutta le capacità dei moderni modelli di base per eseguire attività come la segmentazione e il rilevamento senza richiedere un addestramento approfondito o grandi set di dati etichettati. "Indicando" efficacemente ciò che è importante, gli utenti possono adattare istantaneamente i modelli generici a compiti nuovi, colmando il divario tra l'intenzione umana e la percezione della macchina.

Meccanismi di stimolazione visiva

Fondamentalmente, il prompting visivo funziona inserendo informazioni spaziali direttamente nella pipeline di elaborazione del modello. Quando un utente clicca su un oggetto o disegna un riquadro, questi input vengono convertiti in incorporamenti basati su coordinate che la rete neurale integra con le caratteristiche dell'immagine. Questo processo è fondamentale per architetture interattive come il Segment Anything Model (SAM), in cui il modello prevede maschere basate su prompt geometrici.

La flessibilità dei suggerimenti visivi consente vari tipi di interazione:

  • Suggerimenti puntiformi: un utente clicca su un pixel specifico per indicare l'oggetto di interesse. Il modello quindi espande questa selezione all'intero contorno dell'oggetto.
  • Suggerimenti per il riquadro: il disegno di un riquadro di delimitazione fornisce una localizzazione approssimativa, segnalando al modello di segment classify è contenuto in quell'area.
  • Suggerimenti per gli scarabocchi: le linee disegnate a mano libera su un oggetto possono aiutare a chiarire scene complesse in cui gli oggetti si sovrappongono o hanno texture simili.

Una recente ricerca presentata al CVPR 2024 evidenzia come i suggerimenti visivi riducano significativamente il tempo necessario per l' annotazione dei dati, poiché gli annotatori umani possono correggere le previsioni del modello in tempo reale con semplici clic invece di tracciare manualmente i poligoni.

Prompt visivi vs. prompt testuali

Sebbene entrambe le tecniche mirino a guidare il comportamento del modello, è importante distinguere i prompt visivi dai metodi bas ati sul testo . La generazione di immagini da testo o il rilevamento zero-shot si basano sull' elaborazione del linguaggio naturale (NLP) per interpretare le descrizioni semantiche (ad esempio, "trova l'auto rossa"). Tuttavia, il linguaggio può essere ambiguo o insufficiente per descrivere posizioni spaziali precise o forme astratte.

Il prompt visivo risolve questa ambiguità basando l'istruzione nello spazio pixel stesso. Ad esempio, nell' analisi delle immagini mediche, è molto più accurato per un radiologo cliccare su un nodulo sospetto piuttosto che tentare di descriverne le coordinate esatte e la forma irregolare tramite testo. Spesso, i flussi di lavoro più efficaci combinano entrambi gli approcci, utilizzando il testo per il filtraggio semantico e i prompt visivi per la precisione spaziale, un concetto noto come apprendimento multimodale.

Applicazioni nel mondo reale

L'adattabilità dei suggerimenti visivi ha portato alla sua rapida adozione in diversi settori:

  • Diagnostica medica interattiva: i medici utilizzano strumenti di guida visiva per isolare tumori o organi nelle scansioni MRI. Con un semplice clic su una regione di interesse, possono generare istantaneamente misurazioni volumetriche 3D, facilitando il rilevamentopreciso dei tumori e la pianificazione chirurgica.
  • Modifica intelligente delle foto: nei software consumer come Adobe Photoshop o nelle app mobili, i suggerimenti visivi alimentano strumenti di "selezione magica". Gli utenti possono toccare una persona o un oggetto per rimuovere lo sfondo o applicare filtri mirati , utilizzando tecnologie di segmentazione delle istanze sottostanti senza necessità di competenze di mascheramento manuale.
  • Manipolazione robotica: nell' AI in Robotics, è possibile istruire i robot a prelevare oggetti specifici tramite un'interfaccia visiva. Un operatore clicca su un oggetto nel feed della telecamera del robot, fornendo un comando visivo che il robot traduce in coordinate di presa, facilitando l' automazione human-in-the-loop nei magazzini.

Implementazione con Ultralytics

Ultralytics supporta flussi di lavoro di prompting visivo, in particolare attraverso modelli come FastSAM SAM. Questi modelli consentono agli sviluppatori di passare le coordinate di punti o riquadri in modo programmatico per recuperare le maschere di segmentazione.

L'esempio seguente mostra come utilizzare l'opzione ultralytics pacchetto per applicare un prompt puntiforme a un' immagine, istruendo il modello a segment situato in coordinate specifiche.

from ultralytics import SAM

# Load the Segment Anything Model (SAM)
model = SAM("sam2.1_b.pt")

# Apply a visual point prompt to the image
# The 'points' argument accepts [x, y] coordinates
# labels: 1 indicates a foreground point (include), 0 indicates background
results = model("https://ultralytics.com/images/bus.jpg", points=[[300, 350]], labels=[1])

# Display the segmented result
results[0].show()

Migliorare l'agilità dei modelli

Il prompting visivo rappresenta un passaggio verso una visione artificiale "promptabile", in cui i modelli non sono più "scatole nere" statiche ma strumenti interattivi. Questa capacità è essenziale per i cicli di apprendimento attivo, in cui i modelli migliorano rapidamente incorporando il feedback degli utenti.

Per gli sviluppatori che desiderano integrare queste funzionalità nella produzione, Ultralytics offre strumenti per gestire set di dati e implementare modelli in grado di gestire input dinamici. Con il progredire della ricerca, ci aspettiamo di vedere un'integrazione ancora più stretta tra prompt visivi e modelli linguistici di grandi dimensioni (LLM), consentendo ai sistemi di ragionare sugli input visivi con la stessa fluidità con cui attualmente gestiscono il testo.

Unitevi alla comunità di Ultralytics

Entra nel futuro dell'AI. Connettiti, collabora e cresci con innovatori globali

Iscriviti ora