Yolo Vision Shenzhen
Shenzhen
Iscriviti ora

Cos'è YOLOE? Portare i modelli di computer vision oltre

Abirami Vina

5 minuti di lettura

8 maggio 2025

Scopri come YOLOE ti consente di trovare oggetti utilizzando un semplice prompt o una foto. Abilita una computer vision più intelligente e veloce senza riqualificare o mettere a punto i modelli.

Il rilevamento oggetti è un'attività chiave della visione artificiale, in cui l'obiettivo è identificare e localizzare oggetti in immagini o video. È una parte cruciale della visione artificiale, un campo dell'intelligenza artificiale (IA) che consente alle macchine di comprendere e interpretare i dati visivi. Ad esempio, il rilevamento oggetti può aiutare a identificare un'auto in un'immagine o individuare una persona in un flusso video.

Una delle serie di modelli più conosciute che supportano attività di computer vision come il rilevamento di oggetti è la serie di modelli YOLO (You Only Look Once). Progettati per velocità e precisione, i modelli YOLO sono continuamente migliorati nel tempo. Ad esempio, una delle ultime versioni, Ultralytics YOLO11, si comporta bene in situazioni reali, fornendo risultati accurati anche in ambienti più complessi.

A guidare ulteriormente questo progresso, un nuovo modello chiamato YOLOE mira ad espandere le capacità dei modelli YOLO. A differenza dei modelli tradizionali che richiedono un retraining per riconoscere nuovi oggetti, YOLOE può seguire semplici istruzioni di testo o immagini per rilevare oggetti che non ha mai visto prima, rendendolo molto più adattabile agli ambienti in evoluzione.

In questo articolo, esamineremo più da vicino cosa rende YOLOE unico, come si confronta con i precedenti modelli YOLO e come puoi iniziare a usarlo oggi. Iniziamo!

Una panoramica di YOLOE

YOLOE è un modello di computer vision che porta il rilevamento di oggetti a un livello superiore. È stato introdotto nel marzo 2025 da ricercatori dell'Università di Tsinghua. Ciò che distingue YOLOE dai modelli tradizionali è l'uso del rilevamento a vocabolario aperto. 

Mentre la maggior parte dei modelli sono addestrati per riconoscere un elenco fisso di oggetti, YOLOE ti consente di specificare cosa cercare utilizzando una breve descrizione o un'immagine di esempio. Ad esempio, se stai cercando uno "zaino verde", puoi digitare quella descrizione o mostrare al modello una foto e YOLOE lo localizzerà all'interno della scena.

Inoltre, anche senza alcun prompt, YOLOE può rilevare molti oggetti comuni da solo. Questa capacità di riconoscere oggetti che non ha mai visto prima è chiamata zero-shot detection. È particolarmente utile in ambienti dinamici in cui l'attività o gli oggetti di interesse possono cambiare inaspettatamente.

Fig. 1. Uno sguardo alle capacità di YOLOE.

Caratteristiche principali di YOLOE

YOLOE supporta un'ampia gamma di funzionalità progettate per migliorare le sue prestazioni nelle applicazioni del mondo reale. Con la sua capacità di gestire input sia strutturati che non strutturati, YOLOE apre nuove possibilità per il rilevamento e la segmentazione di oggetti. 

Ecco alcune delle caratteristiche principali che il modello offre:

  • Rilevamento basato su prompt: YOLOE può cercare oggetti in base a un breve prompt di testo o a un'immagine di esempio. Ciò significa che non è necessario riaddestrare il modello ogni volta che l'attività cambia; basta descrivere o mostrare al modello cosa stai cercando.
  • Segmentazione di istanza: Oltre a disegnare bounding box attorno agli oggetti, YOLOE può delinearne la forma esatta utilizzando la segmentazione di istanza. Questo è particolarmente utile quando gli oggetti si sovrappongono o quando è necessario conoscere i confini precisi di un oggetto.
  • Riconoscimento di oggetti senza prompt: YOLOE può riconoscere oggetti anche senza istruzioni specifiche. Utilizza una serie di descrizioni pre-apprese per identificare rapidamente gli oggetti, rendendo il processo più veloce ed efficiente.

Confronto tra YOLOE e altri modelli YOLO

Ora che abbiamo una migliore comprensione di cosa sia YOLOE, diamo un'occhiata ad alcuni dei modelli della famiglia YOLO che sono simili. 

Con il progresso della computer vision, anche i modelli YOLO si sono evoluti. Ad esempio, Ultralytics YOLOv8 ha introdotto il supporto per nuove attività come la segmentazione e la classificazione, mentre le versioni successive, come Ultralytics YOLO11, si sono concentrate sul miglioramento dell'accuratezza e delle prestazioni per una gamma più ampia di attività.

Inoltre, YOLO-World è stato rilasciato a gennaio 2024 e ha introdotto la possibilità di utilizzare prompt scritti, consentendo agli utenti di descrivere gli oggetti che desiderano trovare. Sebbene YOLO-World fosse un'ottima opzione per il rilevamento zero-shot, mancava di funzionalità come la segmentazione delle istanze e il supporto per i prompt visivi. 

YOLOE si basa su YOLO-World aggiungendo queste funzionalità, migliorando la flessibilità e le prestazioni e offrendo uno strumento di maggiore impatto per le applicazioni di computer vision nel mondo reale.

Fig. 2. YOLO-World e YOLOE supportano entrambi il rilevamento zero-shot.

Utilizzo di YOLOE con il pacchetto Python Ultralytics

Che tu voglia rilevare oggetti specifici o esplorare tutto ciò che è presente in un'immagine, iniziare con YOLOE è semplice. Questo modello è supportato dal pacchetto Python Ultralytics, il che ne facilita l'integrazione nei tuoi progetti. Ora, vediamo come utilizzarlo.

Installazione del pacchetto Ultralytics

Il primo passo è installare il pacchetto Python Ultralytics utilizzando un gestore di pacchetti come ‘pip’. Puoi farlo eseguendo il comando “pip install ultralytics” nel tuo terminale o prompt dei comandi.

Una volta installato il pacchetto, avrai tutto il necessario per caricare il modello, fare previsioni e sperimentare diverse modalità di rilevamento. Se riscontri problemi durante l'installazione, la documentazione ufficiale di Ultralytics offre una sezione di risoluzione dei problemi utile. 

Esistono diversi modi per utilizzare YOLOE per eseguire previsioni. Eseguire previsioni significa utilizzare il modello addestrato per identificare e localizzare oggetti all'interno di immagini o video. Questi diversi metodi ti consentono di personalizzare il modo in cui interagisci con il modello in base alle tue esigenze specifiche.

Analizziamo ciascuno di questi metodi, uno alla volta.

Rilevamento di oggetti specifici con prompt di testo o immagine

YOLOE è in grado di rilevare oggetti in base a una breve descrizione testuale. Ad esempio, se stai cercando un cavallo in movimento, puoi utilizzare un prompt come "cavallo che cammina".

Per iniziare, carica prima il modello YOLOE pre-addestrato e imposta il tuo prompt (la descrizione di ciò che vuoi che il modello cerchi) come mostrato nel frammento di codice qui sotto.

from ultralytics import YOLOE

model = YOLOE("yoloe-11l-seg.pt")
prompt = ["horse walking"]
model.set_classes(prompt, model.get_text_pe(prompt))

Una volta impostati il modello e il prompt, puoi eseguire il modello su un'immagine o un video. Sostituisci il percorso del file nel codice con il percorso del tuo file immagine o video:

results = model.predict("path/to/your/image.jpg")
results[0].show()

Verrà visualizzata l'immagine con l'oggetto rilevato chiaramente contrassegnato in base al prompt. È possibile modificare il prompt per cercare oggetti diversi, come "valigia rossa", "bicicletta" o "zebra", a seconda di cosa si sta cercando.

Fig. 3. Un esempio di utilizzo di YOLOE per rilevare oggetti specifici tramite un prompt di testo.

Allo stesso modo, puoi utilizzare un'immagine per fornire un prompt a YOLOE con il pacchetto Python di Ultralytics. In modalità visual prompt, il modello utilizza l'immagine per trovare elementi simili in un'altra scena. Questo è particolarmente utile per oggetti difficili da descrivere o privi di etichette chiare. 

Per esplorare il codice per questo in modo più dettagliato, puoi consultare la documentazione di Ultralytics.

Rilevamento generale di oggetti tramite YOLOE

In alcuni casi, potresti non sapere esattamente cosa cercare, oppure potresti non essere alla ricerca di un oggetto particolare. È qui che la modalità senza prompt torna utile. 

Con questa opzione, non è necessario digitare una descrizione o fornire un'immagine di esempio. YOLOE analizza semplicemente le immagini da solo e rileva tutto ciò che può riconoscere, come persone, animali, mobili o oggetti di uso quotidiano.

È un modo utile per esplorare una scena senza fornire al modello istruzioni specifiche. Che tu stia scansionando una stanza affollata o rivedendo filmati con molta attività, la modalità senza prompt ti offre una rapida occhiata a ciò che è presente in un'immagine. 

Puoi utilizzare il seguente codice per eseguire YOLOE in modalità prompt-free. Innanzitutto, il modello viene caricato, quindi elabora l'immagine e rileva automaticamente gli oggetti in essa contenuti. Infine, i risultati vengono visualizzati e gli oggetti rilevati vengono evidenziati. 

Assicurati di sostituire il percorso del file con il percorso effettivo della tua immagine.

from ultralytics import YOLOE
model = YOLOE("yoloe-11l-seg-pf.pt")
results = model.predict("path/to/image.jpg")
results[0].show()

L'immagine mostrata di seguito è un esempio di ciò che YOLOE può rilevare in modalità prompt-free.

Fig. 4. Utilizzo di YOLOE in modalità prompt-free.

Applicazioni in tempo reale di YOLOE

La capacità di YOLOE di rispondere sia a prompt di testo che di immagini lo rende uno strumento affidabile per le applicazioni in tempo reale. La sua flessibilità è particolarmente utile in ambienti frenetici in cui i tempi e l'accuratezza sono essenziali. 

Esploriamo alcuni esempi reali di come può essere utilizzato YOLOE.

Miglioramento della gestione dei bagagli: rilevamento dei bagagli in tempo reale

Negli aeroporti affollati, individuare un bagaglio specifico può essere difficile, soprattutto quando si tratta di borse smarrite. YOLOE può semplificare questo processo aiutando a scansionare video in diretta e identificare rapidamente gli oggetti in base a semplici richieste come “borsa rossa”. 

Se una borsa è smarrita o fuori posto, il personale può facilmente modificare il prompt per cercare un oggetto diverso, come una “valigia nera”. Questa capacità di adattamento immediato può aiutare il personale aeroportuale a localizzare rapidamente il bagaglio giusto senza dover rivedere ore di filmati o riaddestrare il modello, rendendo la gestione dei bagagli e la risoluzione dei problemi relativi ai bagagli smarriti molto più veloci ed efficienti.

Monitoraggio degli spazi pubblici con YOLOE

Le riprese di sorveglianza di spazi pubblici, come mercati affollati e caffè, spesso includono un mix di persone, oggetti e attività che cambiano durante il giorno. YOLOE può analizzare queste riprese in tempo reale utilizzando la modalità senza prompt, rilevando automaticamente elementi come borse, tavoli o biciclette senza bisogno di istruzioni specifiche.

Fig. 5. YOLOE è in grado di rilevare vari oggetti in uno spazio pubblico affollato.

Questo è particolarmente utile per i team di sicurezza per individuare oggetti incustoditi o tracciare i movimenti della folla. La capacità di YOLOE di rilevare più oggetti contemporaneamente semplifica la gestione degli spazi pubblici durante eventi o periodi di maggiore affluenza, aiutando i team a rimanere informati e reattivi.

Pro e contro di YOLOE

Ecco alcuni dei principali vantaggi dell'utilizzo di YOLOE per applicazioni di computer vision:

  • Performance in tempo reale: YOLOE è ottimizzato per un'elaborazione rapida ed efficiente, consentendo il rilevamento in tempo reale, anche in ambienti dinamici come flussi video live o spazi pubblici affollati.
  • Scalabilità: YOLOE è scalabile e funziona bene per un'ampia varietà di applicazioni, dalla sicurezza e sorveglianza al retail, all'assistenza sanitaria e ai veicoli autonomi.
  • Facile da usare: Poiché YOLOE è supportato dal pacchetto Python di Ultralytics, è facile integrarlo nei tuoi progetti di computer vision esistenti.

Tuttavia, ci sono alcune limitazioni da tenere a mente quando si utilizza YOLOE. Ecco un paio di fattori da considerare:

  • Richiede dati di addestramento sufficienti: Sebbene YOLOE supporti il rilevamento zero-shot, le sue prestazioni su oggetti non visti dipendono da quanto bene generalizza dai suoi dati di addestramento. In alcuni casi, potrebbe aver bisogno di dati aggiuntivi o fine-tuning per funzionare bene in attività altamente specializzate.
  • Sensibilità alla qualità dell'input: L'accuratezza del modello può essere influenzata da immagini o video di bassa qualità. Input sfocati o scarsamente illuminati possono ridurre la capacità del modello di rilevare accuratamente gli oggetti, quindi un input di alta qualità è importante per prestazioni ottimali.

Punti chiave

YOLOE offre maggiore flessibilità alla computer vision consentendo agli utenti di guidare il rilevamento con prompt di testo o immagini. Funziona bene in situazioni reali in cui le scene cambiano rapidamente e il retraining non è un'opzione.

Dalla gestione dei bagagli al monitoraggio degli spazi pubblici, YOLOE si adatta facilmente a nuove attività. Man mano che l'IA diventa più accessibile, modelli come YOLOE stanno aiutando più settori a utilizzare la tecnologia di visione in modi pratici ed efficienti.

Unisciti alla nostra community ed esplora il nostro repository GitHub per saperne di più sulle innovazioni dell'IA. Scopri gli ultimi progressi in settori come l'IA nel retail e la computer vision nel settore sanitario nelle nostre pagine dedicate alle soluzioni. Dai un'occhiata alle nostre opzioni di licenza e inizia oggi stesso con la computer vision!

Costruiamo insieme il futuro
dell'AI!

Inizia il tuo viaggio con il futuro del machine learning

Inizia gratis
Link copiato negli appunti