Yolo Vision Shenzhen
Shenzhen
Iscriviti ora

Cos'è YOLOE? Portare i modelli di computer vision oltre

Abirami Vina

5 minuti di lettura

8 maggio 2025

Scopri come YOLOE ti consente di trovare oggetti utilizzando un semplice prompt o una foto. Abilita una computer vision più intelligente e veloce senza riqualificare o mettere a punto i modelli.

Il rilevamento oggetti è un'attività chiave della visione artificiale, in cui l'obiettivo è identificare e localizzare oggetti in immagini o video. È una parte cruciale della visione artificiale, un campo dell'intelligenza artificiale (IA) che consente alle macchine di comprendere e interpretare i dati visivi. Ad esempio, il rilevamento oggetti può aiutare a identificare un'auto in un'immagine o individuare una persona in un flusso video.

Una delle serie più note di modelli che supportano compiti di computer vision come il rilevamento di oggetti è la serie di modelli YOLO (You Only Look Once). Progettati per garantire velocità e precisione, i modelli YOLO sono stati continuamente migliorati nel tempo. Ad esempio, una delle versioni più recenti, Ultralytics YOLO11si comporta bene in situazioni reali, fornendo risultati accurati anche in ambienti più complessi.

Un nuovo modello, chiamato YOLOE, mira ad ampliare le capacità dei modelli YOLO . A differenza dei modelli tradizionali, che richiedono una riqualificazione per riconoscere nuovi oggetti, YOLOE è in grado di seguire semplici indicazioni di testo o di immagine per detect oggetti che non ha mai visto prima, rendendolo molto più adattabile ad ambienti in continua evoluzione.

In questo articolo vedremo da vicino cosa rende YOLOE unico, come si confronta con i precedenti modelli YOLO e come potete iniziare a usarlo oggi stesso. Iniziamo!

Una panoramica di YOLOE

YOLOE è un modello di computer vision che porta il rilevamento di oggetti a un livello superiore. È stato introdotto nel marzo 2025 da ricercatori dell'Università di Tsinghua. Ciò che distingue YOLOE dai modelli tradizionali è l'uso del rilevamento a vocabolario aperto. 

Mentre la maggior parte dei modelli sono addestrati per riconoscere un elenco fisso di oggetti, YOLOE ti consente di specificare cosa cercare utilizzando una breve descrizione o un'immagine di esempio. Ad esempio, se stai cercando uno "zaino verde", puoi digitare quella descrizione o mostrare al modello una foto e YOLOE lo localizzerà all'interno della scena.

Inoltre, anche senza alcuna richiesta, YOLOE è in grado di detect da solo molti oggetti di uso quotidiano. Questa capacità di riconoscere oggetti che non ha mai visto prima è chiamata rilevamento a scatto zero. È particolarmente utile in ambienti dinamici, dove l'attività o gli oggetti di interesse possono cambiare inaspettatamente.

Fig. 1. Uno sguardo alle capacità di YOLOE.

Caratteristiche principali di YOLOE

YOLOE supporta un'ampia gamma di funzionalità progettate per migliorare le sue prestazioni nelle applicazioni del mondo reale. Con la sua capacità di gestire input sia strutturati che non strutturati, YOLOE apre nuove possibilità per il rilevamento e la segmentazione di oggetti. 

Ecco alcune delle caratteristiche principali che il modello offre:

  • Rilevamento basato su prompt: YOLOE può cercare oggetti in base a un breve prompt di testo o a un'immagine di esempio. Ciò significa che non è necessario riaddestrare il modello ogni volta che l'attività cambia; basta descrivere o mostrare al modello cosa stai cercando.
  • Segmentazione di istanza: Oltre a disegnare bounding box attorno agli oggetti, YOLOE può delinearne la forma esatta utilizzando la segmentazione di istanza. Questo è particolarmente utile quando gli oggetti si sovrappongono o quando è necessario conoscere i confini precisi di un oggetto.
  • Riconoscimento di oggetti senza prompt: YOLOE può riconoscere oggetti anche senza istruzioni specifiche. Utilizza una serie di descrizioni pre-apprese per identificare rapidamente gli oggetti, rendendo il processo più veloce ed efficiente.

Confronto tra YOLOE e altri modelli YOLO

Ora che abbiamo capito meglio cos'è YOLOE, diamo un'occhiata ad alcuni modelli simili della famiglia YOLO . 

Con il progredire della computer vision, anche i modelli YOLO si sono evoluti. Ad esempio, Ultralytics YOLOv8 ha introdotto il supporto per nuovi compiti come la segmentazione e la classificazione, mentre le versioni successive, come Ultralytics YOLO11, si sono concentrate sul miglioramento dell'accuratezza e delle prestazioni per una gamma più ampia di compiti.

Inoltre, YOLO è stato rilasciato nel gennaio 2024 e ha introdotto la possibilità di utilizzare suggerimenti scritti, consentendo agli utenti di descrivere gli oggetti che desiderano trovare. Sebbene YOLO fosse un'ottima opzione per il rilevamento dei colpi a vuoto, mancava di funzioni come la segmentazione delle istanze e il supporto per i messaggi visivi. 

YOLOE si basa su YOLO aggiungendo queste funzionalità, migliorando la flessibilità e le prestazioni e offrendo uno strumento di maggiore impatto per le applicazioni di computer vision del mondo reale.

Figura 2. YOLO e YOLOE supportano entrambi il rilevamento di zero colpi.

Utilizzo di YOLOE con il pacchetto Ultralytics Python

Sia che si vogliano detect oggetti specifici o esplorare tutto ciò che è presente in un'immagine, iniziare con YOLOE è semplice. Questo modello è supportato dal pacchetto Ultralytics Python , che ne facilita l'integrazione nei progetti. Vediamo quindi come utilizzarlo.

Installazione del pacchetto Ultralytics

Il primo passo consiste nell'installare il pacchettoUltralytics Python utilizzando un gestore di pacchetti come "pip". È possibile farlo eseguendo il comando "pip install ultralytics" nel terminale o nel prompt dei comandi.

Una volta installato il pacchetto, avrete tutto il necessario per caricare il modello, fare previsioni e sperimentare diverse modalità di rilevamento. In caso di problemi durante l'installazione, la documentazione ufficiale di Ultralytics offre un'utile sezione per la risoluzione dei problemi

Esistono diversi modi per utilizzare YOLOE per eseguire previsioni. Eseguire previsioni significa utilizzare il modello addestrato per identificare e localizzare oggetti all'interno di immagini o video. Questi diversi metodi ti consentono di personalizzare il modo in cui interagisci con il modello in base alle tue esigenze specifiche.

Analizziamo ciascuno di questi metodi, uno alla volta.

Rilevamento di oggetti specifici con prompt di testo o immagine

YOLOE può detect gli oggetti in base a una breve descrizione testuale. Ad esempio, se si cerca un cavallo in movimento, è possibile utilizzare un prompt come "cavallo che cammina".

Per iniziare, carica prima il modello YOLOE pre-addestrato e imposta il tuo prompt (la descrizione di ciò che vuoi che il modello cerchi) come mostrato nel frammento di codice qui sotto.

from ultralytics import YOLOE

model = YOLOE("yoloe-11l-seg.pt")
prompt = ["horse walking"]
model.set_classes(prompt, model.get_text_pe(prompt))

Una volta impostati il modello e il prompt, puoi eseguire il modello su un'immagine o un video. Sostituisci il percorso del file nel codice con il percorso del tuo file immagine o video:

results = model.predict("path/to/your/image.jpg")
results[0].show()

Verrà visualizzata l'immagine con l'oggetto rilevato chiaramente contrassegnato in base al prompt. È possibile modificare il prompt per cercare oggetti diversi, come "valigia rossa", "bicicletta" o "zebra", a seconda di cosa si sta cercando.

Figura 3. Un esempio di utilizzo di YOLOE per detect oggetti specifici utilizzando una richiesta di testo.

Allo stesso modo, è possibile utilizzare un'immagine per richiedere a YOLOE il pacchetto Ultralytics Python . In modalità di richiesta visiva, il modello utilizza l'immagine per trovare oggetti simili in un'altra scena. Ciò è particolarmente utile per gli oggetti difficili da descrivere o privi di etichette chiare. 

Per esplorare il codice in modo più dettagliato, si può consultare la documentazione di Ultralytics .

Rilevamento generale di oggetti tramite YOLOE

In alcuni casi, potresti non sapere esattamente cosa cercare, oppure potresti non essere alla ricerca di un oggetto particolare. È qui che la modalità senza prompt torna utile. 

Con questa opzione, non è necessario digitare una descrizione o fornire un'immagine di esempio. YOLOE analizza semplicemente le immagini da solo e rileva tutto ciò che può riconoscere, come persone, animali, mobili o oggetti di uso quotidiano.

È un modo utile per esplorare una scena senza fornire al modello istruzioni specifiche. Che tu stia scansionando una stanza affollata o rivedendo filmati con molta attività, la modalità senza prompt ti offre una rapida occhiata a ciò che è presente in un'immagine. 

Puoi utilizzare il seguente codice per eseguire YOLOE in modalità prompt-free. Innanzitutto, il modello viene caricato, quindi elabora l'immagine e rileva automaticamente gli oggetti in essa contenuti. Infine, i risultati vengono visualizzati e gli oggetti rilevati vengono evidenziati. 

Assicurati di sostituire il percorso del file con il percorso effettivo della tua immagine.

from ultralytics import YOLOE
model = YOLOE("yoloe-11l-seg-pf.pt")
results = model.predict("path/to/image.jpg")
results[0].show()

L'immagine riportata di seguito è un esempio di ciò che YOLOE è in grado di detect in modalità senza prompt.

Fig. 4. Utilizzo di YOLOE in modalità prompt-free.

Applicazioni in tempo reale di YOLOE

La capacità di YOLOE di rispondere sia a prompt di testo che di immagini lo rende uno strumento affidabile per le applicazioni in tempo reale. La sua flessibilità è particolarmente utile in ambienti frenetici in cui i tempi e l'accuratezza sono essenziali. 

Esploriamo alcuni esempi reali di come può essere utilizzato YOLOE.

Miglioramento della gestione dei bagagli: rilevamento dei bagagli in tempo reale

Negli aeroporti affollati, individuare un bagaglio specifico può essere difficile, soprattutto quando si tratta di borse smarrite. YOLOE può semplificare questo processo aiutando a scansionare video in diretta e identificare rapidamente gli oggetti in base a semplici richieste come “borsa rossa”. 

Se una borsa è smarrita o fuori posto, il personale può facilmente modificare il prompt per cercare un oggetto diverso, come una “valigia nera”. Questa capacità di adattamento immediato può aiutare il personale aeroportuale a localizzare rapidamente il bagaglio giusto senza dover rivedere ore di filmati o riaddestrare il modello, rendendo la gestione dei bagagli e la risoluzione dei problemi relativi ai bagagli smarriti molto più veloci ed efficienti.

Monitoraggio degli spazi pubblici con YOLOE

Le riprese di sorveglianza di spazi pubblici, come mercati affollati e caffè, spesso includono un mix di persone, oggetti e attività che cambiano durante il giorno. YOLOE può analizzare queste riprese in tempo reale utilizzando la modalità senza prompt, rilevando automaticamente elementi come borse, tavoli o biciclette senza bisogno di istruzioni specifiche.

Figura 5. YOLOE è in grado di detect vari oggetti in uno spazio pubblico affollato.

Ciò è particolarmente utile per le squadre di sicurezza per individuare oggetti incustoditi o track movimenti della folla. La capacità di YOLOE di detect più oggetti contemporaneamente facilita la gestione degli spazi pubblici durante gli eventi o i periodi di affollamento, aiutando i team a rimanere informati e reattivi.

Pro e contro di YOLOE

Ecco alcuni dei principali vantaggi dell'utilizzo di YOLOE per applicazioni di computer vision:

  • Performance in tempo reale: YOLOE è ottimizzato per un'elaborazione rapida ed efficiente, consentendo il rilevamento in tempo reale, anche in ambienti dinamici come flussi video live o spazi pubblici affollati.
  • Scalabilità: YOLOE è scalabile e funziona bene per un'ampia varietà di applicazioni, dalla sicurezza e sorveglianza al retail, all'assistenza sanitaria e ai veicoli autonomi.
  • Facile da usare: Poiché YOLOE è supportato dal pacchetto Ultralytics Python , è facile da integrare nei progetti di computer vision esistenti.

Tuttavia, ci sono alcune limitazioni da tenere a mente quando si utilizza YOLOE. Ecco un paio di fattori da considerare:

  • Richiede dati di addestramento sufficienti: Sebbene YOLOE supporti il rilevamento zero-shot, le sue prestazioni su oggetti non visti dipendono da quanto bene generalizza dai suoi dati di addestramento. In alcuni casi, potrebbe aver bisogno di dati aggiuntivi o fine-tuning per funzionare bene in attività altamente specializzate.
  • Sensibile alla qualità dell'input: La precisione del modello può essere influenzata da immagini o video di bassa qualità. Un input sfocato o scarsamente illuminato può ridurre la capacità del modello di detect accuratamente gli oggetti, pertanto è importante un input di alta qualità per ottenere prestazioni ottimali.

Punti chiave

YOLOE offre maggiore flessibilità alla computer vision consentendo agli utenti di guidare il rilevamento con prompt di testo o immagini. Funziona bene in situazioni reali in cui le scene cambiano rapidamente e il retraining non è un'opzione.

Dalla gestione dei bagagli al monitoraggio degli spazi pubblici, YOLOE si adatta facilmente a nuove attività. Man mano che l'IA diventa più accessibile, modelli come YOLOE stanno aiutando più settori a utilizzare la tecnologia di visione in modi pratici ed efficienti.

Unisciti alla nostra community ed esplora il nostro repository GitHub per saperne di più sulle innovazioni dell'IA. Scopri gli ultimi progressi in settori come l'IA nel retail e la computer vision nel settore sanitario nelle nostre pagine dedicate alle soluzioni. Dai un'occhiata alle nostre opzioni di licenza e inizia oggi stesso con la computer vision!

Costruiamo insieme il futuro
dell'AI!

Inizia il tuo viaggio con il futuro del machine learning

Inizia gratis