Cos'è YOLOE? Portare i modelli di visione artificiale oltre
Scopri come YOLOE ti permette di trovare oggetti usando un semplice prompt o una foto. Abilita una visione artificiale più intelligente e veloce senza dover riaddestrare o perfezionare i modelli.

Il rilevamento degli oggetti è un compito chiave della computer vision, in cui l'obiettivo è identificare e localizzare oggetti in immagini o video. È una parte fondamentale della computer vision, un campo dell'intelligenza artificiale (AI) che consente alle macchine di comprendere e interpretare i dati visivi. Ad esempio, il rilevamento degli oggetti può aiutare a identificare un'auto in un'immagine o a individuare una persona in un feed video.
Una delle serie di modelli più note a supporto di attività di computer vision come il rilevamento di oggetti è la serie di modelli YOLO (You Only Look Once). Progettati per velocità e precisione, i modelli YOLO sono migliorati continuamente nel tempo. Ad esempio, una delle versioni più recenti, Ultralytics YOLO11, offre ottime prestazioni in situazioni reali, fornendo risultati accurati anche in ambienti più complessi.
Portando avanti questo progresso, un nuovo modello chiamato YOLOE mira a espandere le capacità dei modelli YOLO. A differenza dei modelli tradizionali che richiedono un riaddestramento per riconoscere nuovi oggetti, YOLOE può seguire semplici prompt testuali o di immagine per rilevare oggetti che non ha mai visto prima, rendendolo molto più adattabile ad ambienti mutevoli.
In questo articolo, esamineremo più da vicino cosa rende unico YOLOE, come si confronta con i precedenti modelli YOLO e come puoi iniziare a usarlo oggi stesso. Cominciamo!
Link to this sectionUna panoramica di YOLOE#
YOLOE è un modello di computer vision che porta il rilevamento degli oggetti a un livello superiore. È stato introdotto a marzo 2025 dai ricercatori della Tsinghua University. Ciò che distingue YOLOE dai modelli tradizionali è l'uso del rilevamento a vocabolario aperto.
Mentre la maggior parte dei modelli viene addestrata per riconoscere un elenco fisso di oggetti, YOLOE ti consente di specificare cosa cercare utilizzando una breve descrizione o un'immagine di esempio. Ad esempio, se stai cercando uno “zaino verde”, puoi digitare quella descrizione o mostrare al modello una foto, e YOLOE lo individuerà all'interno della scena.
Inoltre, anche senza alcun prompt, YOLOE può rilevare molti oggetti quotidiani autonomamente. Questa capacità di riconoscere oggetti che non ha mai visto prima è chiamata zero-shot detection. È particolarmente utile in ambienti dinamici in cui il compito o gli oggetti di interesse possono cambiare in modo imprevisto.

Fig 1. Uno sguardo alle capacità di YOLOE.
Link to this sectionCaratteristiche principali di YOLOE#
YOLOE supporta un'ampia gamma di funzionalità progettate per migliorarne le prestazioni nelle applicazioni reali. Con la sua capacità di gestire input sia strutturati che non strutturati, YOLOE apre nuove possibilità per il rilevamento e la segmentazione degli oggetti.
Ecco alcune delle caratteristiche principali che il modello offre:
- Rilevamento basato su prompt: YOLOE può cercare oggetti basandosi su un breve prompt di testo o un'immagine di esempio. Questo significa che non hai bisogno di riaddestrare il modello ogni volta che il tuo compito cambia; basta descrivere o mostrare al modello cosa stai cercando.
- Segmentazione delle istanze: Oltre a disegnare riquadri di delimitazione attorno agli oggetti, YOLOE può delinearne l'esatta forma utilizzando la segmentazione delle istanze. Questo è particolarmente utile quando gli oggetti si sovrappongono o quando hai bisogno di conoscere i confini precisi di un oggetto.
- Riconoscimento oggetti senza prompt: YOLOE può riconoscere gli oggetti anche senza istruzioni specifiche. Utilizza una serie di descrizioni pre-apprese per identificare rapidamente gli oggetti, rendendo il processo più veloce ed efficiente.
Link to this sectionConfronto tra YOLOE e altri modelli YOLO#
Ora che abbiamo una comprensione migliore di cosa sia YOLOE, diamo un'occhiata ad alcuni dei modelli simili nella famiglia YOLO.
Con il progresso della computer vision, sono progrediti anche i modelli YOLO. Ad esempio, Ultralytics YOLOv8 ha introdotto il supporto per nuovi compiti come la segmentazione e la classificazione, mentre le versioni successive, come Ultralytics YOLO11, si sono concentrate sul miglioramento della precisione e delle prestazioni per una gamma più ampia di attività.
Inoltre, YOLO-World è stato rilasciato nel gennaio 2024 e ha introdotto la possibilità di utilizzare prompt scritti, consentendo agli utenti di descrivere gli oggetti che desiderano trovare. Sebbene YOLO-World fosse un'ottima opzione per il rilevamento zero-shot, mancava di funzionalità come la segmentazione delle istanze e il supporto per prompt visivi.
YOLOE si basa su YOLO-World aggiungendo queste capacità, migliorando la flessibilità e le prestazioni, e offrendo uno strumento più efficace per le applicazioni di computer vision nel mondo reale.

Fig 2. YOLO-World e YOLOE supportano entrambi il rilevamento zero-shot.
Link to this sectionUtilizzo di YOLOE con il pacchetto Python di Ultralytics#
Sia che tu voglia rilevare oggetti specifici o esplorare tutto ciò che è presente in un'immagine, iniziare con YOLOE è semplice. Questo modello è supportato dal pacchetto Python di Ultralytics, rendendolo facile da integrare nei tuoi progetti. Ora, vediamo come utilizzarlo.
Link to this sectionInstallazione del pacchetto Ultralytics#
Il primo passo è installare il pacchetto Python di Ultralytics utilizzando un gestore di pacchetti come 'pip'. Puoi farlo eseguendo il comando "pip install ultralytics" nel tuo terminale o prompt dei comandi.
Una volta installato il pacchetto, avrai tutto il necessario per caricare il modello, effettuare previsioni e sperimentare con diverse modalità di rilevamento. Se riscontri problemi durante l'installazione, la documentazione ufficiale di Ultralytics offre un'utile sezione di risoluzione dei problemi.
Esistono diversi modi per utilizzare YOLOE per eseguire previsioni. Eseguire previsioni significa utilizzare il modello addestrato per identificare e localizzare oggetti all'interno di immagini o video. Questi diversi metodi ti consentono di personalizzare il modo in cui interagisci con il modello in base alle tue esigenze specifiche.
Discutiamo ciascuno di questi metodi, uno alla volta.
Link to this sectionRilevamento di oggetti specifici con prompt di testo o immagine#
YOLOE può rilevare oggetti basandosi su una breve descrizione testuale. Ad esempio, se stai cercando un cavallo in movimento, puoi utilizzare un prompt come "cavallo che cammina".
Per iniziare, carica prima il modello YOLOE pre-addestrato e imposta il tuo prompt (la descrizione di ciò che vuoi che il modello cerchi) come mostrato nel frammento di codice qui sotto.
from ultralytics import YOLOE
model = YOLOE("yoloe-11l-seg.pt")
prompt = ["horse walking"]
model.set_classes(prompt, model.get_text_pe(prompt))Una volta impostati il modello e il prompt, puoi eseguire il modello su un'immagine o un video. Sostituisci il percorso del file nel codice con il percorso del tuo file immagine o video:
results = model.predict("path/to/your/image.jpg")
results[0].show()Questo mostrerà l'immagine con l'oggetto rilevato chiaramente contrassegnato in base al tuo prompt. Puoi modificare il prompt per cercare oggetti diversi, come "valigia rossa", "bicicletta" o "zebra", a seconda di ciò che stai cercando.

Fig 3. Un esempio di utilizzo di YOLOE per rilevare oggetti specifici usando un prompt di testo.
Allo stesso modo, puoi utilizzare un'immagine per fornire un prompt a YOLOE con il pacchetto Python di Ultralytics. Nella modalità prompt visivo, il modello utilizza l'immagine per trovare elementi dall'aspetto simile in un'altra scena. Questo è particolarmente utile per oggetti difficili da descrivere o privi di etichette chiare.
Per esplorare il codice in modo più dettagliato, puoi consultare la documentazione di Ultralytics.
Link to this sectionRilevamento generale di oggetti utilizzando YOLOE#
In alcuni casi, potresti non sapere esattamente cosa cercare, o potresti non stare cercando un oggetto particolare. È qui che la modalità senza prompt torna utile.
Con questa opzione, non è necessario digitare una descrizione o fornire un'immagine di esempio. YOLOE analizza semplicemente le immagini autonomamente e rileva tutto ciò che è in grado di riconoscere, come persone, animali, mobili o oggetti di uso quotidiano.
È un modo utile per esplorare una scena senza dare al modello istruzioni specifiche. Che tu stia scansionando una stanza affollata o rivedendo filmati con molta attività, la modalità senza prompt ti offre una rapida panoramica di ciò che è presente in un'immagine.
Puoi utilizzare il seguente codice per eseguire YOLOE in modalità senza prompt. Per prima cosa, il modello viene caricato, poi elabora l'immagine e rileva automaticamente gli oggetti in essa contenuti. Infine, i risultati vengono visualizzati e gli oggetti rilevati vengono evidenziati.
Assicurati di sostituire il percorso del file con il percorso reale della tua immagine.
from ultralytics import YOLOE
model = YOLOE("yoloe-11l-seg-pf.pt")
results = model.predict("path/to/image.jpg")
results[0].show()L'immagine mostrata di seguito è un esempio di ciò che YOLOE può rilevare in modalità senza prompt.

Fig 4. Utilizzo di YOLOE in modalità senza prompt.
Link to this sectionApplicazioni in tempo reale di YOLOE#
La capacità di YOLOE di rispondere sia ai prompt testuali che a quelli di immagine lo rende uno strumento affidabile per le applicazioni in tempo reale. La sua flessibilità è particolarmente utile in ambienti frenetici in cui il tempismo e la precisione sono essenziali.
Esploriamo alcuni esempi del mondo reale di come YOLOE può essere utilizzato.
Link to this sectionMiglioramento della gestione dei bagagli: Rilevamento dei bagagli in tempo reale#
In aeroporti affollati, localizzare bagagli specifici può essere difficile, specialmente quando si ha a che fare con borse smarrite. YOLOE può semplificare questo processo aiutando a scansionare video in diretta e identificando rapidamente gli oggetti basandosi su semplici prompt come “borsa rossa”.
Se una borsa è smarrita o fuori posto, il personale può facilmente modificare il prompt per cercare un oggetto diverso, come una “valigia nera”. Questa capacità di adattarsi istantaneamente può aiutare il personale aeroportuale a localizzare rapidamente il bagaglio corretto senza dover rivedere lunghe ore di filmati o riaddestrare il modello, rendendo la gestione dei bagagli e la risoluzione dei problemi di smarrimento molto più rapide ed efficienti.
Link to this sectionMonitoraggio degli spazi pubblici con YOLOE#
I filmati di sorveglianza di spazi pubblici, come mercati affollati e caffè, includono spesso un mix di persone, oggetti e attività che cambiano durante la giornata. YOLOE può analizzare questi filmati in tempo reale utilizzando la modalità senza prompt, rilevando automaticamente oggetti come borse, tavoli o biciclette senza bisogno di istruzioni specifiche.

Fig 5. YOLOE può rilevare vari oggetti in uno spazio pubblico affollato.
Questo è particolarmente utile per i team di sicurezza per individuare oggetti incustoditi o tracciare il movimento della folla. La capacità di YOLOE di rilevare più oggetti contemporaneamente rende più facile gestire gli spazi pubblici durante eventi o periodi di grande affluenza, aiutando i team a rimanere informati e reattivi.
Link to this sectionPro e contro di YOLOE#
Ecco alcuni dei principali vantaggi dell'utilizzo di YOLOE per applicazioni di computer vision:
- Prestazioni in tempo reale: YOLOE è ottimizzato per un'elaborazione rapida ed efficiente, consentendo il rilevamento in tempo reale, anche in ambienti dinamici come flussi video in diretta o spazi pubblici affollati.
- Scalabilità: YOLOE è scalabile e funziona bene per un'ampia varietà di applicazioni, dalla sicurezza e sorveglianza al retail, all'assistenza sanitaria e ai veicoli autonomi.
- Facile da usare: Poiché YOLOE è supportato dal pacchetto Python di Ultralytics, è facile da integrare nei tuoi progetti di computer vision esistenti.
Tuttavia, ci sono alcune limitazioni da tenere a mente quando si usa YOLOE. Ecco un paio di fattori da considerare:
- Richiede dati di addestramento sufficienti: Sebbene YOLOE supporti il rilevamento zero-shot, le sue prestazioni su oggetti mai visti dipendono da quanto bene generalizza dai suoi dati di addestramento. In alcuni casi, potrebbe aver bisogno di dati aggiuntivi o di una messa a punto per funzionare bene in attività altamente specializzate.
- Sensibile alla qualità dell'input: L'accuratezza del modello può essere influenzata da immagini o video di bassa qualità. Un input sfocato o scarsamente illuminato può ridurre la capacità del modello di rilevare accuratamente gli oggetti, quindi un input di alta qualità è importante per prestazioni ottimali.
Link to this sectionPunti chiave#
YOLOE apporta maggiore flessibilità alla computer vision consentendo agli utenti di guidare il rilevamento con prompt di testo o immagine. Funziona bene in situazioni reali in cui le scene cambiano rapidamente e il riaddestramento non è un'opzione.
Dalla gestione dei bagagli al monitoraggio degli spazi pubblici, YOLOE si adatta facilmente a nuovi compiti. Man mano che l'AI diventa più accessibile, modelli come YOLOE aiutano sempre più settori a utilizzare la tecnologia di visione in modi pratici ed efficienti.
Unisciti alla nostra community ed esplora il nostro repository GitHub per saperne di più sulle innovazioni dell'AI. Scopri gli ultimi progressi in settori come AI nel retail e computer vision nell'assistenza sanitaria sulle nostre pagine delle soluzioni. Dai un'occhiata alle nostre opzioni di licenza e inizia oggi stesso con la computer vision!






