Scopri come YOLOE ti consente di trovare oggetti utilizzando un semplice prompt o una foto. Abilita una computer vision più intelligente e veloce senza riqualificare o mettere a punto i modelli.
Scopri come YOLOE ti consente di trovare oggetti utilizzando un semplice prompt o una foto. Abilita una computer vision più intelligente e veloce senza riqualificare o mettere a punto i modelli.
Il rilevamento oggetti è un'attività chiave della visione artificiale, in cui l'obiettivo è identificare e localizzare oggetti in immagini o video. È una parte cruciale della visione artificiale, un campo dell'intelligenza artificiale (IA) che consente alle macchine di comprendere e interpretare i dati visivi. Ad esempio, il rilevamento oggetti può aiutare a identificare un'auto in un'immagine o individuare una persona in un flusso video.
Una delle serie di modelli più conosciute che supportano attività di computer vision come il rilevamento di oggetti è la serie di modelli YOLO (You Only Look Once). Progettati per velocità e precisione, i modelli YOLO sono continuamente migliorati nel tempo. Ad esempio, una delle ultime versioni, Ultralytics YOLO11, si comporta bene in situazioni reali, fornendo risultati accurati anche in ambienti più complessi.
A guidare ulteriormente questo progresso, un nuovo modello chiamato YOLOE mira ad espandere le capacità dei modelli YOLO. A differenza dei modelli tradizionali che richiedono un retraining per riconoscere nuovi oggetti, YOLOE può seguire semplici istruzioni di testo o immagini per rilevare oggetti che non ha mai visto prima, rendendolo molto più adattabile agli ambienti in evoluzione.
In questo articolo, esamineremo più da vicino cosa rende YOLOE unico, come si confronta con i precedenti modelli YOLO e come puoi iniziare a usarlo oggi. Iniziamo!
YOLOE è un modello di computer vision che porta il rilevamento di oggetti a un livello superiore. È stato introdotto nel marzo 2025 da ricercatori dell'Università di Tsinghua. Ciò che distingue YOLOE dai modelli tradizionali è l'uso del rilevamento a vocabolario aperto.
Mentre la maggior parte dei modelli sono addestrati per riconoscere un elenco fisso di oggetti, YOLOE ti consente di specificare cosa cercare utilizzando una breve descrizione o un'immagine di esempio. Ad esempio, se stai cercando uno "zaino verde", puoi digitare quella descrizione o mostrare al modello una foto e YOLOE lo localizzerà all'interno della scena.
Inoltre, anche senza alcun prompt, YOLOE può rilevare molti oggetti comuni da solo. Questa capacità di riconoscere oggetti che non ha mai visto prima è chiamata zero-shot detection. È particolarmente utile in ambienti dinamici in cui l'attività o gli oggetti di interesse possono cambiare inaspettatamente.

YOLOE supporta un'ampia gamma di funzionalità progettate per migliorare le sue prestazioni nelle applicazioni del mondo reale. Con la sua capacità di gestire input sia strutturati che non strutturati, YOLOE apre nuove possibilità per il rilevamento e la segmentazione di oggetti.
Ecco alcune delle caratteristiche principali che il modello offre:
Ora che abbiamo una migliore comprensione di cosa sia YOLOE, diamo un'occhiata ad alcuni dei modelli della famiglia YOLO che sono simili.
Con il progresso della computer vision, anche i modelli YOLO si sono evoluti. Ad esempio, Ultralytics YOLOv8 ha introdotto il supporto per nuove attività come la segmentazione e la classificazione, mentre le versioni successive, come Ultralytics YOLO11, si sono concentrate sul miglioramento dell'accuratezza e delle prestazioni per una gamma più ampia di attività.
Inoltre, YOLO-World è stato rilasciato a gennaio 2024 e ha introdotto la possibilità di utilizzare prompt scritti, consentendo agli utenti di descrivere gli oggetti che desiderano trovare. Sebbene YOLO-World fosse un'ottima opzione per il rilevamento zero-shot, mancava di funzionalità come la segmentazione delle istanze e il supporto per i prompt visivi.
YOLOE si basa su YOLO-World aggiungendo queste funzionalità, migliorando la flessibilità e le prestazioni e offrendo uno strumento di maggiore impatto per le applicazioni di computer vision nel mondo reale.

Che tu voglia rilevare oggetti specifici o esplorare tutto ciò che è presente in un'immagine, iniziare con YOLOE è semplice. Questo modello è supportato dal pacchetto Python Ultralytics, il che ne facilita l'integrazione nei tuoi progetti. Ora, vediamo come utilizzarlo.
Il primo passo è installare il pacchetto Python Ultralytics utilizzando un gestore di pacchetti come ‘pip’. Puoi farlo eseguendo il comando “pip install ultralytics” nel tuo terminale o prompt dei comandi.
Una volta installato il pacchetto, avrai tutto il necessario per caricare il modello, fare previsioni e sperimentare diverse modalità di rilevamento. Se riscontri problemi durante l'installazione, la documentazione ufficiale di Ultralytics offre una sezione di risoluzione dei problemi utile.
Esistono diversi modi per utilizzare YOLOE per eseguire previsioni. Eseguire previsioni significa utilizzare il modello addestrato per identificare e localizzare oggetti all'interno di immagini o video. Questi diversi metodi ti consentono di personalizzare il modo in cui interagisci con il modello in base alle tue esigenze specifiche.
Analizziamo ciascuno di questi metodi, uno alla volta.
YOLOE è in grado di rilevare oggetti in base a una breve descrizione testuale. Ad esempio, se stai cercando un cavallo in movimento, puoi utilizzare un prompt come "cavallo che cammina".
Per iniziare, carica prima il modello YOLOE pre-addestrato e imposta il tuo prompt (la descrizione di ciò che vuoi che il modello cerchi) come mostrato nel frammento di codice qui sotto.
from ultralytics import YOLOE
model = YOLOE("yoloe-11l-seg.pt")
prompt = ["horse walking"]
model.set_classes(prompt, model.get_text_pe(prompt))Una volta impostati il modello e il prompt, puoi eseguire il modello su un'immagine o un video. Sostituisci il percorso del file nel codice con il percorso del tuo file immagine o video:
results = model.predict("path/to/your/image.jpg")
results[0].show()Verrà visualizzata l'immagine con l'oggetto rilevato chiaramente contrassegnato in base al prompt. È possibile modificare il prompt per cercare oggetti diversi, come "valigia rossa", "bicicletta" o "zebra", a seconda di cosa si sta cercando.

Allo stesso modo, puoi utilizzare un'immagine per fornire un prompt a YOLOE con il pacchetto Python di Ultralytics. In modalità visual prompt, il modello utilizza l'immagine per trovare elementi simili in un'altra scena. Questo è particolarmente utile per oggetti difficili da descrivere o privi di etichette chiare.
Per esplorare il codice per questo in modo più dettagliato, puoi consultare la documentazione di Ultralytics.
In alcuni casi, potresti non sapere esattamente cosa cercare, oppure potresti non essere alla ricerca di un oggetto particolare. È qui che la modalità senza prompt torna utile.
Con questa opzione, non è necessario digitare una descrizione o fornire un'immagine di esempio. YOLOE analizza semplicemente le immagini da solo e rileva tutto ciò che può riconoscere, come persone, animali, mobili o oggetti di uso quotidiano.
È un modo utile per esplorare una scena senza fornire al modello istruzioni specifiche. Che tu stia scansionando una stanza affollata o rivedendo filmati con molta attività, la modalità senza prompt ti offre una rapida occhiata a ciò che è presente in un'immagine.
Puoi utilizzare il seguente codice per eseguire YOLOE in modalità prompt-free. Innanzitutto, il modello viene caricato, quindi elabora l'immagine e rileva automaticamente gli oggetti in essa contenuti. Infine, i risultati vengono visualizzati e gli oggetti rilevati vengono evidenziati.
Assicurati di sostituire il percorso del file con il percorso effettivo della tua immagine.
from ultralytics import YOLOE
model = YOLOE("yoloe-11l-seg-pf.pt")
results = model.predict("path/to/image.jpg")
results[0].show()L'immagine mostrata di seguito è un esempio di ciò che YOLOE può rilevare in modalità prompt-free.

La capacità di YOLOE di rispondere sia a prompt di testo che di immagini lo rende uno strumento affidabile per le applicazioni in tempo reale. La sua flessibilità è particolarmente utile in ambienti frenetici in cui i tempi e l'accuratezza sono essenziali.
Esploriamo alcuni esempi reali di come può essere utilizzato YOLOE.
Negli aeroporti affollati, individuare un bagaglio specifico può essere difficile, soprattutto quando si tratta di borse smarrite. YOLOE può semplificare questo processo aiutando a scansionare video in diretta e identificare rapidamente gli oggetti in base a semplici richieste come “borsa rossa”.
Se una borsa è smarrita o fuori posto, il personale può facilmente modificare il prompt per cercare un oggetto diverso, come una “valigia nera”. Questa capacità di adattamento immediato può aiutare il personale aeroportuale a localizzare rapidamente il bagaglio giusto senza dover rivedere ore di filmati o riaddestrare il modello, rendendo la gestione dei bagagli e la risoluzione dei problemi relativi ai bagagli smarriti molto più veloci ed efficienti.
Le riprese di sorveglianza di spazi pubblici, come mercati affollati e caffè, spesso includono un mix di persone, oggetti e attività che cambiano durante il giorno. YOLOE può analizzare queste riprese in tempo reale utilizzando la modalità senza prompt, rilevando automaticamente elementi come borse, tavoli o biciclette senza bisogno di istruzioni specifiche.

Questo è particolarmente utile per i team di sicurezza per individuare oggetti incustoditi o tracciare i movimenti della folla. La capacità di YOLOE di rilevare più oggetti contemporaneamente semplifica la gestione degli spazi pubblici durante eventi o periodi di maggiore affluenza, aiutando i team a rimanere informati e reattivi.
Ecco alcuni dei principali vantaggi dell'utilizzo di YOLOE per applicazioni di computer vision:
Tuttavia, ci sono alcune limitazioni da tenere a mente quando si utilizza YOLOE. Ecco un paio di fattori da considerare:
YOLOE offre maggiore flessibilità alla computer vision consentendo agli utenti di guidare il rilevamento con prompt di testo o immagini. Funziona bene in situazioni reali in cui le scene cambiano rapidamente e il retraining non è un'opzione.
Dalla gestione dei bagagli al monitoraggio degli spazi pubblici, YOLOE si adatta facilmente a nuove attività. Man mano che l'IA diventa più accessibile, modelli come YOLOE stanno aiutando più settori a utilizzare la tecnologia di visione in modi pratici ed efficienti.
Unisciti alla nostra community ed esplora il nostro repository GitHub per saperne di più sulle innovazioni dell'IA. Scopri gli ultimi progressi in settori come l'IA nel retail e la computer vision nel settore sanitario nelle nostre pagine dedicate alle soluzioni. Dai un'occhiata alle nostre opzioni di licenza e inizia oggi stesso con la computer vision!