Scoprite come YOLOE consente di trovare gli oggetti utilizzando una semplice richiesta o una foto. Consente una visione computerizzata più intelligente e veloce senza dover riqualificare o mettere a punto i modelli.

Scoprite come YOLOE consente di trovare gli oggetti utilizzando una semplice richiesta o una foto. Consente una visione computerizzata più intelligente e veloce senza dover riqualificare o mettere a punto i modelli.
Il rilevamento degli oggetti è un'attività fondamentale della computer vision, il cui obiettivo è identificare e localizzare gli oggetti nelle immagini o nei video. È una parte fondamentale della computer vision, un campo dell'intelligenza artificiale (AI) che consente alle macchine di comprendere e interpretare i dati visivi. Ad esempio, il rilevamento degli oggetti può aiutare a identificare un'auto in un'immagine o a individuare una persona in un video.
Una delle serie più note di modelli che supportano compiti di computer vision come il rilevamento di oggetti è la serie di modelli YOLO (You Only Look Once). Progettati per garantire velocità e precisione, i modelli YOLO sono stati costantemente migliorati nel tempo. Ad esempio, una delle ultime versioni, Ultralytics YOLO11, si comporta bene in situazioni reali, fornendo risultati accurati anche in ambienti più complessi.
Un nuovo modello, chiamato YOLOE, mira ad ampliare le capacità dei modelli YOLO. A differenza dei modelli tradizionali, che richiedono una riqualificazione per riconoscere nuovi oggetti, YOLOE è in grado di seguire semplici indicazioni di testo o di immagine per rilevare oggetti che non ha mai visto prima, rendendolo molto più adattabile ad ambienti in continuo cambiamento.
In questo articolo vedremo più da vicino cosa rende YOLOE unico, come si confronta con i precedenti modelli YOLO e come potete iniziare a usarlo oggi stesso. Iniziamo!
YOLOE è un modello di visione computerizzata che fa un passo avanti nel rilevamento degli oggetti. È stato introdotto nel marzo 2025 dai ricercatori della Tsinghua University. Ciò che distingue YOLOE dai modelli tradizionali è l'uso del rilevamento del vocabolario aperto.
Mentre la maggior parte dei modelli è addestrata a riconoscere un elenco fisso di oggetti, YOLOE consente di specificare cosa cercare utilizzando una breve descrizione o un'immagine di esempio. Ad esempio, se si cerca uno "zaino verde", si può digitare la descrizione o mostrare al modello una foto e YOLOE lo individuerà all'interno della scena.
Inoltre, anche senza alcuna richiesta, YOLOE è in grado di rilevare da solo molti oggetti di uso quotidiano. Questa capacità di riconoscere oggetti che non ha mai visto prima è chiamata rilevamento a scatto zero. È particolarmente utile in ambienti dinamici, dove l'attività o gli oggetti di interesse possono cambiare inaspettatamente.
YOLOE supporta un'ampia gamma di funzioni progettate per migliorare le sue prestazioni nelle applicazioni reali. Grazie alla capacità di gestire input strutturati e non strutturati, YOLOE apre nuove possibilità per il rilevamento e la segmentazione degli oggetti.
Ecco alcune delle caratteristiche principali del modello:
Ora che abbiamo capito meglio cos'è YOLOE, diamo un'occhiata ad alcuni modelli simili della famiglia YOLO.
Con il progredire della computer vision, anche i modelli YOLO hanno fatto altrettanto. Ad esempio, Ultralytics YOLOv8 ha introdotto il supporto per nuovi compiti come la segmentazione e la classificazione, mentre le versioni successive, come Ultralytics YOLO11, si sono concentrate sul miglioramento dell'accuratezza e delle prestazioni per una gamma più ampia di compiti.
Inoltre, YOLO-World è stato rilasciato nel gennaio 2024 e ha introdotto la possibilità di utilizzare suggerimenti scritti, consentendo agli utenti di descrivere gli oggetti che desiderano trovare. Sebbene YOLO-World fosse un'ottima opzione per il rilevamento dei colpi a vuoto, mancava di funzioni come la segmentazione delle istanze e il supporto di messaggi visivi.
YOLOE si basa su YOLO-World aggiungendo queste funzionalità, migliorando la flessibilità e le prestazioni e offrendo uno strumento di maggiore impatto per le applicazioni di computer vision del mondo reale.
Sia che si vogliano rilevare oggetti specifici o esplorare tutto ciò che è presente in un'immagine, iniziare con YOLOE è semplice. Questo modello è supportato dal pacchetto Ultralytics Python, che ne facilita l'integrazione nei progetti. Vediamo quindi come utilizzarlo.
Il primo passo consiste nell'installare il pacchetto Ultralytics Python utilizzando un gestore di pacchetti come "pip". È possibile farlo eseguendo il comando "pip install ultralytics" nel terminale o nel prompt dei comandi.
Una volta installato il pacchetto, avrete tutto il necessario per caricare il modello, fare previsioni e sperimentare diverse modalità di rilevamento. In caso di problemi durante l'installazione, la documentazione ufficiale di Ultralytics offre un'utile sezione per la risoluzione dei problemi.
Esistono diversi modi per utilizzare YOLOE per eseguire le previsioni. Eseguire le previsioni significa utilizzare il modello addestrato per identificare e localizzare gli oggetti nelle immagini o nei video. Questi diversi metodi consentono di personalizzare le modalità di interazione con il modello in base alle proprie esigenze specifiche.
Analizziamo ciascuno di questi metodi, uno alla volta.
YOLOE può rilevare gli oggetti in base a una breve descrizione testuale. Ad esempio, se si cerca un cavallo in movimento, è possibile utilizzare un prompt come "cavallo che cammina".
Per iniziare, caricare il modello YOLOE pre-addestrato e impostare il prompt (la descrizione di ciò che si desidera che il modello cerchi) come mostrato nel frammento di codice sottostante.
from ultralytics import YOLOE
model = YOLOE("yoloe-11l-seg.pt")
prompt = ["horse walking"]
model.set_classes(prompt, model.get_text_pe(prompt))
Una volta impostati il modello e il prompt, è possibile eseguire il modello su un'immagine o un video. Sostituire il percorso del file nel codice con il percorso dell'immagine o del video:
results = model.predict("path/to/your/image.jpg")
results[0].show()
Viene visualizzata l'immagine con l'oggetto rilevato chiaramente contrassegnato in base alla richiesta. È possibile modificare la richiesta per cercare oggetti diversi, come "valigia rossa", "bicicletta" o "zebra", a seconda di ciò che si sta cercando.
Allo stesso modo, è possibile utilizzare un'immagine per richiedere a YOLOE il pacchetto Ultralytics Python. In modalità di richiesta visiva, il modello utilizza l'immagine per trovare oggetti simili in un'altra scena. Ciò è particolarmente utile per gli oggetti difficili da descrivere o privi di etichette chiare.
Per approfondire il codice, si può consultare la documentazione di Ultralytics.
In alcuni casi, si potrebbe non sapere esattamente cosa cercare o non cercare un oggetto in particolare. È qui che si rivela utile la modalità senza prompt.
Con questa opzione, non è necessario digitare una descrizione o fornire un'immagine di esempio. YOLOE analizza semplicemente le immagini da solo e rileva tutto ciò che può riconoscere, come persone, animali, mobili o oggetti di uso quotidiano.
È un modo utile per esplorare una scena senza dare al modello istruzioni specifiche. Sia che si stia scansionando una stanza affollata o che si stiano esaminando filmati con molte attività, la modalità senza istruzioni consente di dare una rapida occhiata a ciò che è presente in un'immagine.
È possibile utilizzare il seguente codice per eseguire YOLOE in modalità senza prompt. Per prima cosa viene caricato il modello, quindi viene elaborata l'immagine e vengono rilevati automaticamente gli oggetti in essa contenuti. Infine, vengono visualizzati i risultati e gli oggetti rilevati vengono evidenziati.
Assicurarsi di sostituire il percorso del file con il percorso effettivo dell'immagine.
from ultralytics import YOLOE
model = YOLOE("yoloe-11l-seg-pf.pt")
results = model.predict("path/to/image.jpg")
results[0].show()
L'immagine riportata di seguito è un esempio di ciò che YOLOE è in grado di rilevare in modalità senza prompt.
La capacità di YOLOE di rispondere a richieste sia di testo che di immagini lo rende uno strumento affidabile per le applicazioni in tempo reale. La sua flessibilità è particolarmente utile in ambienti con ritmi serrati, dove la tempistica e l'accuratezza sono essenziali.
Esploriamo alcuni esempi reali di come si può usare YOLOE.
Negli aeroporti affollati, individuare un bagaglio specifico può essere difficile, soprattutto quando si tratta di bagagli smarriti. YOLOE può semplificare questo processo aiutando la scansione di video in diretta e identificando rapidamente gli oggetti in base a semplici richieste come "borsa rossa".
Se un bagaglio manca o è stato smarrito, il personale può facilmente cambiare il prompt per cercare un oggetto diverso, ad esempio una "valigia nera". Questa capacità di adattamento istantaneo può aiutare il personale aeroportuale a individuare rapidamente il bagaglio giusto senza dover rivedere lunghe ore di filmati o riqualificare il modello, rendendo la gestione dei bagagli e la risoluzione dei problemi di smarrimento molto più rapida ed efficiente.
I filmati di sorveglianza di spazi pubblici, come mercati e caffè affollati, spesso includono un mix di persone, oggetti e attività che cambiano nel corso della giornata. YOLOE è in grado di analizzare questi filmati in tempo reale utilizzando la modalità "prompt-free", rilevando automaticamente oggetti come borse, tavoli o biciclette senza bisogno di istruzioni specifiche.
Ciò è particolarmente utile per le squadre di sicurezza per individuare oggetti incustoditi o seguire i movimenti della folla. La capacità di YOLOE di rilevare più oggetti contemporaneamente facilita la gestione degli spazi pubblici durante gli eventi o i periodi di affollamento, aiutando i team a rimanere informati e reattivi.
Ecco alcuni dei principali vantaggi dell'utilizzo di YOLOE per le applicazioni di computer vision:
Tuttavia, ci sono alcune limitazioni da tenere presenti quando si utilizza YOLOE. Ecco un paio di fattori da considerare:
YOLOE offre una maggiore flessibilità alla computer vision, consentendo agli utenti di guidare il rilevamento con messaggi di testo o immagini. Funziona bene in situazioni reali in cui le scene cambiano rapidamente e la riqualificazione non è un'opzione.
Dalla gestione dei bagagli al monitoraggio degli spazi pubblici, YOLOE si adatta con facilità a nuovi compiti. Mentre l'intelligenza artificiale diventa sempre più accessibile, modelli come YOLOE aiutano un numero maggiore di industrie a utilizzare la tecnologia di visione in modo pratico ed efficiente.
Unitevi alla nostra comunità ed esplorate il nostro repository GitHub per saperne di più sulle innovazioni dell'IA. Scoprite gli ultimi progressi in settori come l'IA nella vendita al dettaglio e la computer vision nella sanità nelle nostre pagine dedicate alle soluzioni. Scoprite le nostre opzioni di licenza e iniziate a lavorare con la computer vision oggi stesso!