Scopri come YOLOE ti consente di trovare oggetti utilizzando un semplice prompt o una foto. Abilita una computer vision più intelligente e veloce senza riqualificare o mettere a punto i modelli.
Scopri come YOLOE ti consente di trovare oggetti utilizzando un semplice prompt o una foto. Abilita una computer vision più intelligente e veloce senza riqualificare o mettere a punto i modelli.
Il rilevamento oggetti è un'attività chiave della visione artificiale, in cui l'obiettivo è identificare e localizzare oggetti in immagini o video. È una parte cruciale della visione artificiale, un campo dell'intelligenza artificiale (IA) che consente alle macchine di comprendere e interpretare i dati visivi. Ad esempio, il rilevamento oggetti può aiutare a identificare un'auto in un'immagine o individuare una persona in un flusso video.
Una delle serie più note di modelli che supportano compiti di computer vision come il rilevamento di oggetti è la serie di modelli YOLO (You Only Look Once). Progettati per garantire velocità e precisione, i modelli YOLO sono stati continuamente migliorati nel tempo. Ad esempio, una delle versioni più recenti, Ultralytics YOLO11si comporta bene in situazioni reali, fornendo risultati accurati anche in ambienti più complessi.
Un nuovo modello, chiamato YOLOE, mira ad ampliare le capacità dei modelli YOLO . A differenza dei modelli tradizionali, che richiedono una riqualificazione per riconoscere nuovi oggetti, YOLOE è in grado di seguire semplici indicazioni di testo o di immagine per detect oggetti che non ha mai visto prima, rendendolo molto più adattabile ad ambienti in continua evoluzione.
In questo articolo vedremo da vicino cosa rende YOLOE unico, come si confronta con i precedenti modelli YOLO e come potete iniziare a usarlo oggi stesso. Iniziamo!
YOLOE è un modello di computer vision che porta il rilevamento di oggetti a un livello superiore. È stato introdotto nel marzo 2025 da ricercatori dell'Università di Tsinghua. Ciò che distingue YOLOE dai modelli tradizionali è l'uso del rilevamento a vocabolario aperto.
Mentre la maggior parte dei modelli sono addestrati per riconoscere un elenco fisso di oggetti, YOLOE ti consente di specificare cosa cercare utilizzando una breve descrizione o un'immagine di esempio. Ad esempio, se stai cercando uno "zaino verde", puoi digitare quella descrizione o mostrare al modello una foto e YOLOE lo localizzerà all'interno della scena.
Inoltre, anche senza alcuna richiesta, YOLOE è in grado di detect da solo molti oggetti di uso quotidiano. Questa capacità di riconoscere oggetti che non ha mai visto prima è chiamata rilevamento a scatto zero. È particolarmente utile in ambienti dinamici, dove l'attività o gli oggetti di interesse possono cambiare inaspettatamente.

YOLOE supporta un'ampia gamma di funzionalità progettate per migliorare le sue prestazioni nelle applicazioni del mondo reale. Con la sua capacità di gestire input sia strutturati che non strutturati, YOLOE apre nuove possibilità per il rilevamento e la segmentazione di oggetti.
Ecco alcune delle caratteristiche principali che il modello offre:
Ora che abbiamo capito meglio cos'è YOLOE, diamo un'occhiata ad alcuni modelli simili della famiglia YOLO .
Con il progredire della computer vision, anche i modelli YOLO si sono evoluti. Ad esempio, Ultralytics YOLOv8 ha introdotto il supporto per nuovi compiti come la segmentazione e la classificazione, mentre le versioni successive, come Ultralytics YOLO11, si sono concentrate sul miglioramento dell'accuratezza e delle prestazioni per una gamma più ampia di compiti.
Inoltre, YOLO è stato rilasciato nel gennaio 2024 e ha introdotto la possibilità di utilizzare suggerimenti scritti, consentendo agli utenti di descrivere gli oggetti che desiderano trovare. Sebbene YOLO fosse un'ottima opzione per il rilevamento dei colpi a vuoto, mancava di funzioni come la segmentazione delle istanze e il supporto per i messaggi visivi.
YOLOE si basa su YOLO aggiungendo queste funzionalità, migliorando la flessibilità e le prestazioni e offrendo uno strumento di maggiore impatto per le applicazioni di computer vision del mondo reale.

Sia che si vogliano detect oggetti specifici o esplorare tutto ciò che è presente in un'immagine, iniziare con YOLOE è semplice. Questo modello è supportato dal pacchetto Ultralytics Python , che ne facilita l'integrazione nei progetti. Vediamo quindi come utilizzarlo.
Il primo passo consiste nell'installare il pacchettoUltralytics Python utilizzando un gestore di pacchetti come "pip". È possibile farlo eseguendo il comando "pip install ultralytics" nel terminale o nel prompt dei comandi.
Una volta installato il pacchetto, avrete tutto il necessario per caricare il modello, fare previsioni e sperimentare diverse modalità di rilevamento. In caso di problemi durante l'installazione, la documentazione ufficiale di Ultralytics offre un'utile sezione per la risoluzione dei problemi.
Esistono diversi modi per utilizzare YOLOE per eseguire previsioni. Eseguire previsioni significa utilizzare il modello addestrato per identificare e localizzare oggetti all'interno di immagini o video. Questi diversi metodi ti consentono di personalizzare il modo in cui interagisci con il modello in base alle tue esigenze specifiche.
Analizziamo ciascuno di questi metodi, uno alla volta.
YOLOE può detect gli oggetti in base a una breve descrizione testuale. Ad esempio, se si cerca un cavallo in movimento, è possibile utilizzare un prompt come "cavallo che cammina".
Per iniziare, carica prima il modello YOLOE pre-addestrato e imposta il tuo prompt (la descrizione di ciò che vuoi che il modello cerchi) come mostrato nel frammento di codice qui sotto.
from ultralytics import YOLOE
model = YOLOE("yoloe-11l-seg.pt")
prompt = ["horse walking"]
model.set_classes(prompt, model.get_text_pe(prompt))Una volta impostati il modello e il prompt, puoi eseguire il modello su un'immagine o un video. Sostituisci il percorso del file nel codice con il percorso del tuo file immagine o video:
results = model.predict("path/to/your/image.jpg")
results[0].show()Verrà visualizzata l'immagine con l'oggetto rilevato chiaramente contrassegnato in base al prompt. È possibile modificare il prompt per cercare oggetti diversi, come "valigia rossa", "bicicletta" o "zebra", a seconda di cosa si sta cercando.

Allo stesso modo, è possibile utilizzare un'immagine per richiedere a YOLOE il pacchetto Ultralytics Python . In modalità di richiesta visiva, il modello utilizza l'immagine per trovare oggetti simili in un'altra scena. Ciò è particolarmente utile per gli oggetti difficili da descrivere o privi di etichette chiare.
Per esplorare il codice in modo più dettagliato, si può consultare la documentazione di Ultralytics .
In alcuni casi, potresti non sapere esattamente cosa cercare, oppure potresti non essere alla ricerca di un oggetto particolare. È qui che la modalità senza prompt torna utile.
Con questa opzione, non è necessario digitare una descrizione o fornire un'immagine di esempio. YOLOE analizza semplicemente le immagini da solo e rileva tutto ciò che può riconoscere, come persone, animali, mobili o oggetti di uso quotidiano.
È un modo utile per esplorare una scena senza fornire al modello istruzioni specifiche. Che tu stia scansionando una stanza affollata o rivedendo filmati con molta attività, la modalità senza prompt ti offre una rapida occhiata a ciò che è presente in un'immagine.
Puoi utilizzare il seguente codice per eseguire YOLOE in modalità prompt-free. Innanzitutto, il modello viene caricato, quindi elabora l'immagine e rileva automaticamente gli oggetti in essa contenuti. Infine, i risultati vengono visualizzati e gli oggetti rilevati vengono evidenziati.
Assicurati di sostituire il percorso del file con il percorso effettivo della tua immagine.
from ultralytics import YOLOE
model = YOLOE("yoloe-11l-seg-pf.pt")
results = model.predict("path/to/image.jpg")
results[0].show()L'immagine riportata di seguito è un esempio di ciò che YOLOE è in grado di detect in modalità senza prompt.

La capacità di YOLOE di rispondere sia a prompt di testo che di immagini lo rende uno strumento affidabile per le applicazioni in tempo reale. La sua flessibilità è particolarmente utile in ambienti frenetici in cui i tempi e l'accuratezza sono essenziali.
Esploriamo alcuni esempi reali di come può essere utilizzato YOLOE.
Negli aeroporti affollati, individuare un bagaglio specifico può essere difficile, soprattutto quando si tratta di borse smarrite. YOLOE può semplificare questo processo aiutando a scansionare video in diretta e identificare rapidamente gli oggetti in base a semplici richieste come “borsa rossa”.
Se una borsa è smarrita o fuori posto, il personale può facilmente modificare il prompt per cercare un oggetto diverso, come una “valigia nera”. Questa capacità di adattamento immediato può aiutare il personale aeroportuale a localizzare rapidamente il bagaglio giusto senza dover rivedere ore di filmati o riaddestrare il modello, rendendo la gestione dei bagagli e la risoluzione dei problemi relativi ai bagagli smarriti molto più veloci ed efficienti.
Le riprese di sorveglianza di spazi pubblici, come mercati affollati e caffè, spesso includono un mix di persone, oggetti e attività che cambiano durante il giorno. YOLOE può analizzare queste riprese in tempo reale utilizzando la modalità senza prompt, rilevando automaticamente elementi come borse, tavoli o biciclette senza bisogno di istruzioni specifiche.

Ciò è particolarmente utile per le squadre di sicurezza per individuare oggetti incustoditi o track movimenti della folla. La capacità di YOLOE di detect più oggetti contemporaneamente facilita la gestione degli spazi pubblici durante gli eventi o i periodi di affollamento, aiutando i team a rimanere informati e reattivi.
Ecco alcuni dei principali vantaggi dell'utilizzo di YOLOE per applicazioni di computer vision:
Tuttavia, ci sono alcune limitazioni da tenere a mente quando si utilizza YOLOE. Ecco un paio di fattori da considerare:
YOLOE offre maggiore flessibilità alla computer vision consentendo agli utenti di guidare il rilevamento con prompt di testo o immagini. Funziona bene in situazioni reali in cui le scene cambiano rapidamente e il retraining non è un'opzione.
Dalla gestione dei bagagli al monitoraggio degli spazi pubblici, YOLOE si adatta facilmente a nuove attività. Man mano che l'IA diventa più accessibile, modelli come YOLOE stanno aiutando più settori a utilizzare la tecnologia di visione in modi pratici ed efficienti.
Unisciti alla nostra community ed esplora il nostro repository GitHub per saperne di più sulle innovazioni dell'IA. Scopri gli ultimi progressi in settori come l'IA nel retail e la computer vision nel settore sanitario nelle nostre pagine dedicate alle soluzioni. Dai un'occhiata alle nostre opzioni di licenza e inizia oggi stesso con la computer vision!