Scopri come YOLOE ti permette di trovare gli oggetti utilizzando una semplice richiesta o una foto. Consente una visione computerizzata più intelligente e veloce senza dover riqualificare o mettere a punto i modelli.
Il rilevamento degli oggetti è un'attività fondamentale della computer vision, il cui obiettivo è identificare e localizzare gli oggetti nelle immagini o nei video. È una parte fondamentale della computer vision, un campo dell'intelligenza artificiale (AI) che consente alle macchine di comprendere e interpretare i dati visivi. Ad esempio, il rilevamento degli oggetti può aiutare a identificare un'auto in una foto o a individuare una persona in un video.
Una delle serie più note di modelli che supportano attività di computer vision come il rilevamento di oggetti è la serie di modelli YOLO (You Only Look Once). Progettati per garantire velocità e precisione, i modelli YOLO sono stati continuamente migliorati nel tempo. Ad esempio, una delle ultime versioni, Ultralytics YOLO11si comporta bene in situazioni reali, fornendo risultati accurati anche in ambienti più complessi.
Per dare un ulteriore impulso a questi progressi, un nuovo modello chiamato YOLOE mira ad ampliare le capacità dei modelli YOLO . A differenza dei modelli tradizionali, che richiedono una riqualificazione per riconoscere nuovi oggetti, YOLOE è in grado di seguire semplici messaggi di testo o immagini per rilevare oggetti che non ha mai visto prima, rendendolo molto più adattabile ad ambienti in continuo cambiamento.
In questo articolo daremo un'occhiata più da vicino a ciò che rende YOLOE unico, come si confronta con i precedenti modelli YOLO e come puoi iniziare a usarlo oggi stesso. Iniziamo!
YOLOE è un modello di visione computerizzata che fa un passo avanti nel rilevamento degli oggetti. È stato introdotto nel marzo 2025 dai ricercatori della Tsinghua University. Ciò che distingue YOLOE dai modelli tradizionali è l'uso del rilevamento del vocabolario aperto.
Mentre la maggior parte dei modelli è addestrata a riconoscere un elenco fisso di oggetti, YOLOE ti permette di specificare cosa cercare utilizzando una breve descrizione o un'immagine di esempio. Ad esempio, se stai cercando uno "zaino verde", puoi digitare questa descrizione o mostrare al modello una foto e YOLOE lo individuerà all'interno della scena.
Inoltre, anche senza alcuna richiesta, YOLOE è in grado di rilevare da solo molti oggetti di uso quotidiano. Questa capacità di riconoscere oggetti che non ha mai visto prima è chiamata rilevamento a scatto zero. È particolarmente utile in ambienti dinamici dove l'attività o gli oggetti di interesse possono cambiare inaspettatamente.
YOLOE supporta un'ampia gamma di funzionalità progettate per migliorare le sue prestazioni nelle applicazioni reali. Grazie alla capacità di gestire input strutturati e non strutturati, YOLOE apre nuove possibilità per il rilevamento e la segmentazione degli oggetti.
Ecco alcune delle caratteristiche principali del modello:
Ora che abbiamo capito meglio cos'è YOLOE, diamo un'occhiata ad alcuni modelli simili della famiglia YOLO .
Con il progredire della computer vision, anche i modelli YOLO hanno fatto passi da gigante. Per esempio, Ultralytics YOLOv8 ha introdotto il supporto per nuovi compiti come la segmentazione e la classificazione, mentre le versioni successive, come Ultralytics YOLO11, si sono concentrate sul miglioramento dell'accuratezza e delle prestazioni per una gamma più ampia di compiti.
Inoltre, YOLO è stato rilasciato nel gennaio 2024 e ha introdotto la possibilità di utilizzare suggerimenti scritti, permettendo agli utenti di descrivere gli oggetti che vogliono trovare. Sebbene YOLO fosse un'ottima opzione per il rilevamento di oggetti a colpo zero, mancava di funzioni come la segmentazione delle istanze e il supporto di messaggi visivi.
YOLOE si basa su YOLO aggiungendo queste funzionalità, migliorando la flessibilità e le prestazioni e offrendo uno strumento di maggiore impatto per le applicazioni di computer vision del mondo reale.
Sia che tu voglia rilevare oggetti specifici o esplorare tutto ciò che è presente in un'immagine, iniziare a lavorare con YOLOE è semplice. Questo modello è supportato dal pacchetto Ultralytics Python , che lo rende facile da integrare nei tuoi progetti. Vediamo quindi come utilizzarlo.
Il primo passo consiste nell'installare il pacchettoUltralytics Python utilizzando un gestore di pacchetti come "pip". Puoi farlo eseguendo il comando "pip install ultralytics" nel tuo terminale o nel prompt dei comandi.
Una volta installato il pacchetto, avrai tutto ciò che ti serve per caricare il modello, fare previsioni e sperimentare diverse modalità di rilevamento. Se riscontri qualche problema durante l'installazione, la documentazione ufficiale di Ultralytics offre un'utile sezione per la risoluzione dei problemi.
Esistono diversi modi per utilizzare YOLOE per eseguire le previsioni. Eseguire le previsioni significa utilizzare il modello addestrato per identificare e localizzare gli oggetti all'interno delle immagini o dei video. Questi diversi metodi ti permettono di personalizzare le modalità di interazione con il modello in base alle tue esigenze specifiche.
Analizziamo ciascuno di questi metodi, uno alla volta.
YOLOE può rilevare gli oggetti in base a una breve descrizione testuale. Ad esempio, se stai cercando un cavallo in movimento, puoi utilizzare un messaggio del tipo "cavallo che cammina".
Per iniziare, per prima cosa carica il modello YOLOE pre-addestrato e imposta il tuo prompt (la descrizione di ciò che vuoi che il modello cerchi) come mostrato nel frammento di codice qui sotto.
from ultralytics import YOLOE
model = YOLOE("yoloe-11l-seg.pt")
prompt = ["horse walking"]
model.set_classes(prompt, model.get_text_pe(prompt))
Una volta impostati il modello e il prompt, puoi eseguire il modello su un'immagine o un video. Sostituisci il percorso del file nel codice con il percorso dell'immagine o del video:
results = model.predict("path/to/your/image.jpg")
results[0].show()
In questo modo verrà visualizzata l'immagine con l'oggetto rilevato chiaramente contrassegnato in base alla richiesta. Puoi cambiare la richiesta per cercare oggetti diversi, come "valigia rossa", "bicicletta" o "zebra", a seconda di ciò che stai cercando.
Allo stesso modo, puoi utilizzare un'immagine per richiedere a YOLOE il pacchetto Ultralytics Python . Nella modalità di richiesta visiva, il modello utilizza l'immagine per trovare oggetti simili in un'altra scena. Questa modalità è particolarmente utile per gli oggetti difficili da descrivere o privi di etichette chiare.
Per approfondire il codice, puoi consultare la documentazione di Ultralytics .
In alcuni casi, potresti non sapere esattamente cosa cercare o non cercare un oggetto in particolare. In questo caso, la modalità senza prompt si rivela utile.
Con questa opzione, non è necessario digitare una descrizione o fornire un'immagine di esempio. YOLOE analizza semplicemente le immagini da solo e rileva tutto ciò che può riconoscere, come persone, animali, mobili o oggetti di uso quotidiano.
È un modo utile per esplorare una scena senza dare al modello istruzioni specifiche. Sia che tu stia scansionando una stanza affollata o rivedendo un filmato con molte attività, la modalità senza istruzioni ti permette di dare un'occhiata veloce a ciò che è presente in un'immagine.
Puoi utilizzare il seguente codice per eseguire YOLOE in modalità senza prompt. Per prima cosa viene caricato il modello, poi viene elaborata l'immagine e vengono rilevati automaticamente gli oggetti presenti. Infine, vengono visualizzati i risultati e gli oggetti rilevati vengono evidenziati.
Assicurati di sostituire il percorso del file con il percorso effettivo dell'immagine.
from ultralytics import YOLOE
model = YOLOE("yoloe-11l-seg-pf.pt")
results = model.predict("path/to/image.jpg")
results[0].show()
L'immagine riportata di seguito è un esempio di ciò che YOLOE può rilevare in modalità "prompt-free".
La capacità di YOLOE di rispondere a richieste sia di testo che di immagini lo rende uno strumento affidabile per le applicazioni in tempo reale. La sua flessibilità è particolarmente utile in ambienti veloci dove il tempismo e l'accuratezza sono essenziali.
Vediamo alcuni esempi reali di come si può utilizzare YOLOE.
Negli aeroporti affollati, individuare un bagaglio specifico può essere difficile, soprattutto quando si tratta di borse scomparse. YOLOE può semplificare questo processo aiutando la scansione di video in diretta e identificando rapidamente gli oggetti in base a semplici richieste come "borsa rossa".
Se un bagaglio manca o viene smarrito, il personale può facilmente cambiare il prompt per cercare un oggetto diverso, ad esempio una "valigia nera". Questa capacità di adattamento istantaneo può aiutare il personale aeroportuale a individuare rapidamente il bagaglio giusto senza dover rivedere lunghe ore di filmati o riaddestrare il modello, rendendo la gestione dei bagagli e la risoluzione dei problemi di smarrimento molto più rapida ed efficiente.
I filmati di sorveglianza di spazi pubblici, come mercati e bar affollati, spesso includono un mix di persone, oggetti e attività che cambiano nel corso della giornata. YOLOE è in grado di analizzare questi filmati in tempo reale grazie alla modalità "prompt-free", rilevando automaticamente oggetti come borse, tavoli o biciclette senza bisogno di istruzioni specifiche.
Questo è particolarmente utile per i team di sicurezza per individuare oggetti incustoditi o seguire i movimenti della folla. La capacità di YOLOE di rilevare più oggetti contemporaneamente rende più facile la gestione degli spazi pubblici durante gli eventi o i periodi di affollamento, aiutando i team a rimanere informati e reattivi.
Ecco alcuni dei principali vantaggi dell'utilizzo di YOLOE per le applicazioni di computer vision:
Tuttavia, ci sono alcune limitazioni da tenere presenti quando si utilizza YOLOE. Ecco un paio di fattori da considerare:
YOLOE offre una maggiore flessibilità alla computer vision consentendo agli utenti di guidare il rilevamento con messaggi di testo o immagini. Funziona bene in situazioni reali in cui le scene cambiano rapidamente e la riqualificazione non è un'opzione.
Dalla gestione dei bagagli al monitoraggio degli spazi pubblici, YOLOE si adatta con facilità a nuovi compiti. Mentre l'intelligenza artificiale diventa sempre più accessibile, modelli come YOLOE aiutano sempre più industrie a utilizzare la tecnologia di visione in modo pratico ed efficiente.
Unisciti alla nostra comunità ed esplora il nostro repository GitHub per saperne di più sulle innovazioni dell'IA. Scopri gli ultimi progressi in settori come l'IA nella vendita al dettaglio e la computer vision nella sanità sulle nostre pagine dedicate alle soluzioni. Scopri le nostre opzioni di licenza e inizia a lavorare con la computer vision oggi stesso!
Inizia il tuo viaggio nel futuro dell'apprendimento automatico