Controllo verde
Link copiato negli appunti

Cos'è YOLOE? Portare avanti i modelli di visione computerizzata

Scopri come YOLOE ti permette di trovare gli oggetti utilizzando una semplice richiesta o una foto. Consente una visione computerizzata più intelligente e veloce senza dover riqualificare o mettere a punto i modelli.

Il rilevamento degli oggetti è un'attività fondamentale della computer vision, il cui obiettivo è identificare e localizzare gli oggetti nelle immagini o nei video. È una parte fondamentale della computer vision, un campo dell'intelligenza artificiale (AI) che consente alle macchine di comprendere e interpretare i dati visivi. Ad esempio, il rilevamento degli oggetti può aiutare a identificare un'auto in una foto o a individuare una persona in un video.

Una delle serie più note di modelli che supportano attività di computer vision come il rilevamento di oggetti è la serie di modelli YOLO (You Only Look Once). Progettati per garantire velocità e precisione, i modelli YOLO sono stati continuamente migliorati nel tempo. Ad esempio, una delle ultime versioni, Ultralytics YOLO11si comporta bene in situazioni reali, fornendo risultati accurati anche in ambienti più complessi.

Per dare un ulteriore impulso a questi progressi, un nuovo modello chiamato YOLOE mira ad ampliare le capacità dei modelli YOLO . A differenza dei modelli tradizionali, che richiedono una riqualificazione per riconoscere nuovi oggetti, YOLOE è in grado di seguire semplici messaggi di testo o immagini per rilevare oggetti che non ha mai visto prima, rendendolo molto più adattabile ad ambienti in continuo cambiamento.

In questo articolo daremo un'occhiata più da vicino a ciò che rende YOLOE unico, come si confronta con i precedenti modelli YOLO e come puoi iniziare a usarlo oggi stesso. Iniziamo!

Una panoramica di YOLOE

YOLOE è un modello di visione computerizzata che fa un passo avanti nel rilevamento degli oggetti. È stato introdotto nel marzo 2025 dai ricercatori della Tsinghua University. Ciò che distingue YOLOE dai modelli tradizionali è l'uso del rilevamento del vocabolario aperto. 

Mentre la maggior parte dei modelli è addestrata a riconoscere un elenco fisso di oggetti, YOLOE ti permette di specificare cosa cercare utilizzando una breve descrizione o un'immagine di esempio. Ad esempio, se stai cercando uno "zaino verde", puoi digitare questa descrizione o mostrare al modello una foto e YOLOE lo individuerà all'interno della scena.

Inoltre, anche senza alcuna richiesta, YOLOE è in grado di rilevare da solo molti oggetti di uso quotidiano. Questa capacità di riconoscere oggetti che non ha mai visto prima è chiamata rilevamento a scatto zero. È particolarmente utile in ambienti dinamici dove l'attività o gli oggetti di interesse possono cambiare inaspettatamente.

Figura 1. Uno sguardo alle capacità di YOLOE.

Caratteristiche principali di YOLOE

YOLOE supporta un'ampia gamma di funzionalità progettate per migliorare le sue prestazioni nelle applicazioni reali. Grazie alla capacità di gestire input strutturati e non strutturati, YOLOE apre nuove possibilità per il rilevamento e la segmentazione degli oggetti. 

Ecco alcune delle caratteristiche principali del modello:

  • Rilevamento basato su prompt: YOLOE è in grado di cercare gli oggetti in base a una breve richiesta di testo o a un'immagine di esempio. Ciò significa che non è necessario riqualificare il modello ogni volta che il compito cambia: basta descrivere o mostrare al modello ciò che si sta cercando.
  • Segmentazione dell'istanza: Oltre a disegnare i riquadri di delimitazione intorno agli oggetti, YOLOE può delineare la loro forma esatta utilizzando la segmentazione delle istanze. Questo è particolarmente utile quando gli oggetti si sovrappongono o quando hai bisogno di conoscere i confini precisi di un oggetto.
  • Riconoscimento degli oggetti senza istruzioni: YOLOE è in grado di riconoscere gli oggetti anche senza istruzioni specifiche. Utilizza una serie di descrizioni pre-apprese per identificare rapidamente gli oggetti, rendendo il processo più veloce ed efficiente.

Confronto tra YOLOE e altri modelli YOLO

Ora che abbiamo capito meglio cos'è YOLOE, diamo un'occhiata ad alcuni modelli simili della famiglia YOLO . 

Con il progredire della computer vision, anche i modelli YOLO hanno fatto passi da gigante. Per esempio, Ultralytics YOLOv8 ha introdotto il supporto per nuovi compiti come la segmentazione e la classificazione, mentre le versioni successive, come Ultralytics YOLO11, si sono concentrate sul miglioramento dell'accuratezza e delle prestazioni per una gamma più ampia di compiti.

Inoltre, YOLO è stato rilasciato nel gennaio 2024 e ha introdotto la possibilità di utilizzare suggerimenti scritti, permettendo agli utenti di descrivere gli oggetti che vogliono trovare. Sebbene YOLO fosse un'ottima opzione per il rilevamento di oggetti a colpo zero, mancava di funzioni come la segmentazione delle istanze e il supporto di messaggi visivi. 

YOLOE si basa su YOLO aggiungendo queste funzionalità, migliorando la flessibilità e le prestazioni e offrendo uno strumento di maggiore impatto per le applicazioni di computer vision del mondo reale.

Figura 2. YOLO e YOLOE supportano entrambi il rilevamento di zero colpi.

Utilizzare YOLOE con il pacchetto Ultralytics Python

Sia che tu voglia rilevare oggetti specifici o esplorare tutto ciò che è presente in un'immagine, iniziare a lavorare con YOLOE è semplice. Questo modello è supportato dal pacchetto Ultralytics Python , che lo rende facile da integrare nei tuoi progetti. Vediamo quindi come utilizzarlo.

Installare il pacchetto Ultralytics

Il primo passo consiste nell'installare il pacchettoUltralytics Python utilizzando un gestore di pacchetti come "pip". Puoi farlo eseguendo il comando "pip install ultralytics" nel tuo terminale o nel prompt dei comandi.

Una volta installato il pacchetto, avrai tutto ciò che ti serve per caricare il modello, fare previsioni e sperimentare diverse modalità di rilevamento. Se riscontri qualche problema durante l'installazione, la documentazione ufficiale di Ultralytics offre un'utile sezione per la risoluzione dei problemi

Esistono diversi modi per utilizzare YOLOE per eseguire le previsioni. Eseguire le previsioni significa utilizzare il modello addestrato per identificare e localizzare gli oggetti all'interno delle immagini o dei video. Questi diversi metodi ti permettono di personalizzare le modalità di interazione con il modello in base alle tue esigenze specifiche.

Analizziamo ciascuno di questi metodi, uno alla volta.

Rilevamento di oggetti specifici con suggerimenti di testo o immagini

YOLOE può rilevare gli oggetti in base a una breve descrizione testuale. Ad esempio, se stai cercando un cavallo in movimento, puoi utilizzare un messaggio del tipo "cavallo che cammina".

Per iniziare, per prima cosa carica il modello YOLOE pre-addestrato e imposta il tuo prompt (la descrizione di ciò che vuoi che il modello cerchi) come mostrato nel frammento di codice qui sotto.

from ultralytics import YOLOE

model = YOLOE("yoloe-11l-seg.pt")
prompt = ["horse walking"]
model.set_classes(prompt, model.get_text_pe(prompt))

Una volta impostati il modello e il prompt, puoi eseguire il modello su un'immagine o un video. Sostituisci il percorso del file nel codice con il percorso dell'immagine o del video:

results = model.predict("path/to/your/image.jpg")
results[0].show()

In questo modo verrà visualizzata l'immagine con l'oggetto rilevato chiaramente contrassegnato in base alla richiesta. Puoi cambiare la richiesta per cercare oggetti diversi, come "valigia rossa", "bicicletta" o "zebra", a seconda di ciò che stai cercando.

Figura 3. Un esempio di utilizzo di YOLOE per rilevare oggetti specifici utilizzando una richiesta di testo.

Allo stesso modo, puoi utilizzare un'immagine per richiedere a YOLOE il pacchetto Ultralytics Python . Nella modalità di richiesta visiva, il modello utilizza l'immagine per trovare oggetti simili in un'altra scena. Questa modalità è particolarmente utile per gli oggetti difficili da descrivere o privi di etichette chiare. 

Per approfondire il codice, puoi consultare la documentazione di Ultralytics .

Rilevamento generale degli oggetti con YOLOE

In alcuni casi, potresti non sapere esattamente cosa cercare o non cercare un oggetto in particolare. In questo caso, la modalità senza prompt si rivela utile. 

Con questa opzione, non è necessario digitare una descrizione o fornire un'immagine di esempio. YOLOE analizza semplicemente le immagini da solo e rileva tutto ciò che può riconoscere, come persone, animali, mobili o oggetti di uso quotidiano.

È un modo utile per esplorare una scena senza dare al modello istruzioni specifiche. Sia che tu stia scansionando una stanza affollata o rivedendo un filmato con molte attività, la modalità senza istruzioni ti permette di dare un'occhiata veloce a ciò che è presente in un'immagine. 

Puoi utilizzare il seguente codice per eseguire YOLOE in modalità senza prompt. Per prima cosa viene caricato il modello, poi viene elaborata l'immagine e vengono rilevati automaticamente gli oggetti presenti. Infine, vengono visualizzati i risultati e gli oggetti rilevati vengono evidenziati. 

Assicurati di sostituire il percorso del file con il percorso effettivo dell'immagine.

from ultralytics import YOLOE
model = YOLOE("yoloe-11l-seg-pf.pt")
results = model.predict("path/to/image.jpg")
results[0].show()

L'immagine riportata di seguito è un esempio di ciò che YOLOE può rilevare in modalità "prompt-free".

Figura 4. Utilizzo di YOLOE in modalità senza prompt.

Applicazioni in tempo reale di YOLOE

La capacità di YOLOE di rispondere a richieste sia di testo che di immagini lo rende uno strumento affidabile per le applicazioni in tempo reale. La sua flessibilità è particolarmente utile in ambienti veloci dove il tempismo e l'accuratezza sono essenziali. 

Vediamo alcuni esempi reali di come si può utilizzare YOLOE.

Migliorare la gestione dei bagagli: Rilevamento dei bagagli in tempo reale

Negli aeroporti affollati, individuare un bagaglio specifico può essere difficile, soprattutto quando si tratta di borse scomparse. YOLOE può semplificare questo processo aiutando la scansione di video in diretta e identificando rapidamente gli oggetti in base a semplici richieste come "borsa rossa". 

Se un bagaglio manca o viene smarrito, il personale può facilmente cambiare il prompt per cercare un oggetto diverso, ad esempio una "valigia nera". Questa capacità di adattamento istantaneo può aiutare il personale aeroportuale a individuare rapidamente il bagaglio giusto senza dover rivedere lunghe ore di filmati o riaddestrare il modello, rendendo la gestione dei bagagli e la risoluzione dei problemi di smarrimento molto più rapida ed efficiente.

Monitoraggio degli spazi pubblici con YOLOE

I filmati di sorveglianza di spazi pubblici, come mercati e bar affollati, spesso includono un mix di persone, oggetti e attività che cambiano nel corso della giornata. YOLOE è in grado di analizzare questi filmati in tempo reale grazie alla modalità "prompt-free", rilevando automaticamente oggetti come borse, tavoli o biciclette senza bisogno di istruzioni specifiche.

Figura 5. YOLOE è in grado di rilevare vari oggetti in uno spazio pubblico affollato.

Questo è particolarmente utile per i team di sicurezza per individuare oggetti incustoditi o seguire i movimenti della folla. La capacità di YOLOE di rilevare più oggetti contemporaneamente rende più facile la gestione degli spazi pubblici durante gli eventi o i periodi di affollamento, aiutando i team a rimanere informati e reattivi.

Pro e contro di YOLOE

Ecco alcuni dei principali vantaggi dell'utilizzo di YOLOE per le applicazioni di computer vision:

  • Prestazioni in tempo reale: YOLOE è ottimizzato per un'elaborazione rapida ed efficiente, che consente il rilevamento in tempo reale, anche in ambienti dinamici come i flussi video in diretta o gli spazi pubblici affollati.
  • Scalabilità: YOLOE è scalabile e funziona bene per un'ampia varietà di applicazioni, dalla sicurezza e sorveglianza alla vendita al dettaglio, alla sanità e ai veicoli autonomi.
  • Facile da usare: Poiché YOLOE è supportato dal pacchetto Ultralytics Python , è facile da integrare nei progetti di computer vision esistenti.

Tuttavia, ci sono alcune limitazioni da tenere presenti quando si utilizza YOLOE. Ecco un paio di fattori da considerare:

  • Richiede dati di addestramento sufficienti: Sebbene YOLOE supporti il rilevamento a colpo zero, le sue prestazioni su oggetti non visti dipendono dalla capacità di generalizzare dai dati di addestramento. In alcuni casi, potrebbe aver bisogno di dati aggiuntivi o di una messa a punto per ottenere buone prestazioni in compiti altamente specializzati.
  • Sensibile alla qualità dell'input: L'accuratezza del modello può essere influenzata da immagini o video di bassa qualità. Un input sfocato o scarsamente illuminato può ridurre la capacità del modello di rilevare con precisione gli oggetti, quindi un input di alta qualità è importante per ottenere prestazioni ottimali.

Punti di forza

YOLOE offre una maggiore flessibilità alla computer vision consentendo agli utenti di guidare il rilevamento con messaggi di testo o immagini. Funziona bene in situazioni reali in cui le scene cambiano rapidamente e la riqualificazione non è un'opzione.

Dalla gestione dei bagagli al monitoraggio degli spazi pubblici, YOLOE si adatta con facilità a nuovi compiti. Mentre l'intelligenza artificiale diventa sempre più accessibile, modelli come YOLOE aiutano sempre più industrie a utilizzare la tecnologia di visione in modo pratico ed efficiente.

Unisciti alla nostra comunità ed esplora il nostro repository GitHub per saperne di più sulle innovazioni dell'IA. Scopri gli ultimi progressi in settori come l'IA nella vendita al dettaglio e la computer vision nella sanità sulle nostre pagine dedicate alle soluzioni. Scopri le nostre opzioni di licenza e inizia a lavorare con la computer vision oggi stesso!

Logo di LinkedInLogo di TwitterLogo di FacebookSimbolo di copia-link

Leggi tutto in questa categoria

Costruiamo insieme il futuro
di AI!

Inizia il tuo viaggio nel futuro dell'apprendimento automatico