Scopri YOLO26: vision AI di prossima generazione.
Ultralytics
Ultralytics YOLO

Mettiti alla prova con YOLO-World

Scopri YOLO-World, un modello innovativo di rilevamento oggetti in grado di identificare oggetti tramite prompt di testo. Esplora come funziona YOLO-World e le sue applicazioni, e mettiti alla prova con un rapido esempio di codice.

ABAbirami Vina
4 min read
Mettiti alla prova con YOLO-World

I progetti di computer vision comportano spesso un notevole dispendio di tempo per l'annotazione dei dati e l'addestramento di modelli di object detection. Tuttavia, questo potrebbe presto diventare un ricordo del passato. L'AI Lab di Tencent ha rilasciato YOLO-World il 31 gennaio 2024, un modello di object detection open-vocabulary in tempo reale. YOLO-World è un modello zero-shot, il che significa che puoi eseguire inferenze di object detection sulle immagini senza doverlo addestrare.

I modelli zero-shot hanno il potenziale di cambiare il modo in cui affrontiamo le applicazioni di computer vision. In questo blog, esploreremo il funzionamento di YOLO-World e i suoi potenziali utilizzi, e condivideremo un pratico esempio di codice per aiutarti a iniziare.

Link to this sectionUno sguardo a YOLO-World#

Puoi passare un'immagine e un prompt testuale che descriva gli oggetti che stai cercando attraverso il modello YOLO-World. Ad esempio, se ti interessa trovare "una persona che indossa una maglietta rossa" all'interno di una foto, YOLO-World prende questo input e si mette al lavoro.

L'architettura unica del modello combina tre elementi principali:

  • Un detector basato sul modello di object detection Ultralytics YOLOv8, per analizzare il contenuto visivo dell'immagine.
  • Un text encoder pre-addestrato da CLIP di OpenAI, progettato specificamente per comprendere il tuo prompt testuale.
  • Una rete, la Vision-Language Path Aggregation Network (RepVL-PAN), che integra i dati dell'immagine elaborati con i dati testuali.

Il detector YOLO scansiona l'immagine di input per identificare potenziali oggetti. Il text encoder trasforma la tua descrizione in un formato che il modello può comprendere. Questi due flussi di informazioni vengono quindi uniti tramite la RepVL-PAN usando una fusione cross-modality multilivello. Ciò consente a YOLO-World di rilevare e localizzare con precisione nell'immagine gli oggetti descritti nel tuo prompt.

Un esempio dei risultati ottenuti con YOLO-World

Un esempio di risultati da YOLO-World.

Link to this sectionVantaggi della scelta di YOLO-World#

Uno dei maggiori vantaggi dell'utilizzo di YOLO-World è che non devi addestrare il modello per una classe specifica. Ha già imparato da coppie di immagini e testi, quindi sa come trovare oggetti basandosi sulle descrizioni. Puoi evitare ore di raccolta dati, annotazione, addestramento su costose GPU e così via.

Ecco alcuni altri vantaggi nell'usare YOLO-World:

  • Prestazioni in tempo reale - YOLO-World supporta prestazioni in tempo reale proprio come l'architettura YOLO originale. È ideale per applicazioni che richiedono un'object detection immediata come veicoli autonomi e sistemi di sorveglianza.
  • Instance Segmentation - YOLO-World può delineare e separare con precisione gli oggetti nelle immagini, anche se tali oggetti non sono stati specificamente insegnati durante l'addestramento.
  • Efficienza - YOLO-World combina alta precisione ed efficienza computazionale, rendendolo pratico per applicazioni del mondo reale. La sua architettura ottimizzata rende possibile una rapida object detection senza eccessive richieste di potenza di calcolo.

Link to this sectionLe applicazioni di YOLO-World#

I modelli YOLO-World possono essere usati per una grande varietà di applicazioni. Esploriamone alcune.

Link to this sectionControllo qualità nella produzione#

I prodotti fabbricati su una linea di assemblaggio vengono controllati visivamente per individuare difetti prima dell'imballaggio. Il rilevamento dei difetti viene spesso fatto a mano, il che richiede tempo e può portare a errori. Questi errori possono causare problemi come costi elevati e la necessità di riparazioni o richiami. Per aiutare in questo, sono stati creati speciali telecamere di visione artificiale e sistemi AI per eseguire tali controlli.

I modelli YOLO-World rappresentano un grande passo avanti in quest'area. Possono trovare difetti nei prodotti anche quando non sono stati addestrati per quel problema specifico, grazie alle loro capacità zero-shot. Ad esempio, una fabbrica che produce bottiglie d'acqua può facilmente distinguere tra una bottiglia sigillata correttamente con un tappo e una bottiglia in cui il tappo manca o è difettoso usando YOLO-World.

Un esempio di ispezione di tappi di bottiglia

Un esempio di ispezione del tappo di una bottiglia.

Link to this sectionRobotica#

I modelli YOLO-World consentono ai robot di interagire con ambienti sconosciuti. Senza essere stati addestrati su oggetti specifici che potrebbero trovarsi in una stanza, possono comunque identificare quali oggetti sono presenti. Diciamo quindi che un robot entri in una stanza in cui non è mai stato prima. Con un modello YOLO-World, può comunque riconoscere e identificare oggetti come sedie, tavoli o lampade, anche se non è stato specificamente addestrato su quegli elementi.

Oltre all'object detection, YOLO-World può anche determinare le condizioni di quegli oggetti, grazie alla sua funzionalità 'prompt-then-detect'. Ad esempio, nella robotica agricola, può essere usato per identificare frutti maturi rispetto a frutti non maturi programmando il robot per rilevarli.

Link to this sectionL'AI nell'industria automobilistica#

L'industria automobilistica coinvolge molte parti in movimento e YOLO-World può essere usato per diverse applicazioni automobilistiche. Ad esempio, quando si tratta di manutenzione auto, la capacità di YOLO-World di riconoscere un'ampia varietà di oggetti senza tagging manuale o ampio pre-addestramento è estremamente utile. YOLO-World può essere usato per identificare parti dell'auto che devono essere sostituite. Potrebbe persino automatizzare compiti come i controlli qualità, individuando difetti o pezzi mancanti nelle nuove auto.

Un'altra applicazione è l'object detection zero-shot nelle auto a guida autonoma. Le capacità di rilevamento zero-shot di YOLO-World possono migliorare la capacità di un veicolo autonomo di rilevare e classificare oggetti sulla strada, come pedoni, segnali stradali e altri veicoli, in tempo reale. Così facendo, può aiutare a rilevare ostacoli e prevenire incidenti per un viaggio più sicuro.

Un esempio di rilevamento di oggetti su una strada

Un esempio di rilevamento di oggetti su una strada.

Link to this sectionGestione dell'inventario per negozi al dettaglio#

Identificare oggetti sugli scaffali nei negozi al dettaglio è una parte importante del monitoraggio dell'inventario, del mantenimento delle scorte e dell'automazione dei processi. La capacità di Ultralytics YOLO-World di riconoscere un'ampia varietà di oggetti senza tagging manuale o ampio pre-addestramento è estremamente utile per la gestione dell'inventario.

Ad esempio, nella gestione dell'inventario, YOLO-World può rapidamente individuare e categorizzare articoli su uno scaffale, come diverse marche di bevande energetiche. I negozi al dettaglio possono mantenere un inventario accurato, gestire i livelli delle scorte in modo efficiente e fluidificare le operazioni della catena di approvvigionamento.

Tutte le applicazioni sono uniche e mostrano quanto estensivamente YOLO-World possa essere utilizzato. Ora, passiamo alla pratica con YOLO-World e diamo un'occhiata a un esempio di codice.

Link to this sectionUna guida al codice#

Come abbiamo menzionato prima, YOLO-World può essere usato per rilevare diverse parti di un'auto per la manutenzione. Un'applicazione di computer vision che rilevi eventuali riparazioni necessarie comporterebbe scattare una foto dell'auto, identificare le parti dell'auto, esaminare ogni parte per danni e consigliare riparazioni. Ogni parte di questo sistema userebbe diverse tecniche e approcci di AI. Ai fini di questa guida al codice, concentriamoci sulla parte in cui vengono rilevate le parti dell'auto.

Con YOLO-World, puoi identificare diverse parti dell'auto in un'immagine in meno di 5 minuti. Puoi estendere questo codice per provare diverse applicazioni anche usando YOLO-World! Per iniziare, dobbiamo installare tramite pip il pacchetto Ultralytics come mostrato di seguito.

Per ulteriori istruzioni e best practice relative al processo di installazione, controlla la nostra guida Installazione Ultralytics. Durante l'installazione dei pacchetti necessari per YOLOv8, se riscontri difficoltà, dai un'occhiata alla nostra guida ai Problemi Comuni per soluzioni e suggerimenti.

Una volta installato il pacchetto necessario, possiamo scaricare un'immagine da Internet per eseguire le nostre inferenze. Utilizzeremo l'immagine qui sotto.

La nostra immagine di input

La nostra immagine di input.

Quindi, importeremo il pacchetto necessario, inizializzeremo il nostro modello e imposteremo le classi che stiamo cercando nella nostra immagine di input. Qui, ci interessano le seguenti classi: auto, ruota, portiera auto, specchietto auto e targa.

Useremo poi il metodo predict, fornendo il percorso dell'immagine insieme ai parametri per il numero massimo di rilevamenti e alle soglie per intersection over union (IoU) e confidenza (conf) per eseguire un'inferenza sull'immagine. Infine, gli oggetti rilevati vengono salvati in un file chiamato 'result.jpg'.

L'immagine di output risultante verrà salvata nei tuoi file.

La nostra immagine di output

La nostra immagine di output.

Se preferisci vedere cosa può fare YOLO-World senza programmare, puoi andare alla pagina Demo di YOLO-World, caricare un'immagine di input e inserire le classi personalizzate.

Leggi la nostra pagina di documentazione su YOLO-World per imparare come salvare il modello con le classi personalizzate, in modo che possa essere usato direttamente in seguito senza inserire le classi personalizzate ripetutamente.

Link to this sectionHai notato che le portiere dell'auto non sono state rilevate?#

Se dai di nuovo un'occhiata all'immagine di output, noterai che la classe personalizzata “car door” non è stata rilevata. Nonostante i suoi grandi risultati, YOLO-World presenta alcune limitazioni. Per combattere queste limitazioni e usare il modello YOLO-World in modo efficace, è importante usare i tipi corretti di prompt testuali.

Ecco alcuni approfondimenti:

  • YOLO-World potrebbe non necessitare di alti livelli di confidenza per previsioni accurate, quindi ridurre le soglie di confidenza può migliorare i tassi di rilevamento.
  • Aggiungi classi a cui non sei interessato. Aiuterà a migliorare l'object detection primaria riducendo i falsi positivi per gli oggetti secondari.
  • Rilevare prima gli oggetti più grandi, prima di concentrarsi sui dettagli più piccoli, può migliorare la precisione del rilevamento.
  • Menziona i colori nelle tue classi per rilevare oggetti basandoti su indizi cromatici.
  • Descrivere le dimensioni degli oggetti nei prompt può anche aiutare YOLO-World a identificare oggetti specifici con maggiore precisione.
  • I metodi di post-elaborazione, come il filtraggio delle previsioni per dimensione o la regolazione dei livelli di confidenza per classe, possono migliorare ulteriormente i risultati dell'object detection.

Link to this sectionI limiti sono infiniti#

Nel complesso, i modelli YOLO-World possono diventare uno strumento potente grazie alle loro avanzate capacità di object detection. Offrono grande efficienza, precisione e aiutano ad automatizzare diversi compiti in varie applicazioni, come l'esempio dell'identificazione di parti auto che abbiamo discusso praticamente.

Sentiti libero di esplorare il nostro repository GitHub per imparare di più sui nostri contributi alla computer vision e all'AI. Se sei curioso di sapere come l'AI stia rimodellando settori come la tecnologia sanitaria, dai un'occhiata alle nostre pagine delle soluzioni. Le possibilità con innovazioni come YOLO-World sembrano essere infinite!

Explore solutions

Real-time AI that works with your team

AI nella Robotica

Potenzia macchine più intelligenti con i modelli Ultralytics YOLO. La Vision AI nella robotica guida la navigazione autonoma, la percezione, il tracciamento degli oggetti e il controllo in tempo reale.

Scopri di più
Real-time AI that works with your team

IA nella logistica

Semplifica la logistica con i modelli Ultralytics YOLO. La Vision AI abilita l'ispezione dei pacchi, lo smistamento, il tracciamento dei veicoli e il monitoraggio della sicurezza in magazzino in tempo reale.

Scopri di più
Real-time AI that works with your team

AI nel settore Retail

Reimmagina il retail con i modelli Ultralytics YOLO. La Vision AI alimenta il tracciamento dell'inventario, il monitoraggio degli scaffali, la gestione delle code e insight più intelligenti sui clienti.

Scopri di più
Real-time AI that works with your team

IA nel settore sanitario

Crea soluzioni sanitarie con i modelli Ultralytics YOLO. La vision AI nella sanità potenzia l'imaging medico più rapido, diagnosi più intelligenti e il monitoraggio dei pazienti.

Scopri di più
Real-time AI that works with your team

IA nella produzione

Ottimizza la produzione con i modelli Ultralytics YOLO. La Vision AI guida il controllo qualità, il rilevamento dei difetti, la conformità ai DPI e l'automazione della linea di assemblaggio.

Scopri di più
Real-time AI that works with your operation

AI nel settore automobilistico

Applica la computer vision al settore automobilistico con i modelli Ultralytics YOLO. La vision AI migliora la sicurezza stradale, l'assistenza alla guida e l'automazione dei veicoli per strade più intelligenti.

Scopri di più
Real-time AI tailored to your operation

AI in Agricoltura

Porta la vision AI nell'agricoltura intelligente con i modelli Ultralytics YOLO. Potenzia il monitoraggio delle colture, il tracciamento del bestiame e l'agricoltura di precisione per rese più elevate e intelligenti.

Scopri di più
Real-time AI that works with your team

AI nella Robotica

Potenzia macchine più intelligenti con i modelli Ultralytics YOLO. La Vision AI nella robotica guida la navigazione autonoma, la percezione, il tracciamento degli oggetti e il controllo in tempo reale.

Scopri di più
Real-time AI that works with your team

IA nella logistica

Semplifica la logistica con i modelli Ultralytics YOLO. La Vision AI abilita l'ispezione dei pacchi, lo smistamento, il tracciamento dei veicoli e il monitoraggio della sicurezza in magazzino in tempo reale.

Scopri di più
Real-time AI that works with your team

AI nel settore Retail

Reimmagina il retail con i modelli Ultralytics YOLO. La Vision AI alimenta il tracciamento dell'inventario, il monitoraggio degli scaffali, la gestione delle code e insight più intelligenti sui clienti.

Scopri di più
Real-time AI that works with your team

IA nel settore sanitario

Crea soluzioni sanitarie con i modelli Ultralytics YOLO. La vision AI nella sanità potenzia l'imaging medico più rapido, diagnosi più intelligenti e il monitoraggio dei pazienti.

Scopri di più
Real-time AI that works with your team

IA nella produzione

Ottimizza la produzione con i modelli Ultralytics YOLO. La Vision AI guida il controllo qualità, il rilevamento dei difetti, la conformità ai DPI e l'automazione della linea di assemblaggio.

Scopri di più
Real-time AI that works with your operation

AI nel settore automobilistico

Applica la computer vision al settore automobilistico con i modelli Ultralytics YOLO. La vision AI migliora la sicurezza stradale, l'assistenza alla guida e l'automazione dei veicoli per strade più intelligenti.

Scopri di più
Real-time AI tailored to your operation

AI in Agricoltura

Porta la vision AI nell'agricoltura intelligente con i modelli Ultralytics YOLO. Potenzia il monitoraggio delle colture, il tracciamento del bestiame e l'agricoltura di precisione per rese più elevate e intelligenti.

Scopri di più
Real-time AI that works with your team

AI nella Robotica

Potenzia macchine più intelligenti con i modelli Ultralytics YOLO. La Vision AI nella robotica guida la navigazione autonoma, la percezione, il tracciamento degli oggetti e il controllo in tempo reale.

Scopri di più
Real-time AI that works with your team

IA nella logistica

Semplifica la logistica con i modelli Ultralytics YOLO. La Vision AI abilita l'ispezione dei pacchi, lo smistamento, il tracciamento dei veicoli e il monitoraggio della sicurezza in magazzino in tempo reale.

Scopri di più
Real-time AI that works with your team

AI nel settore Retail

Reimmagina il retail con i modelli Ultralytics YOLO. La Vision AI alimenta il tracciamento dell'inventario, il monitoraggio degli scaffali, la gestione delle code e insight più intelligenti sui clienti.

Scopri di più
Real-time AI that works with your team

IA nel settore sanitario

Crea soluzioni sanitarie con i modelli Ultralytics YOLO. La vision AI nella sanità potenzia l'imaging medico più rapido, diagnosi più intelligenti e il monitoraggio dei pazienti.

Scopri di più
Real-time AI that works with your team

IA nella produzione

Ottimizza la produzione con i modelli Ultralytics YOLO. La Vision AI guida il controllo qualità, il rilevamento dei difetti, la conformità ai DPI e l'automazione della linea di assemblaggio.

Scopri di più
Real-time AI that works with your operation

AI nel settore automobilistico

Applica la computer vision al settore automobilistico con i modelli Ultralytics YOLO. La vision AI migliora la sicurezza stradale, l'assistenza alla guida e l'automazione dei veicoli per strade più intelligenti.

Scopri di più
Real-time AI tailored to your operation

AI in Agricoltura

Porta la vision AI nell'agricoltura intelligente con i modelli Ultralytics YOLO. Potenzia il monitoraggio delle colture, il tracciamento del bestiame e l'agricoltura di precisione per rese più elevate e intelligenti.

Scopri di più

Costruiamo insieme il futuro dell'AI!

Inizia il tuo viaggio con il futuro del machine learning