Una guida per un'immersione profonda nel rilevamento degli oggetti nel 2025

Abirami Vina

6 minuti di lettura

6 febbraio 2025

Imparate a conoscere il rilevamento degli oggetti, la sua importanza nell'IA e come modelli come YOLO11 stanno trasformando settori come quello delle auto a guida autonoma, della sanità e della sicurezza.

Molti settori stanno rapidamente integrando soluzioni di intelligenza artificiale (AI) nelle loro attività. Tra le molte tecnologie di IA oggi disponibili, la computer vision è una delle più popolari. La computer vision è una branca dell'IA che aiuta i computer a vedere e comprendere i contenuti di immagini e video, proprio come fanno gli esseri umani. Le macchine sono in grado di riconoscere gli oggetti, identificare gli schemi e dare un senso a ciò che guardano. 

Si stima che il valore del mercato globale della computer vision crescerà fino a 175,72 miliardi di dollari entro il 2032. La computer vision comprende diverse attività che consentono ai sistemi di intelligenza artificiale di analizzare e interpretare i dati visivi. Uno dei compiti più diffusi ed essenziali della computer vision è il rilevamento degli oggetti. 

Il rilevamento degli oggetti si concentra sulla localizzazione e sulla classificazione degli oggetti nei dati visivi. Ad esempio, se si mostra al computer l'immagine di una mucca, il computer è in grado di rilevare la mucca e di disegnare un rettangolo di selezione intorno ad essa. Questa capacità è utile in applicazioni reali come il monitoraggio degli animali, le auto a guida autonoma e la sorveglianza. 

Quindi, come si può effettuare il rilevamento degli oggetti? Un modo è quello di utilizzare modelli di visione computerizzata. Ad esempio, Ultralytics YOLO11 è un modello di computer vision che supporta attività di computer vision come il rilevamento di oggetti. 

In questa guida esploreremo il rilevamento degli oggetti e il suo funzionamento. Verranno inoltre illustrate alcune applicazioni reali del rilevamento degli oggetti e di Ultralytics YOLO11.

__wf_reserved_inherit
Figura 1. Utilizzo del supporto di YOLO11 per il rilevamento degli oggetti per monitorare il bestiame.

Che cos'è il rilevamento degli oggetti? 

Il rilevamento degli oggetti è un'attività di computer vision che identifica e localizza gli oggetti nelle immagini o nei video. Risponde a due domande fondamentali: Quali oggetti sono presenti nell'immagine?" e "Dove si trovano?".

È possibile pensare al rilevamento degli oggetti come a un processo che prevede due fasi fondamentali. La prima, la classificazione degli oggetti, consente al sistema di riconoscere ed etichettare gli oggetti, come ad esempio l'identificazione di un gatto, di un'auto o di una persona in base ai modelli appresi. La seconda, la localizzazione, determina la posizione dell'oggetto disegnando un riquadro di delimitazione intorno ad esso, indicando dove appare nell'immagine. Insieme, queste fasi consentono alle macchine di rilevare e comprendere gli oggetti in una scena.

L'aspetto del rilevamento degli oggetti che lo rende unico è la sua capacità di riconoscere gli oggetti e di individuare con precisione la loro posizione. Altre attività di computer vision si concentrano su obiettivi diversi.

Ad esempio, la classificazione delle immagini assegna un'etichetta a un'intera immagine. Nel frattempo, la segmentazione delle immagini fornisce una comprensione a livello di pixel dei diversi elementi. Il rilevamento degli oggetti, invece, combina il riconoscimento con la localizzazione. Ciò lo rende particolarmente utile per compiti come il conteggio di più oggetti in tempo reale.

__wf_reserved_inherit
Figura 2. Confronto tra compiti di computer vision.

Riconoscimento di oggetti e rilevamento di oggetti

Quando si esplorano i vari termini di computer vision, si può pensare che il riconoscimento e il rilevamento degli oggetti siano intercambiabili, ma hanno scopi diversi. Un ottimo modo per capire la differenza è osservare il rilevamento e il riconoscimento dei volti.

Il rilevamento dei volti è un tipo di rilevamento degli oggetti. Identifica la presenza di un volto in un'immagine e ne segna la posizione utilizzando un rettangolo di selezione. Risponde alla domanda: "Dove si trova il volto nell'immagine?". Questa tecnologia è comunemente utilizzata nelle fotocamere degli smartphone che mettono a fuoco automaticamente i volti o nelle telecamere di sicurezza che rilevano la presenza di una persona.

Il riconoscimento dei volti, invece, è una forma di riconoscimento degli oggetti. Non si limita a rilevare un volto, ma identifica di chi si tratta analizzando le caratteristiche uniche e confrontandole con un database. Risponde alla domanda: "Chi è questa persona?". È la tecnologia alla base dello sblocco del telefono con Face ID o dei sistemi di sicurezza aeroportuale che verificano le identità.

In parole povere, il rilevamento di oggetti trova e localizza gli oggetti, mentre il riconoscimento di oggetti li classifica e li identifica. 

__wf_reserved_inherit
Figura 3. Rilevamento di oggetti e riconoscimento di oggetti. Immagine dell'autore.

Molti modelli di rilevamento degli oggetti, come YOLO11, sono progettati per supportare il rilevamento dei volti, ma non il loro riconoscimento. YOLO11 è in grado di identificare in modo efficiente la presenza di un volto in un'immagine e di disegnare un riquadro di delimitazione attorno ad esso, rendendolo utile per applicazioni come i sistemi di sorveglianza, il monitoraggio della folla e l'etichettatura automatica delle foto. Tuttavia, non è in grado di determinare di chi sia il volto. YOLO11 può essere integrato con modelli addestrati specificamente per il riconoscimento dei volti, come Facenet o DeepFace, per consentire sia il rilevamento che l'identificazione in un unico sistema.

Capire come funziona il rilevamento degli oggetti

Prima di parlare di come funziona il rilevamento degli oggetti, diamo un'occhiata più da vicino a come un computer analizza un'immagine. Invece di vedere un'immagine come noi, un computer la scompone in una griglia di piccoli quadrati chiamati pixel. Ogni pixel contiene informazioni sul colore e sulla luminosità che i computer possono elaborare per interpretare i dati visivi.

Per dare un senso a questi pixel, gli algoritmi li raggruppano in regioni significative in base alla forma, al colore e alla vicinanza tra loro. I modelli di rilevamento degli oggetti, come YOLO11, sono in grado di riconoscere modelli o caratteristiche in questi gruppi di pixel. 

Ad esempio, un'auto a guida autonoma non vede un pedone come lo vediamo noi, ma rileva forme e modelli che corrispondono alle caratteristiche di un pedone. Questi modelli si basano su un lungo addestramento con set di immagini etichettate, che consente loro di apprendere le caratteristiche distintive di oggetti come automobili, segnali stradali e persone.

Un tipico modello di rilevamento degli oggetti è composto da tre parti fondamentali: spina dorsale, collo e testa. La spina dorsale estrae caratteristiche importanti da un'immagine. Il collo elabora e affina queste caratteristiche, mentre la testa è responsabile della previsione della posizione degli oggetti e della loro classificazione.

Affinamento dei rilevamenti e presentazione dei risultati

Una volta effettuate le rilevazioni iniziali, vengono applicate tecniche di post-elaborazione per migliorare l'accuratezza e filtrare le previsioni ridondanti. Ad esempio, vengono rimossi i riquadri di delimitazione che si sovrappongono, assicurando che vengano mantenuti solo i rilevamenti più rilevanti. Inoltre, i punteggi di confidenza (valori numerici che rappresentano la certezza del modello che un oggetto rilevato appartenga a una certa classe) vengono assegnati a ogni oggetto rilevato per indicare la certezza del modello nelle sue previsioni.

Infine, l'output viene presentato con caselle di delimitazione disegnate attorno agli oggetti rilevati, insieme alle etichette di classe e ai punteggi di confidenza previsti. Questi risultati possono essere utilizzati per applicazioni reali.

Modelli di rilevamento degli oggetti più diffusi 

Al giorno d'oggi sono disponibili molti modelli di visione computerizzata e alcuni dei più popolari sono i modelli Ultralytics YOLO. Sono noti per la loro velocità, precisione e versatilità. Nel corso degli anni, questi modelli sono diventati più veloci, più precisi e in grado di gestire una gamma più ampia di compiti. Il rilascio di Ultralytics YOLOv5 ha reso più semplice l'implementazione con framework come PyTorch, consentendo a un maggior numero di persone di utilizzare l'IA di visione avanzata senza dover disporre di competenze tecniche approfondite.

Partendo da queste basi, Ultralytics YOLOv8 ha introdotto nuove funzionalità come la segmentazione delle istanze, la stima della posa e la classificazione delle immagini. Ora YOLO11 si spinge ancora più in là, con prestazioni migliori per più compiti. Con il 22% di parametri in meno rispetto a YOLOv8m, YOLO11m raggiunge una precisione media superiore (mAP) sul dataset COCO. In parole povere, YOLO11 è in grado di riconoscere gli oggetti con maggiore precisione utilizzando meno risorse, il che lo rende più veloce e affidabile.

Sia che siate esperti di intelligenza artificiale o che abbiate appena iniziato, YOLO11 offre una soluzione potente ma facile da usare per le applicazioni di computer vision.

Addestramento personalizzato di un modello per il rilevamento degli oggetti

L'addestramento dei modelli Vision AI consiste nell'aiutare i computer a riconoscere e comprendere immagini e video. Tuttavia, l'addestramento può essere un processo che richiede molto tempo. Invece di partire da zero, l'apprendimento per trasferimento accelera le cose utilizzando modelli pre-addestrati che riconoscono già modelli comuni.

Ad esempio, YOLO11 è già stato addestrato sul set di dati COCO, che contiene una serie diversificata di oggetti di uso quotidiano. Questo modello pre-addestrato può essere ulteriormente personalizzato per rilevare oggetti specifici che potrebbero non essere inclusi nel set di dati originale. 

Per addestrare YOLO11 in modo personalizzato, è necessario un set di dati etichettati che contenga immagini degli oggetti che si desidera rilevare. Ad esempio, se si vuole costruire un modello per identificare i diversi tipi di frutta in un negozio di alimentari, si deve creare un set di dati con immagini etichettate di mele, banane, arance, ecc. Una volta preparato il set di dati, YOLO11 può essere addestrato, regolando parametri come la dimensione del batch, il tasso di apprendimento e le epoche per ottimizzare le prestazioni.

Con questo approccio, le aziende possono addestrare YOLO11 a rilevare qualsiasi cosa, dai pezzi difettosi nella produzione alle specie selvatiche nei progetti di conservazione, adattando il modello alle loro esatte esigenze.

Applicazioni del rilevamento di oggetti

Diamo quindi un'occhiata ad alcuni casi d'uso reali del rilevamento degli oggetti e a come sta trasformando diversi settori.

Rilevamento dei pericoli per la guida autonoma

Le auto a guida autonoma utilizzano compiti di computer vision come il rilevamento degli oggetti per navigare in sicurezza ed evitare gli ostacoli. Questa tecnologia le aiuta a riconoscere i pedoni, gli altri veicoli, le buche e i pericoli della strada, consentendo loro di comprendere meglio l'ambiente circostante. Analizzando costantemente l'ambiente circostante, possono prendere decisioni rapide e muoversi in sicurezza nel traffico.

__wf_reserved_inherit
Figura 4. Un esempio di rilevamento di oggetti per individuare buche con YOLO11.

Analisi delle immagini mediche in ambito sanitario

Le tecniche di imaging medico come i raggi X, le risonanze magnetiche, le TAC e gli ultrasuoni creano immagini altamente dettagliate del corpo umano per aiutare a diagnosticare e trattare le malattie. Queste scansioni producono grandi quantità di dati che i medici, come i radiologi e i patologi, devono analizzare attentamente per individuare le malattie. Tuttavia, l'esame dettagliato di ogni immagine può richiedere molto tempo e gli esperti umani possono talvolta perdere dei dettagli a causa della stanchezza o della mancanza di tempo.

I modelli di rilevamento degli oggetti come YOLO11 possono aiutare a identificare automaticamente le caratteristiche chiave delle scansioni mediche, come organi, tumori o anomalie, con un'elevata precisione. I modelli addestrati su misura possono evidenziare le aree di interesse con riquadri di delimitazione, aiutando i medici a concentrarsi più rapidamente sui potenziali problemi. In questo modo si riduce il carico di lavoro, si migliora l'efficienza e si ottengono rapidamente informazioni.

__wf_reserved_inherit
Figura 5. Analisi di immagini mediche con YOLO11.

Aumentare la sicurezza con il rilevamento delle persone e delle anomalie

Il tracciamento degli oggetti è un'attività di computer vision supportata da YOLO11, che consente il monitoraggio in tempo reale e migliora la sicurezza. Si basa sul rilevamento degli oggetti, identificandoli e seguendone continuamente il movimento attraverso i fotogrammi. Questa tecnologia è ampiamente utilizzata nei sistemi di sorveglianza per migliorare la sicurezza in vari ambienti.

Ad esempio, nelle scuole e negli asili nido, il tracciamento degli oggetti può aiutare a monitorare i bambini e a impedire che si allontanino. Nelle applicazioni di sicurezza, svolge un ruolo fondamentale nel rilevamento di intrusi in aree riservate, nel monitoraggio delle folle per individuare eventuali sovraffollamenti o comportamenti sospetti e nell'invio di avvisi in tempo reale quando vengono rilevate attività non autorizzate. Tenendo traccia degli oggetti mentre si muovono, i sistemi di tracciamento alimentati da YOLO11 migliorano la sicurezza, automatizzano il monitoraggio e consentono di reagire più rapidamente alle potenziali minacce.

Pro e contro del rilevamento degli oggetti

Ecco alcuni dei principali vantaggi che il rilevamento degli oggetti può apportare a vari settori:

  • Automazione: Il rilevamento degli oggetti può contribuire a ridurre la necessità di supervisione umana in attività come il monitoraggio dei filmati delle telecamere a circuito chiuso.
  • Funziona con altri modelli di intelligenza artificiale: Può essere integrato con il riconoscimento facciale, il riconoscimento delle azioni e i sistemi di tracciamento per migliorare la precisione e la funzionalità.
  • Elaborazione in tempo reale: Molti modelli di rilevamento degli oggetti, come YOLO11, sono veloci ed efficienti e sono quindi ideali per le applicazioni in tempo reale che richiedono risultati immediati. 

Se da un lato questi vantaggi evidenziano l'impatto del rilevamento degli oggetti sui diversi casi d'uso, dall'altro è importante considerare le sfide che comporta la sua implementazione. Ecco alcune delle sfide principali:

  • Privacy dei dati: L'uso di dati visivi, soprattutto in aree sensibili come la sorveglianza o l'assistenza sanitaria, può sollevare problemi di privacy e di sicurezza.
  • Occlusione: L'occlusione nel rilevamento degli oggetti si verifica quando questi sono parzialmente bloccati o nascosti alla vista, rendendo difficile per il modello rilevarli e classificarli con precisione.
  • Costoso dal punto di vista computazionale: i modelli ad alte prestazioni spesso richiedono potenti GPU (unità di elaborazione grafica) per l'elaborazione, rendendo costosa l'implementazione in tempo reale.

Punti di forza

Il rilevamento degli oggetti è uno strumento rivoluzionario della computer vision che aiuta le macchine a individuare e localizzare gli oggetti nelle immagini e nei video. Viene utilizzato in settori che vanno dalle auto a guida autonoma all'assistenza sanitaria, rendendo le attività più semplici, sicure ed efficienti. Con i modelli più recenti, come YOLO11, le aziende possono creare facilmente modelli di rilevamento degli oggetti personalizzati per creare applicazioni di computer vision specializzate. 

Anche se ci sono alcune sfide, come i problemi di privacy e gli oggetti nascosti alla vista, il rilevamento degli oggetti è una tecnologia affidabile. La sua capacità di automatizzare le attività, elaborare i dati visivi in tempo reale e integrarsi con altri strumenti di Vision AI la rende una parte essenziale delle innovazioni all'avanguardia.

Per saperne di più, visitate il nostro repository GitHub e partecipate alla nostra comunità. Esplorate le innovazioni in settori come l'IA nelle auto a guida autonoma e la computer vision in agricoltura sulle nostre pagine dedicate alle soluzioni. Scoprite le nostre opzioni di licenza yolo e date vita ai vostri progetti Vision AI. 🚀

Costruiamo insieme il futuro
dell'IA!

Iniziate il vostro viaggio nel futuro dell'apprendimento automatico

Iniziare gratuitamente
Link copiato negli appunti