Sintonizzati su YOLO Vision 2025!
25 settembre 2025
10:00 — 18:00 BST
Evento ibrido
Yolo Vision 2024

Una guida per approfondire l'object detection nel 2025

Abirami Vina

6 minuti di lettura

6 febbraio 2025

Scopri l'object detection, la sua importanza nell'IA e come modelli come YOLO11 stanno trasformando settori come le auto a guida autonoma, la sanità e la sicurezza.

Molte industrie stanno rapidamente integrando soluzioni di intelligenza artificiale (IA) nelle loro operazioni. Tra le numerose tecnologie di IA disponibili oggi, la computer vision è una delle più popolari. La computer vision è una branca dell'IA che aiuta i computer a vedere e comprendere il contenuto di immagini e video, proprio come fanno gli umani. Rende possibile alle macchine riconoscere oggetti, identificare modelli e dare un senso a ciò che stanno guardando. 

Si stima che il valore del mercato globale della computer vision raggiungerà i 175,72 miliardi di dollari entro il 2032. La computer vision comprende diverse attività che consentono ai sistemi di Vision AI di analizzare e interpretare i dati visivi. Una delle attività più utilizzate ed essenziali della computer vision è il rilevamento di oggetti. 

Il rilevamento di oggetti si concentra sulla localizzazione e classificazione di oggetti nei dati visivi. Ad esempio, se si mostra a un computer l'immagine di una mucca, questo può rilevare la mucca e disegnare un riquadro di delimitazione attorno ad essa. Questa capacità è utile in applicazioni reali come il monitoraggio degli animali, le auto a guida autonoma e la sorveglianza. 

Quindi, come si può eseguire il rilevamento di oggetti? Un modo è attraverso modelli di computer vision. Ad esempio, Ultralytics YOLO11 è un modello di computer vision che supporta attività di computer vision come il rilevamento di oggetti. 

In questa guida, esploreremo il rilevamento di oggetti e il suo funzionamento. Discuteremo anche alcune applicazioni reali del rilevamento di oggetti e di Ultralytics YOLO11.

__wf_reserved_inherit
Fig. 1. Utilizzo del supporto di YOLO11 per il rilevamento di oggetti per monitorare il bestiame.

Cos'è il rilevamento di oggetti? 

Il rilevamento di oggetti è un'attività di computer vision che identifica e localizza oggetti in immagini o video. Risponde a due domande chiave: 'Quali oggetti sono presenti nell'immagine?' e 'Dove sono localizzati?'

Si può pensare al rilevamento di oggetti come a un processo che prevede due fasi fondamentali. La prima, la classificazione degli oggetti, consente al sistema di riconoscere ed etichettare gli oggetti, come l'identificazione di un gatto, un'auto o una persona in base a modelli appresi. La seconda, la localizzazione, determina la posizione dell'oggetto disegnando un riquadro di delimitazione attorno ad esso, indicando dove appare nell'immagine. Insieme, queste fasi consentono alle macchine di rilevare e comprendere gli oggetti in una scena.

L'aspetto del rilevamento di oggetti che lo rende unico è la sua capacità di riconoscere gli oggetti e individuarne la posizione con precisione. Altre attività di computer vision si concentrano su obiettivi diversi.

Ad esempio, la classificazione delle immagini assegna un'etichetta a un'intera immagine. Nel frattempo, la segmentazione delle immagini fornisce una comprensione a livello di pixel dei diversi elementi. D'altra parte, il rilevamento di oggetti combina il riconoscimento con la localizzazione. Questo lo rende particolarmente utile per attività come il conteggio di più oggetti in tempo reale.

__wf_reserved_inherit
Fig. 2. Confronto tra attività di computer vision.

Riconoscimento oggetti vs. rilevamento oggetti

Esplorando i vari termini della computer vision, si potrebbe pensare che il riconoscimento degli oggetti e il rilevamento degli oggetti siano intercambiabili, ma hanno scopi diversi. Un ottimo modo per capire la differenza è osservare il rilevamento dei volti e il riconoscimento facciale.

Il rilevamento dei volti è un tipo di rilevamento di oggetti. Identifica la presenza di un volto in un'immagine e ne contrassegna la posizione utilizzando un riquadro di delimitazione. Risponde alla domanda: "Dov'è il volto nell'immagine?". Questa tecnologia è comunemente utilizzata nelle fotocamere degli smartphone che mettono automaticamente a fuoco i volti o nelle telecamere di sicurezza che rilevano la presenza di una persona.

Il riconoscimento facciale, d'altra parte, è una forma di riconoscimento di oggetti. Non si limita a rilevare un volto, ma identifica di chi è il volto analizzando caratteristiche uniche e confrontandole con un database. Risponde alla domanda: "Chi è questa persona?". Questa è la tecnologia alla base dello sblocco del telefono con Face ID o dei sistemi di sicurezza aeroportuali che verificano l'identità.

In parole semplici, il rilevamento di oggetti trova e localizza gli oggetti, mentre il riconoscimento di oggetti li classifica e li identifica. 

__wf_reserved_inherit
Fig. 3. Rilevamento oggetti vs. riconoscimento oggetti. Immagine dell'autore.

Molti modelli di rilevamento di oggetti, come YOLO11, sono progettati per supportare il rilevamento dei volti ma non il riconoscimento facciale. YOLO11 può identificare efficacemente la presenza di un volto in un'immagine e disegnare un riquadro di delimitazione attorno ad esso, rendendolo utile per applicazioni come i sistemi di sorveglianza, il monitoraggio della folla e il tagging automatico delle foto. Tuttavia, non può determinare di chi è il volto. YOLO11 può essere integrato con modelli specificamente addestrati per il riconoscimento facciale, come Facenet o DeepFace, per consentire sia il rilevamento che l'identificazione in un unico sistema.

Capire come funziona il rilevamento di oggetti

Prima di discutere di come funziona il rilevamento di oggetti, diamo prima un'occhiata più da vicino a come un computer analizza un'immagine. Invece di vedere un'immagine come noi, un computer la suddivide in una griglia di piccoli quadrati chiamati pixel. Ogni pixel contiene informazioni sul colore e sulla luminosità che i computer possono elaborare per interpretare i dati visivi.

Per dare un senso a questi pixel, gli algoritmi li raggruppano in regioni significative in base alla forma, al colore e alla loro vicinanza reciproca. I modelli di rilevamento di oggetti, come YOLO11, possono riconoscere modelli o caratteristiche in questi gruppi di pixel. 

Ad esempio, un'auto a guida autonoma non vede un pedone come lo vediamo noi: rileva forme e modelli che corrispondono alle caratteristiche di un pedone. Questi modelli si basano su un ampio addestramento con dataset di immagini etichettati, che consente loro di apprendere le caratteristiche distintive di oggetti come auto, segnali stradali e persone.

Un tipico modello di rilevamento di oggetti ha tre parti fondamentali: backbone, neck e head. Il backbone estrae caratteristiche importanti da un'immagine. Il neck elabora e affina queste caratteristiche, mentre la head è responsabile della previsione delle posizioni degli oggetti e della loro classificazione.

Affinare i rilevamenti e presentare i risultati

Una volta effettuati i rilevamenti iniziali, vengono applicate tecniche di post-elaborazione per migliorare la precisione e filtrare le previsioni ridondanti. Ad esempio, i riquadri di delimitazione sovrapposti vengono rimossi, garantendo che vengano conservati solo i rilevamenti più rilevanti. Inoltre, a ogni oggetto rilevato vengono assegnati punteggi di confidenza (valori numerici che rappresentano quanto il modello è sicuro che un oggetto rilevato appartenga a una determinata classe) per indicare la certezza del modello nelle sue previsioni.

Infine, l'output viene presentato con dei riquadri di delimitazione disegnati attorno agli oggetti rilevati, insieme alle etichette di classe previste e ai punteggi di confidenza. Questi risultati possono quindi essere utilizzati per applicazioni nel mondo reale.

Modelli di object detection più diffusi 

Oggigiorno, sono disponibili molti modelli di computer vision, e alcuni dei più popolari sono i modelli YOLO di Ultralytics. Sono noti per la loro velocità, accuratezza e versatilità. Nel corso degli anni, questi modelli sono diventati più veloci, più precisi e capaci di gestire una gamma più ampia di attività. Il rilascio di Ultralytics YOLOv5 ha reso più semplice l'implementazione con framework come PyTorch, consentendo a più persone di utilizzare l'AI visiva avanzata senza la necessità di una profonda competenza tecnica.

Basandosi su queste fondamenta, Ultralytics YOLOv8 ha introdotto nuove funzionalità come la segmentazione delle istanze, la stima della posa e la classificazione delle immagini. Ora, YOLO11 sta portando le cose ancora oltre con prestazioni migliori in diverse attività. Con il 22% in meno di parametri rispetto a YOLOv8m, YOLO11m raggiunge una precisione media superiore (mAP) sul dataset COCO. In termini semplici, YOLO11 è in grado di riconoscere gli oggetti con maggiore precisione utilizzando meno risorse, rendendolo più veloce e affidabile.

Che tu sia un esperto di AI o un principiante, YOLO11 offre una soluzione potente ma facile da usare per le applicazioni di computer vision.

Addestramento personalizzato di un modello per l'object detection

L'addestramento di modelli di AI visiva implica l'aiuto ai computer per riconoscere e comprendere immagini e video. Tuttavia, l'addestramento può essere un processo lungo. Invece di partire da zero, il transfer learning velocizza le cose utilizzando modelli pre-addestrati che già riconoscono schemi comuni.

Ad esempio, YOLO11 è già stato addestrato sul dataset COCO, che contiene un insieme diversificato di oggetti di uso quotidiano. Questo modello pre-addestrato può essere ulteriormente addestrato in modo personalizzato per rilevare oggetti specifici che potrebbero non essere inclusi nel dataset originale. 

Per addestrare in modo personalizzato YOLO11, è necessario un dataset etichettato che contenga immagini degli oggetti che si desidera rilevare. Ad esempio, se si desidera creare un modello per identificare diversi tipi di frutta in un negozio di alimentari, si creerebbe un dataset con immagini etichettate di mele, banane, arance, ecc. Una volta preparato il dataset, YOLO11 può essere addestrato, regolando parametri come la dimensione del batch, il tasso di apprendimento e le epoche per ottimizzare le prestazioni.

Con questo approccio, le aziende possono addestrare YOLO11 per rilevare qualsiasi cosa, dai componenti difettosi nella produzione alle specie selvatiche nei progetti di conservazione, adattando il modello alle loro esigenze specifiche.

Applicazioni dell'object detection

Successivamente, diamo un'occhiata ad alcuni dei casi d'uso reali dell'object detection e a come sta trasformando vari settori.

Rilevamento di pericoli per la guida autonoma

Le auto a guida autonoma utilizzano attività di computer vision come l'object detection per navigare in sicurezza ed evitare ostacoli. Questa tecnologia le aiuta a riconoscere pedoni, altri veicoli, buche e pericoli stradali, consentendo loro di comprendere meglio l'ambiente circostante. Possono prendere decisioni rapide e muoversi in sicurezza nel traffico analizzando costantemente il loro ambiente.

__wf_reserved_inherit
Fig. 4. Un esempio di utilizzo dell'object detection per rilevare buche con YOLO11.

Analisi di immagini mediche nel settore sanitario

Le tecniche di imaging medicale come radiografie, risonanze magnetiche, TAC ed ecografie creano immagini molto dettagliate del corpo umano per aiutare a diagnosticare e curare le malattie. Queste scansioni producono grandi quantità di dati che i medici, come radiologi e patologi, devono analizzare attentamente per rilevare le malattie. Tuttavia, la revisione dettagliata di ogni immagine può richiedere molto tempo e gli esperti umani possono a volte perdere dettagli a causa della fatica o dei limiti di tempo.

I modelli di object detection come YOLO11 possono assistere identificando automaticamente le caratteristiche chiave nelle scansioni mediche, come organi, tumori o anomalie, con elevata precisione. I modelli addestrati in modo personalizzato possono evidenziare le aree di interesse con dei riquadri di delimitazione, aiutando i medici a concentrarsi più rapidamente sui potenziali problemi. Ciò riduce il carico di lavoro, migliora l'efficienza e fornisce informazioni rapide.

__wf_reserved_inherit
Fig. 5. Analisi di immagini mediche con YOLO11.

Aumento della sicurezza con il rilevamento di persone e anomalie

L'object tracking è un'attività di computer vision supportata da YOLO11, che consente il monitoraggio in tempo reale e il miglioramento della sicurezza. Si basa sull'object detection identificando gli oggetti e tracciando continuamente il loro movimento attraverso i fotogrammi. Questa tecnologia è ampiamente utilizzata nei sistemi di sorveglianza per migliorare la sicurezza in vari ambienti.

Ad esempio, nelle scuole e negli asili nido, l'object tracking può aiutare a monitorare i bambini e a impedire che si allontanino. Nelle applicazioni di sicurezza, svolge un ruolo chiave nel rilevare gli intrusi in aree riservate, nel monitorare le folle per il sovraffollamento o comportamenti sospetti e nell'invio di avvisi in tempo reale quando viene rilevata un'attività non autorizzata. Tenendo traccia degli oggetti mentre si muovono, i sistemi di tracciamento basati su YOLO11 migliorano la sicurezza, automatizzano il monitoraggio e consentono risposte più rapide a potenziali minacce.

Pro e contro dell'object detection

Ecco alcuni dei principali vantaggi che l'object detection può apportare a vari settori:

  • Automazione: L'object detection può aiutare a ridurre la necessità di supervisione umana in attività come il monitoraggio di filmati CCTV.
  • Funziona con altri modelli di IA: Può essere integrato con sistemi di riconoscimento facciale, riconoscimento delle azioni e tracciamento per migliorare precisione e funzionalità.
  • Elaborazione in tempo reale: Molti modelli di object detection, come YOLO11, sono veloci ed efficienti, il che li rende ideali per applicazioni in tempo reale che richiedono risultati immediati. 

Sebbene questi vantaggi evidenzino l'impatto dell'object detection in diversi casi d'uso, è importante considerare anche le sfide legate alla sua implementazione. Ecco alcune delle sfide principali:

  • Privacy dei dati: L'uso di dati visivi, specialmente in aree sensibili come la sorveglianza o la sanità, può sollevare problemi di privacy e preoccupazioni per la sicurezza.
  • Occlusione: L'occlusione nell'object detection si verifica quando gli oggetti sono parzialmente bloccati o nascosti alla vista, rendendo difficile per il modello rilevarli e classificarli accuratamente.
  • Costoso in termini di calcolo: I modelli ad alte prestazioni spesso richiedono potenti GPU (Graphics Processing Units) per l'elaborazione, rendendo costosa l'implementazione in tempo reale.

Punti chiave

L'object detection è uno strumento rivoluzionario nella computer vision che aiuta le macchine a rilevare e localizzare oggetti in immagini e video. Viene utilizzato in settori che vanno dalle auto a guida autonoma all'assistenza sanitaria, rendendo le attività più facili, sicure ed efficienti. Con i modelli più recenti come YOLO11, le aziende possono creare facilmente modelli di object detection personalizzati per sviluppare applicazioni specializzate di computer vision. 

Nonostante alcune sfide, come i problemi di privacy e gli oggetti nascosti alla vista, l'object detection è una tecnologia affidabile. La sua capacità di automatizzare le attività, elaborare dati visivi in tempo reale e integrarsi con altri strumenti di Vision AI la rende una parte essenziale delle innovazioni all'avanguardia.

Per saperne di più, visita il nostro repository GitHub e interagisci con la nostra community. Esplora le innovazioni in settori come l'IA nelle auto a guida autonoma e la computer vision in agricoltura nelle nostre pagine delle soluzioni. Dai un'occhiata alle nostre opzioni di licenza YOLO e dai vita ai tuoi progetti di Vision AI. 🚀

Costruiamo insieme il futuro
dell'AI!

Inizia il tuo viaggio con il futuro del machine learning

Inizia gratis
Link copiato negli appunti