Architetture di rilevamento oggetti
Scopri la potenza delle architetture di object detection, la spina dorsale dell'AI per la comprensione delle immagini. Scopri tipi, strumenti e applicazioni reali oggi stesso!
Le architetture per il rilevamento degli oggetti servono come struttura per
modelli di apprendimento profondo progettati per localizzare e
identificare oggetti distinti all'interno dei dati visivi. A differenza della classificazione
classificazione delle immagini, che assegna una singola
etichetta a un'intera immagine, queste architetture consentono alle macchine di riconoscere più entità, definendo la loro precisa
posizione precisa con un riquadro di delimitazione e assegnando a ciascuna un'etichetta specifica
classe a ciascuna di esse. L'architettura detta effettivamente il modo in cui la rete neurale elabora i dati dei pixel per ottenere
significativi, influenzando direttamente l'accuratezza del modello,
velocità e l'efficienza computazionale del modello.
Componenti chiave delle architetture di rilevamento
La maggior parte dei moderni sistemi di rilevamento si basa su un design modulare che comprende tre fasi principali. La comprensione di questi componenti
aiuta i ricercatori e gli ingegneri a scegliere lo strumento giusto per compiti che vanno dall'analisi delle immagini
analisi delle immagini mediche all'automazione industriale.
automazione industriale.
-
La spina dorsale: È la parte iniziale della rete, responsabile dell'estrazione delle caratteristiche. È
tipicamente una
rete neurale convoluzionale (CNN)
che elabora l'immagine grezza per identificare modelli come bordi, texture e forme. Le più diffuse sono
Reti residue (ResNet) e le reti Cross
Partial (CSP) utilizzate nei modelli YOLO . Per una comprensione più approfondita dell'estrazione delle caratteristiche, è possibile consultare il corso di
Gli appunti di CS231n dell'Università di Stanford.
-
Il collo: Posizionato tra la spina dorsale e la testa, il collo aggrega mappe di caratteristiche da
diversi stadi. Ciò consente al modello di detect oggetti a varie scale (piccola, media e grande). Una tecnica comune
tecnica utilizzata in questo caso è la
Feature Pyramid Network (FPN), che crea una rappresentazione
crea una rappresentazione multiscala dell'immagine.
-
Testa di rilevamento: il componente finale è la testa di
testa di rilevamento, che genera le predizioni
predizioni finali. Fornisce le coordinate specifiche per i riquadri di delimitazione e i punteggi di confidenza per ogni classe.
punteggi di confidenza per ogni classe.
Tipi di architetture
Le architetture sono generalmente classificate in base al loro approccio di elaborazione, che spesso rappresenta un compromesso fra
velocità di inferenza e precisione di rilevamento.
Rivelatori a uno o a due stadi
-
Rilevatori di oggetti a due stadi:
Questi modelli, come la famiglia R-CNN, operano in due fasi distinte: prima generano proposte di regioni (aree in cui potrebbe esistere un oggetto) e poi classificano tali regioni.
in cui potrebbe esistere un oggetto) e poi classificano tali regioni. Sebbene siano storicamente noti per la loro elevata precisione, sono
sono intensivi dal punto di vista computazionale. È possibile leggere il documento originale
Faster R-CNN per capire le radici di questo approccio.
-
Rivelatori di oggetti a uno stadio:
Architetture come la Ultralytics YOLO trattano il rilevamento come un
un singolo problema di regressione, prevedendo i riquadri di delimitazione e le probabilità di classe direttamente dall'immagine in un unico passaggio.
Questa struttura consente l'inferenza in tempo reale,
in tempo reale, rendendola ideale per i flussi video e i dispositivi edge.
Basato su ancore e senza ancore
Le architetture più vecchie si affidavano spesso a
forme predefiniteche il modello tenta di adattare agli oggetti.
di adattarsi agli oggetti. Tuttavia, i moderni
rivelatori privi di ancoraggi, come
YOLO11eliminano la regolazione manuale degli iperparametri. Ciò si traduce in una pipeline di addestramento semplificata
e una migliore generalizzazione. In prospettiva, i prossimi progetti di ricerca e sviluppo, come YOLO26, mirano a perfezionare ulteriormente i concetti di
perfezionare questi concetti anchor-free, puntando ad architetture nativamente end-to-end per un'efficienza ancora maggiore.
Applicazioni nel mondo reale
La versatilità delle architetture di rilevamento degli oggetti è alla base dell'innovazione in molti settori:
-
Veicoli autonomi:
Le auto a guida autonoma utilizzano architetture ad alta velocità per detect pedoni, segnali stradali e altri veicoli in tempo reale.
in tempo reale. Aziende come Waymo sfruttano questi sistemi di visione avanzati per navigare in modo
ambienti urbani complessi in modo sicuro.
-
Analitica del commercio al dettaglio: Nel settore della vendita al dettaglio, vengono utilizzate architetture per
supermercati intelligenti
per gestire l'inventario e analizzare il comportamento dei clienti. Tracciando i movimenti dei prodotti sugli scaffali, i negozi possono automatizzare i processi di rifornimento.
processi di rifornimento.
-
Agricoltura di precisione: Gli agricoltori utilizzano questi modelli per
AI in agricoltura per identificare le malattie delle colture o
individuare automaticamente le erbe infestanti, riducendo in modo significativo l'uso di prodotti chimici.
Implementazione del rilevamento degli oggetti
L'utilizzo di un'architettura moderna come YOLO11 è semplice grazie alle API Python di alto livello. Il seguente esempio
mostra come caricare un modello pre-addestrato ed eseguire l'inferenza su un'immagine.
from ultralytics import YOLO
# Load the YOLO11n model (nano version for speed)
model = YOLO("yolo11n.pt")
# Perform object detection on a remote image
results = model("https://ultralytics.com/images/bus.jpg")
# Display the results (bounding boxes and labels)
results[0].show()
Per coloro che sono interessati a confrontare l'impatto delle diverse scelte architettoniche sulle prestazioni, è possibile esplorare il confronto dettagliato dei modelli
modelli di confronto per vedere i benchmark tra YOLO11 e altri sistemi come
sistemi come RT-DETR. Inoltre, la comprensione di metriche
come l'Intersezione rispetto all'Unione (IoU) è
è fondamentale per valutare quanto un'architettura svolga bene il suo compito.