Bounding Box
Impara come i bounding box definiscono le posizioni degli oggetti nella computer vision. Esplora i formati delle coordinate, le applicazioni reali e come usare Ultralytics YOLO26.
Una bounding box è un'area rettangolare definita da un insieme di coordinate che racchiude un oggetto specifico all'interno di un'immagine o di un fotogramma video. Nel campo della computer vision (CV), queste caselle fungono da annotazioni fondamentali per insegnare ai sistemi di artificial intelligence (AI) come localizzare e riconoscere singoli elementi. Invece di limitarsi a classificare un'intera immagine come "contenente un'auto", una bounding box consente a un modello di individuare l'esatta posizione e l'estensione spaziale dell'auto, separandola dallo sfondo e da altre entità. Questa capacità di localizzazione è essenziale per le attività di object detection, in cui l'obiettivo è identificare più oggetti simultaneamente con alta precisione.
Link to this sectionConcetti chiave e coordinate#
Per elaborare i dati visivi in modo efficace, i modelli di machine learning (ML) si affidano a specifici sistemi di coordinate per rappresentare matematicamente le bounding box. Il formato scelto spesso determina come i dati vengono preparati per il model training e come il modello fornisce le proprie previsioni.
- Coordinate XYXY: Questo formato definisce una casella utilizzando i valori assoluti dei pixel dell'angolo in alto a sinistra e dell'angolo in basso a destra. È intuitivo per strumenti di visualizzazione come OpenCV o Matplotlib quando si disegnano rettangoli direttamente sulle immagini.
- Formato XYWH: Comune in dataset come COCO, questo metodo specifica il punto centrale dell'oggetto seguito dalla larghezza e dall'altezza della casella. Questa rappresentazione è fondamentale per calcolare le loss functions durante il processo di apprendimento.
- Coordinate normalizzate: Per garantire la scalability su immagini con risoluzioni diverse, le coordinate vengono spesso ridimensionate in un intervallo compreso tra 0 e 1. Ciò aiuta i modelli a generalizzare meglio quando analizzano input di dimensioni variabili.
Link to this sectionApplicazioni nel mondo reale#
Le bounding box sono i mattoni fondamentali per innumerevoli soluzioni di AI in svariati settori. Abilitando una localizzazione precisa, consentono ai sistemi di interagire in modo intelligente con il mondo fisico.
- Veicoli autonomi: Le auto a guida autonoma utilizzano le bounding box per rilevare e tracciare pedoni, altri veicoli, segnali stradali e ostacoli in tempo reale. Questa consapevolezza spaziale è cruciale affinché i sistemi di navigazione e sicurezza possano prendere decisioni in frazioni di secondo.
- Retail Analytics: Nei negozi intelligenti, le bounding box aiutano a monitorare l'inventario sugli scaffali e a tracciare le interazioni dei clienti con i prodotti. Questi dati possono automatizzare il rifornimento delle scorte e fornire approfondimenti sul comportamento degli acquirenti senza conteggi manuali.
Link to this sectionLe bounding box in azione#
Quando utilizzi architetture moderne come YOLO26, il modello prevede le bounding box insieme a un'etichetta di classe e a un confidence score. Il seguente esempio mostra come eseguire l'inferenza su un'immagine e accedere alle coordinate delle bounding box utilizzando il pacchetto ultralytics.
from ultralytics import YOLO
# Load the YOLO26 model
model = YOLO("yolo26n.pt")
# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Access bounding box coordinates (xyxy format) for the first detected object
boxes = results[0].boxes
print(boxes.xyxy[0]) # Output: tensor([x1, y1, x2, y2, ...])Link to this sectionTermini correlati e differenziazione#
Sebbene le bounding box siano standard per il rilevamento generale, si distinguono da altri tipi di annotazione utilizzati in attività più granulari.
- Instance Segmentation: A differenza di una bounding box rettangolare, la segmentazione crea una maschera pixel-perfect che traccia l'esatto contorno di un oggetto. Questo è utile quando la forma precisa è più importante della posizione generale.
- Oriented Bounding Box (OBB): Le bounding box standard sono allineate agli assi (rettangoli verticali). Le OBB possono ruotare per adattarsi a oggetti inclinati, come navi in immagini satellitari o pacchi su un nastro trasportatore, fornendo una corrispondenza più stretta e riducendo il rumore di fondo.
- Keypoints: Invece di racchiudere un oggetto, i keypoint identificano punti di riferimento specifici, come le articolazioni sul corpo umano per la pose estimation.
Link to this sectionStrumenti per l'annotazione e la gestione#
La creazione di annotazioni bounding box di alta qualità è un passaggio critico nella pipeline di ML. La Ultralytics Platform semplifica questo processo offrendo strumenti per la data annotation e la gestione dei dataset. Un'annotazione corretta garantisce che i modelli imparino a distinguere gli oggetti con precisione, riducendo al minimo errori come l'overfitting o la confusione con lo sfondo. Tecniche avanzate come la Non-Maximum Suppression (NMS) vengono utilizzate durante l'inferenza per affinare queste previsioni rimuovendo le caselle sovrapposte, assicurando che rimanga solo il rilevamento più accurato per ogni oggetto.






