Yolo Vision Shenzhen
Shenzhen
Iscriviti ora
Glossario

Bounding Box

Scopri come i riquadri di delimitazione definiscono la posizione degli oggetti nella visione artificiale. Esplora i formati delle coordinate, le applicazioni nel mondo reale e come utilizzare Ultralytics .

Un riquadro di delimitazione è una regione rettangolare definita da un insieme di coordinate che racchiude un oggetto specifico all'interno di un'immagine o di un fotogramma video. Nel campo della visione artificiale (CV), questi riquadri fungono da annotazioni fondamentali per insegnare ai sistemi di intelligenza artificiale (AI) come individuare e riconoscere elementi distinti. Anziché classificare semplicemente un'intera immagine come "contenente un' auto", un riquadro di delimitazione consente a un modello di individuare la posizione esatta e l'estensione spaziale dell'auto, separandola dallo sfondo e da altre entità. Questa capacità di localizzazione è essenziale per le attività di rilevamento degli oggetti, dove l'obiettivo è quello di identificare più oggetti contemporaneamente con elevata precisione.

Concetti fondamentali e coordinate

Per elaborare i dati visivi in modo efficace, i modelli di machine learning (ML) si basano su specifici sistemi di coordinate per rappresentare matematicamente i riquadri di delimitazione. Il formato scelto spesso determina il modo in cui i dati vengono preparati per l'addestramento del modello e il modo in cui il modello produce le sue previsioni.

  • Coordinate XYXY: questo formato definisce un riquadro utilizzando i valori assoluti in pixel dell'angolo superiore sinistro e dell'angolo inferiore destro. È intuitivo per strumenti di visualizzazione come OpenCV o Matplotlib quando si disegnano rettangoli direttamente sulle immagini.
  • Formato XYWH: Comune in set di dati come COCO, questo metodo specifica il punto centrale dell'oggetto seguito dalla larghezza e dall'altezza del riquadro. Questa rappresentazione è fondamentale per calcolare le funzioni di perdita durante il processo di apprendimento .
  • Coordinate normalizzate: Per garantire la scalabilità tra immagini con risoluzioni diverse , le coordinate vengono spesso ridimensionate in un intervallo compreso tra 0 e 1. Ciò aiuta i modelli a generalizzare meglio durante l' analisi di input di dimensioni variabili.

Applicazioni nel mondo reale

I bounding box sono gli elementi costitutivi di innumerevoli soluzioni di IA in diversi settori. Consentendo una localizzazione precisa , permettono ai sistemi di interagire in modo intelligente con il mondo fisico.

  • Veicoli autonomi: Le auto a guida autonoma utilizzano i bounding box per detect track in tempo reale track , altri veicoli, segnali stradali e ostacoli. Questa consapevolezza spaziale è fondamentale per consentire ai sistemi di navigazione e sicurezza di prendere decisioni in frazioni di secondo.
  • Analisi dei dati di vendita al dettaglio: nei negozi intelligenti, i bounding box aiutano a monitorare le scorte sugli scaffali e track le interazioni track con i prodotti. Questi dati possono automatizzare il rifornimento delle scorte e fornire informazioni sul comportamento degli acquirenti senza necessità di conteggi manuali.

Riquadri di delimitazione in azione

Quando si utilizzano architetture moderne come YOLO26, il modello prevede i riquadri di delimitazione insieme a un'etichetta di classe e un punteggio di fiducia. L'esempio seguente mostra come eseguire l'inferenza su un'immagine e accedere alle coordinate del riquadro di delimitazione utilizzando il ultralytics pacchetto.

from ultralytics import YOLO

# Load the YOLO26 model
model = YOLO("yolo26n.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Access bounding box coordinates (xyxy format) for the first detected object
boxes = results[0].boxes
print(boxes.xyxy[0])  # Output: tensor([x1, y1, x2, y2, ...])

Termini correlati e differenziazione

Sebbene i riquadri di delimitazione siano standard per il rilevamento generale, sono distinti da altri tipi di annotazione utilizzati in attività più granulari.

  • Segmentazione delle istanze: A differenza di un riquadro di delimitazione rettangolare, la segmentazione crea una maschera pixel-perfect che traccia il contorno esatto di un oggetto. Ciò è utile quando la forma precisa è più importante della posizione generale.
  • Oriented Bounding Box (OBB): I riquadri di delimitazione standard sono allineati agli assi (rettangoli verticali). Gli OBB possono ruotare per adattarsi a oggetti angolati, come navi nelle immagini satellitari o pacchi su un nastro trasportatore, fornendo un adattamento più preciso e riducendo il rumore di fondo.
  • Punti chiave: invece di racchiudere un oggetto, i punti chiave identificano punti di riferimento specifici, come le articolazioni del corpo umano per la stima della posa.

Strumenti per l'annotazione e la gestione

La creazione di annotazioni di bounding box di alta qualità è un passaggio fondamentale nella pipeline ML. Ultralytics semplifica questo processo offrendo strumenti per l' annotazione dei dati e la gestione dei set di dati. Una corretta annotazione garantisce che i modelli imparino a distinguere gli oggetti in modo accurato, riducendo al minimo errori quali l' overfitting o la confusione dello sfondo. Tecniche avanzate come la soppressione non massima (NMS) vengono utilizzate durante l'inferenza per affinare queste previsioni rimuovendo i riquadri sovrapposti, assicurando che rimanga solo il rilevamento più accurato per ogni oggetto.

Unitevi alla comunità di Ultralytics

Entra nel futuro dell'AI. Connettiti, collabora e cresci con innovatori globali

Iscriviti ora