Scoprite come le scatole di ancoraggio consentono il rilevamento di oggetti basati sulle ancore, i priori per la classificazione, la regressione e l'NMS, con applicazioni nella guida autonoma e nella vendita al dettaglio.
I riquadri di ancoraggio sono un concetto fondamentale nell'architettura di molti modelli di rilevamento degli oggetti, agendo come riferimenti predefiniti per prevedere la posizione e le dimensioni degli oggetti. Piuttosto che scansionare un'immagine alla ricerca di oggetti di dimensioni arbitrarie dimensioni arbitrarie, il modello utilizza queste forme fisse, definite da altezze e larghezze specifiche, come punti di partenza, o priori. Questo approccio semplifica il processo di apprendimento, trasformando l'impegnativo compito di predizione delle coordinate assolute in una più facile regressione. di predizione delle coordinate assolute in un problema di regressione più gestibile, in cui la rete impara a regolare, o "sfalsare", questi modelli per adattarli agli oggetti reali. modelli per adattarli agli oggetti reali. Questa tecnica questa tecnica è stata fondamentale per il successo di architetture popolari come la famiglia Faster R-CNN e dei primi rilevatori a singolo stadio.
Il meccanismo delle caselle di ancoraggio consiste nel rivestire l'immagine di input con una fitta griglia di centri. In ogni cella della griglia, di ancoraggio multipli con rapporti di aspetto e scala variabili di dimensioni e scale diverse, per accogliere oggetti di forme diverse, come pedoni alti o veicoli larghi. Durante la fase di fase di addestramento del modello, il sistema fa corrispondere questi ancoraggi agli oggetti oggetti reali utilizzando una metrica chiamata Intersezione su Unione (IoU). Le ancore che si sovrappongono in modo significativo a un oggetto target vengono etichettati come campioni positivi.
La struttura portante del rilevatore estrae le caratteristiche dall'immagine, che la testa di rilevamento utilizza per eseguire due compiti paralleli per ogni ancoraggio positivo:
Per gestire la sovrapposizione delle previsioni per lo stesso oggetto, una fase di post-elaborazione nota come soppressione non massimale (NMS) filtra filtri le caselle ridondanti, conservando solo quella con la massima confidenza. Quadri come PyTorch e TensorFlow forniscono gli strumenti di calcolo necessari per implementare queste operazioni complesse in modo efficiente.
Per comprendere le caselle di ancoraggio è necessario distinguerle da termini simili nell'ambito della visione artificiale (CV).
La natura strutturata dei riquadri di ancoraggio li rende particolarmente efficaci in ambienti dove le forme degli oggetti sono coerenti e prevedibili.
Mentre i modelli moderni, come YOLO11 , sono privi di ancore, le versioni precedenti, come YOLOv5 , utilizzano scatole di ancoraggio. Il
ultralytics astrae questa complessità, consentendo agli utenti di eseguire l'inferenza senza configurare manualmente gli ancoraggi.
configurare gli ancoraggi. L'esempio seguente mostra il caricamento di un modello pre-addestrato per detect gli oggetti:
from ultralytics import YOLO
# Load a pretrained YOLOv5 model (anchor-based architecture)
model = YOLO("yolov5su.pt")
# Run inference on a static image from the web
results = model("https://ultralytics.com/images/bus.jpg")
# Display the detected bounding boxes
results[0].show()
Per chi è interessato ai fondamenti matematici di questi sistemi, piattaforme educative come Coursera e DeepLearning.AI offrono corsi approfonditi sulle reti neurali convoluzionali e sul rilevamento degli oggetti.