Scopri come i rilevatori basati su anchor rivoluzionano il rilevamento di oggetti con localizzazione precisa, adattabilità della scala e applicazioni reali.
I rilevatori basati su ancore sono una classe fondamentale di modelli utilizzati in computer vision (CV) per risolvere il problema del rilevamento degli oggetti. Questi sistemi si basano su un predefinito di caselle di delimitazione, note come di ancoraggio, che agiscono come modelli di riferimento su un'immagine. Invece di cercare di prevedere la posizione di un oggetto partendo da zero, la rete calcola quanto spostare e scalare questi ancoraggi fissi per adattarli agli oggetti della scena. Questo approccio converte essenzialmente il complesso compito di localizzazione in un problema di regressione strutturato, fornendo un punto di partenza stabile per l'apprendimento dei modelli di deep learning (DL). modelli di apprendimento profondo (DL) per apprendere gerarchie spaziali. gerarchie spaziali.
Il flusso di lavoro di un rilevatore basato sulle ancore prevede la generazione di una fitta griglia di ancore sull'immagine di input, ognuna delle quali ha una scala e un rapporto d'aspetto diversi per catturare oggetti di forme diverse. con scale e rapporti di aspetto diversi per catturare oggetti di dimensioni e forme diverse. Mentre l'immagine passa attraverso la modello, vengono estratte e analizzate le mappe di caratteristiche. Per ogni posizione di ancoraggio, la testa di rilevamento esegue due previsioni simultanee previsioni:
Durante l'addestramento del modello, gli algoritmi utilizzano una metrica chiamata Intersezione su Unione (IoU) per determinare per determinare quali ancore si sovrappongono sufficientemente agli oggetti noti. Solo le ancore con l'IoU più alto vengono trattate come campioni positivi. campioni positivi. Poiché questo processo genera migliaia di caselle candidate, una fase di post-elaborazione nota come soppressione non massimale (NMS) per rimuovere le per rimuovere le sovrapposizioni ridondanti e mantenere solo il rilevamento più accurato.
È importante distinguere questi modelli dalla moderna generazione di rivelatori senza rivelatori privi di ancore. Mentre i sistemi basati sulle ancore sistemi come l'originale Faster R-CNN e il Ultralytics YOLOv5 si affidano alla regolazione manuale delle dimensioni I modelli senza ancore predicono direttamente i centri degli oggetti o i punti chiave.
Nonostante l'avvento di metodi più recenti, i rilevatori basati su ancore rimangono prevalenti in molte pipeline consolidate in cui le forme degli oggetti sono coerenti e prevedibili. forme degli oggetti sono coerenti e prevedibili.
È possibile sperimentare facilmente il rilevamento degli oggetti utilizzando l'opzione ultralytics confezione. Anche se i modelli più recenti
sono privi di ancoraggio, il framework supporta una varietà di architetture. L'esempio seguente mostra come eseguire
su un'immagine utilizzando un modello pre-addestrato:
from ultralytics import YOLO
# Load a pre-trained object detection model
# Note: YOLOv5 is a classic example of an anchor-based architecture
model = YOLO("yolov5su.pt")
# Perform inference on a local image
results = model("path/to/image.jpg")
# Display the resulting bounding boxes and class labels
results[0].show()
La comprensione della meccanica dei rilevatori basati su ancore fornisce una solida base per comprendere l'evoluzione della computer vision e le scelte progettuali alla base della della computer vision e le scelte progettuali alla base di algoritmi avanzati come YOLO11 e le future iterazioni come YOLO26.