Scoprite la velocità e l'efficienza dei rilevatori di oggetti a uno stadio come YOLO, ideali per applicazioni in tempo reale come la robotica e la sorveglianza.
I rilevatori di oggetti a uno stadio sono una categoria di modelli di modelli di apprendimento profondo (DL) ottimizzati per la velocità e l'efficienza efficienza nelle attività di computer vision (CV). A differenza dei a differenza dei rilevatori di oggetti a due stadi, che che separano il processo di rilevamento in fasi di proposta e classificazione delle regioni, le architetture a uno stadio eseguono il rilevamento di rilevamento degli oggetti in un unico passaggio di valutazione. Inquadrando il compito come inquadrando il compito come un problema di regressione diretta, questi modelli predicono e le probabilità di classe simultaneamente dalle immagini dalle immagini in ingresso. Questo approccio semplificato consente un'elaborazione significativamente più veloce, rendendoli la scelta preferenziale per le applicazioni che richiedono per le applicazioni che richiedono un'inferenza in di inferenza in tempo reale.
Il nucleo di un rilevatore a uno stadio è costituito da una rete neurale convoluzionale (CNN) che funge da spina dorsale per l'estrazione delle caratteristiche. La rete elabora l'intera l'intera immagine in una sola volta - da cui il nome "You Only Look Once" - creando una griglia di mappe di caratteristiche. Le prime architetture, come il Single Shot MultiBox Detector (SSD), si basavano su caselle di ancoraggio predefinite per gestire gli oggetti di ancoraggio predefiniti per gestire oggetti di varie scale. diverse scale. Tuttavia, le moderne iterazioni come Ultralytics YOLO11 hanno adottato in gran parte progetti privi di ancore per ridurre la complessità e per ridurre la complessità e migliorare la generalizzazione. L'output include tipicamente le coordinate per la localizzazione e un punteggio di confidenza punteggio di confidenza che indica la probabilità di presenza di un presenza di un oggetto.
La distinzione principale tra modelli a uno e a due stadi sta nel compromesso tra velocità e precisione. Le architetture a due stadi, come la famiglia R-CNN, offrono generalmente una precisione una maggiore precisione per gli oggetti piccoli o occlusi, ma comportano costi computazionali più elevati a causa del loro processo in più fasi. Al contrario, i rilevatori a un solo stadio privilegiano una bassa latenza di inferenza, consentendo l'implementazione su hardware con risorse limitate. I recenti progressi, tra cui l'evoluzione di YOLOv1 e l'evoluzione del prossimo YOLO26 (previsto per la fine del 2025), utilizzano l'addestramento end-to-end e funzioni di perdita avanzate per colmare il di precisione, spesso eguagliando o superando i modelli a due stadi.
L'efficienza dei rilevatori a uno stadio guida l'innovazione in numerosi settori in cui la reattività immediata è fondamentale. è fondamentale:
Per garantire risultati accurati, questi modelli spesso prevedono più box potenziali per un singolo oggetto. Tecniche di post-elaborazione tecniche come la soppressione non massimale (NMS) filtrano queste previsioni ridondanti basate su Intersezione su Unione (IoU) soglie. L'implementazione di un rivelatore a uno stadio è semplice con librerie moderne come PyTorch e il pacchetto Ultralytics Python .
L'esempio seguente mostra come eseguire l'inferenza utilizzando un modello YOLO11 pre-addestrato:
from ultralytics import YOLO
# Load the YOLO11 model, a state-of-the-art one-stage detector
model = YOLO("yolo11n.pt")
# Run inference on a local image or URL
results = model("https://ultralytics.com/images/bus.jpg")
# Display the detected objects with bounding boxes
results[0].show()