Yolo Vision Shenzhen
Shenzhen
Iscriviti ora
Glossario

Detection Head

Scopri il ruolo fondamentale delle detection head nell'object detection, perfezionando le feature map per individuare con precisione le posizioni e le classi degli oggetti.

La testa di rilevamento è il componente finale e forse più critico di un modello di rilevamento di oggetti, in quanto funge da strato decisionale che traduce le caratteristiche codificate dell'immagine in previsioni attuabili. decisionale che traduce le caratteristiche codificate dell'immagine in previsioni attuabili. Si trova alla fine di una rete rete neurale di apprendimento profondo, in particolare dopo la dorsale e il collo, la testa di rilevamento elabora mappe di caratteristiche di alto livello per produrre l'output finale: la mappe di caratteristiche di alto livello per produrre l'output finale: la classe dell'oggetto e la sua posizione precisa all'interno dell'immagine. dell'oggetto e la sua posizione precisa all'interno dell'immagine. Mentre i primi livelli della rete si concentrano sull'estrazione delle caratteristiche. identificazione di bordi, trame e schemi complessi, la testa di rilevamento interpreta questi dati per rispondere alle domande "che cos'è? "Che cos'è?" e "Dove si trova?".

Funzionalità e architettura

La responsabilità principale di una testa di rilevamento è quella di eseguire due compiti distinti ma simultanei: la classificazione e la regressione. regressione. Nelle moderne architetture di rilevamento degli oggetti, queste attività sono spesso gestite da rami separati all'interno della testata, una scelta progettuale che consente al modello di specializzarsi in diversi aspetti della predizione. specializzarsi in diversi aspetti della predizione.

  • Ramo di classificazione: Questo sottocomponente assegna un punteggio di probabilità a varie categorie (ad es, "persona", "bicicletta", "semaforo"). Utilizza una funzione di perdita, come la Cross-Entropy Loss, per imparare la la differenza tra le classi.
  • Ramo di regressione: Questa parte della testa predice le coordinate spaziali della dell ' oggetto. Raffina le dimensioni del riquadro (x, y, larghezza, altezza) dimensioni del riquadro (x, y, larghezza, altezza) in modo da allinearsi strettamente con la verità a terra, spesso riducendo al minimo la perdita di Perdita di intersezione su unione (IoU).

L'output della testa di rilevamento è in genere un insieme denso di rilevamenti candidati. Per finalizzare i risultati, fasi di post-elaborazione come Non-Maximum Suppression (NMS) per filtrare le caselle sovrapposte e mantenere solo le previsioni più affidabili. per filtrare le caselle sovrapposte e mantenere solo le previsioni più affidabili.

Tipi di testine di rilevamento

Il design della testa di rilevamento determina il modo in cui un modello affronta il problema della localizzazione degli oggetti.

  • Teste basate su ancore: I rilevatori di oggetti tradizionali tradizionali, come le prime versioni di YOLO, si basano su caselle di ancoraggio predefinite. YOLO si basano su caselle di ancoraggio predefinite. La testa predice gli offset da queste caselle di riferimento fisse. Pur essendo efficace, questo approccio richiede un'attenta regolazione degli iperparametri di iperparametri di ancoraggio.
  • Teste senza ancore: Modelli all'avanguardia, tra cui Ultralytics YOLO11utilizzano rivelatori privi di ancoraggio. Queste teste prevedono centro e le dimensioni degli oggetti direttamente dai pixel della mappa delle caratteristiche, senza affidarsi a caselle preimpostate. Questo semplifica significativamente semplifica l'architettura del modello e migliora la generalizzazione tra diverse forme di oggetto.

Applicazioni nel mondo reale

L'efficienza e l'accuratezza della testa di rilevamento sono fondamentali per l'impiego dell'intelligenza artificiale (AI) in ambienti complessi. intelligenza artificiale (AI) in ambienti complessi. ambienti complessi.

  1. Diagnostica medica: In analisi delle immagini mediche, le teste di rilevamento sono addestrate per individuare anomalie come tumori o fratture nelle radiografie e nelle risonanze magnetiche. Ad esempio, L'intelligenza artificiale nel settore sanitario si basa su teste ad alta precisione per ridurre i falsi negativi, assistendo i radiologi nella diagnosi precoce delle malattie.
  2. Analitica del commercio al dettaglio: I negozi intelligenti utilizzano la computer vision per track inventario e il comportamento dei clienti. comportamento dei clienti. Le teste di rilevamento in AI per applicazioni retail possono identificare prodotti specifici prodotti specifici sugli scaffali o detect comportamenti sospetti per la prevenzione delle perdite, elaborando i feed video in tempo reale.

Rilevamento della testa rispetto alla spina dorsale e al collo

È utile distinguere la testina di rilevamento dagli altri componenti principali di una rete neurale convoluzionale (CNN). rete neurale convoluzionale (CNN):

  • Backbone: Il backbone (ad esempio, ResNet o CSPDarknet) è responsabile dell'estrazione delle caratteristiche visive grezze dall'immagine in ingresso. CSPDarknet) è responsabile dell'estrazione delle caratteristiche visive grezze dall'immagine di ingresso.
  • Collo: Il collo, spesso una rete piramidale di caratteristiche (FPN), mescola e raffina queste caratteristiche per aggregare il contesto a diverse scale.
  • Testa: la testa di rilevamento consuma queste caratteristiche raffinate per generare le previsioni finali di classe e coordinate. previsioni.

Esempio di implementazione

Il seguente frammento di codice Python mostra come ispezionare la testa di rilevamento di un modello YOLO11 pre-addestrato utilizzando l'opzione ultralytics pacchetto. Questo aiuta gli utenti a capire la struttura del livello finale responsabile dell'inferenza. dell'inferenza.

from ultralytics import YOLO

# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")

# Inspect the final detection head layer
# This typically reveals the number of classes (nc) and anchors/outputs
print(model.model.model[-1])

# Run inference to see the head's output in action
results = model("https://ultralytics.com/images/bus.jpg")

La comprensione della testina di rilevamento è essenziale per chiunque voglia ottimizzare le prestazioni del modello o eseguire operazioni avanzate. prestazioni del modello o di eseguire operazioni avanzate come l'apprendimento per trasferimento, dove la testina viene spesso sostituita per addestrare il modello su un nuovo set di dati personalizzati. dataset personalizzato. I ricercatori sperimentano continuamente nuovi design di testine per migliorare metriche come precisione media (mAP), spingendo i confini della visione i confini di ciò che la computer vision può raggiungere.

Unitevi alla comunità di Ultralytics

Entra nel futuro dell'AI. Connettiti, collabora e cresci con innovatori globali

Iscriviti ora