Sintonizzati su YOLO Vision 2025!
25 settembre 2025
10:00 — 18:00 BST
Evento ibrido
Yolo Vision 2024
Glossario

Architetture di rilevamento oggetti

Scopri la potenza delle architetture di object detection, la spina dorsale dell'AI per la comprensione delle immagini. Scopri tipi, strumenti e applicazioni reali oggi stesso!

Le architetture di object detection sono i progetti fondamentali per i modelli di deep learning che eseguono l'object detection. Questa attività di computer vision (CV) prevede l'identificazione della presenza e della posizione di oggetti all'interno di un'immagine o di un video, in genere disegnando un bounding box attorno ad essi e assegnando un'etichetta di classe. L'architettura definisce la struttura del modello, incluso il modo in cui elabora le informazioni visive ed effettua le previsioni. La scelta dell'architettura è fondamentale in quanto influenza direttamente la velocità, l'accuratezza e i requisiti computazionali di un modello.

Come funzionano le architetture di object detection

La maggior parte delle moderne architetture di object detection è costituita da tre componenti principali che funzionano in sequenza:

  • Backbone: Si tratta di una rete neurale convoluzionale (CNN), spesso pre-addestrata su un ampio dataset di classificazione di immagini come ImageNet. Il suo ruolo principale è quello di agire come estrattore di feature, convertendo l'immagine di input in una serie di feature map che catturano informazioni visive gerarchiche. Le reti backbone più diffuse includono ResNet e CSPDarknet, utilizzata in molti modelli YOLO. Puoi saperne di più sui fondamenti delle CNN da fonti come la panoramica dettagliata di IBM.
  • Neck: Questo componente opzionale si trova tra il backbone e l'head. Serve ad aggregare e affinare le feature map generate dal backbone, spesso combinando le caratteristiche di diverse scale per migliorare il rilevamento di oggetti di varie dimensioni. Gli esempi includono le Feature Pyramid Network (FPN).
  • Detection Head: L'head è il componente finale responsabile delle previsioni. Prende le feature map elaborate dal neck (o direttamente dal backbone) e restituisce le probabilità di classe e le coordinate del bounding box per ogni oggetto rilevato.

Tipi di architetture

Le architetture di object detection sono ampiamente classificate in base al loro approccio alla previsione, il che porta a un compromesso tra velocità e accuratezza. Puoi esplorare confronti dettagliati tra modelli per vedere questi compromessi in azione.

  • Rilevatori di oggetti a due stadi: Questi modelli, come la famiglia R-CNN, identificano innanzitutto una serie di regioni candidate per gli oggetti (proposte di regione) e quindi classificano ciascuna regione. Questo processo in due fasi può raggiungere un'elevata accuratezza, ma è spesso più lento.
  • One-Stage Object Detectors: Architetture come la famiglia Ultralytics YOLO (You Only Look Once) trattano l'object detection come un singolo problema di regressione. Predicono i bounding box e le probabilità di classe direttamente dall'intera immagine in un unico passaggio, consentendo l'inferenza in tempo reale.
  • Rilevatori senza ancore (Anchor-Free Detectors): Un'evoluzione più recente all'interno dei rilevatori one-stage, le architetture anchor-free come Ultralytics YOLO11 eliminano la necessità di anchor box predefinite. Ciò semplifica il processo di addestramento e spesso porta a modelli più veloci ed efficienti.

Applicazioni nel mondo reale

Le architetture di rilevamento oggetti alimentano numerose applicazioni di intelligenza artificiale in diversi settori:

Strumenti e tecnologie

Lo sviluppo e l'implementazione di modelli basati su queste architetture spesso richiedono strumenti e framework specializzati:

Unisciti alla community di Ultralytics

Entra nel futuro dell'AI. Connettiti, collabora e cresci con innovatori globali

Iscriviti ora
Link copiato negli appunti