Glossario

Architetture di rilevamento degli oggetti

Scoprite la potenza delle architetture di rilevamento degli oggetti, la spina dorsale dell'intelligenza artificiale per la comprensione delle immagini. Imparate oggi stesso i tipi, gli strumenti e le applicazioni reali!

Le architetture di rilevamento degli oggetti sono le fondamenta dei modelli di deep learning che eseguono il rilevamento degli oggetti. Questa attività di computer vision (CV) comporta l'identificazione della presenza e della posizione degli oggetti all'interno di un'immagine o di un video, in genere disegnando un riquadro di delimitazione intorno ad essi e assegnando un'etichetta di classe. L'architettura definisce la struttura del modello, compreso il modo in cui elabora le informazioni visive e fa previsioni. La scelta dell'architettura è fondamentale perché influenza direttamente la velocità, l'accuratezza e i requisiti computazionali di un modello.

Come funzionano le architetture di rilevamento degli oggetti

La maggior parte delle moderne architetture di rilevamento degli oggetti è costituita da tre componenti principali che lavorano in sequenza:

  • Backbone: Si tratta di una rete neurale convoluzionale (CNN), spesso pre-addestrata su un grande dataset di classificazione di immagini come ImageNet. Il suo ruolo principale è quello di fungere da estrattore di caratteristiche, convertendo l'immagine di ingresso in una serie di mappe di caratteristiche che catturano le informazioni visive gerarchiche. Le reti backbone più diffuse sono ResNet e CSPDarknet, utilizzata in molti modelli YOLO. Per saperne di più sui fondamenti delle CNN, è possibile consultare fonti come la panoramica dettagliata di IBM.
  • Collo: Questo componente opzionale si trova tra la spina dorsale e la testa. Serve ad aggregare e perfezionare le mappe di caratteristiche generate dalla spina dorsale, spesso combinando caratteristiche di scale diverse per migliorare il rilevamento di oggetti di varie dimensioni. Ne sono un esempio le reti di piramidi di caratteristiche (FPN).
  • Testa di rilevamento: la testa è il componente finale responsabile dell'elaborazione delle previsioni. Prende le mappe di caratteristiche elaborate dal collo (o direttamente dalla spina dorsale) e produce le probabilità di classe e le coordinate del rettangolo di selezione per ogni oggetto rilevato.

Tipi di architetture

Le architetture di rilevamento degli oggetti sono ampiamente classificate in base al loro approccio alla predizione, che porta a un compromesso tra velocità e precisione. È possibile esplorare confronti dettagliati tra i modelli per vedere questi compromessi in azione.

  • Rilevatori di oggetti a due stadi: Questi modelli, come la famiglia R-CNN, identificano prima un insieme di regioni di oggetti candidate (proposte di regioni) e poi classificano ogni regione. Questo processo in due fasi può raggiungere un'elevata accuratezza, ma è spesso più lento.
  • Rilevatori di oggetti a una fase: Architetture come la famiglia Ultralytics YOLO (You Only Look Once) trattano il rilevamento degli oggetti come un singolo problema di regressione. Prevedono i riquadri di delimitazione e le probabilità di classe direttamente dall'immagine completa in un unico passaggio, consentendo l'inferenza in tempo reale.
  • Rivelatori senza ancore: Un'evoluzione più recente nell'ambito dei rilevatori a uno stadio, le architetture anchor-free come Ultralytics YOLO11 eliminano la necessità di scatole di ancoraggio predefinite. Questo semplifica il processo di addestramento e spesso porta a modelli più veloci ed efficienti.

Applicazioni del mondo reale

Le architetture di rilevamento degli oggetti sono alla base di numerose applicazioni di intelligenza artificiale in diversi settori:

Strumenti e tecnologie

Lo sviluppo e la distribuzione di modelli basati su queste architetture richiede spesso strumenti e framework specializzati:

  • Quadri di apprendimento profondo: Librerie come PyTorch (visitate il sito ufficiale di PyTorch) e TensorFlow (visitate il sito web di TensorFlow) forniscono gli elementi fondamentali.
  • Librerie di visione artificiale: OpenCV (sito ufficiale: OpenCV.org) offre un'ampia gamma di funzioni per l'elaborazione e la manipolazione delle immagini.
  • Modelli e piattaforme: Ultralytics fornisce modelli Ultralytics YOLO all'avanguardia e la piattaforma Ultralytics HUB, che semplifica il processo di formazione di modelli personalizzati, la gestione di set di dati (come COCO) e la distribuzione di soluzioni.
  • Open Source: Molte architetture e strumenti per il rilevamento degli oggetti sono sviluppati sotto licenze open-source, favorendo la collaborazione e l'innovazione all'interno della comunità dell'IA. Risorse come GitHub ospitano numerosi progetti in questo campo.

Unitevi alla comunità di Ultralytics

Entrate a far parte del futuro dell'IA. Connettetevi, collaborate e crescete con gli innovatori globali.

Iscriviti ora
Link copiato negli appunti