Glossario

Backbone

Scoprite il ruolo dei backbone nell'apprendimento profondo, esplorate le architetture di punta come ResNet e ViT e imparate le loro applicazioni reali nell'IA.

Una spina dorsale è un componente fondamentale di un modello di deep learning, in particolare nella computer vision (CV). Serve come rete primaria di estrazione delle caratteristiche. Il suo compito principale è quello di prendere i dati di input grezzi, come un'immagine, e trasformarli in un insieme di caratteristiche di alto livello, o mappe di caratteristiche, che possono essere utilizzate per attività a valle come il rilevamento di oggetti, la segmentazione di immagini o la classificazione. Si può pensare alla spina dorsale come alla parte della rete neurale (NN) che impara a "vedere" e a comprendere gli schemi fondamentali (bordi, texture, forme e oggetti) all'interno di un'immagine.

Come funzionano i dorsali

La struttura portante è tipicamente una rete neurale convoluzionale profonda (CNN) che è stata pre-addestrata su un set di dati di classificazione di immagini su larga scala, come ImageNet. Questo processo di pre-addestramento, una forma di apprendimento per trasferimento, insegna alla rete a riconoscere una vasta libreria di caratteristiche visive generali. Quando si costruisce un modello per un nuovo compito, gli sviluppatori spesso utilizzano queste colonne portanti pre-addestrate invece di partire da zero. Questo approccio riduce significativamente il tempo di addestramento e la quantità di dati etichettati necessari, migliorando spesso le prestazioni del modello. Le caratteristiche estratte dal backbone vengono poi passate al "collo" e alla "testa" della rete, che eseguono ulteriori elaborazioni e generano l'output finale. La scelta del backbone comporta spesso un compromesso tra accuratezza, dimensione del modello e latenza di inferenza, che è fondamentale per ottenere prestazioni in tempo reale.

Architetture backbone comuni

La progettazione delle dorsali si è evoluta nel corso degli anni e ogni nuova architettura ha offerto miglioramenti in termini di efficienza e prestazioni. Alcune delle architetture backbone più influenti sono:

  • Reti residue (ResNet): Introdotti da Microsoft Research, i modelli ResNet utilizzano "connessioni saltate" per consentire alla rete di apprendere funzioni residue. Questa innovazione ha permesso di addestrare reti molto più profonde senza soffrire del problema del gradiente che svanisce.
  • EfficientNet: Sviluppata da Google AI, questa famiglia di modelli utilizza un metodo di scalatura composto per bilanciare uniformemente la profondità, la larghezza e la risoluzione della rete. In questo modo si ottengono modelli altamente precisi ed efficienti dal punto di vista computazionale.
  • Vision Transformer (ViT): Adattando l'architettura Transformer di successo dalla PNL alla visione, i ViT trattano un'immagine come una sequenza di patch e utilizzano l'autoattenzione per catturare il contesto globale, offrendo un approccio diverso rispetto ai campi ricettivi locali delle CNN.
  • CSPNet (Cross Stage Partial Network): Questa architettura, descritta nell'articolo originale, migliora l'apprendimento integrando le mappe delle caratteristiche all'inizio e alla fine di uno stadio della rete, migliorando la propagazione del gradiente e riducendo i colli di bottiglia computazionali. È un componente chiave di molti modelli Ultralytics YOLO.

Dorsale vs. Testa e collo

In una tipica architettura di rilevamento degli oggetti, il modello è composto da tre parti principali:

  1. Backbone: Il suo ruolo è quello di eseguire l'estrazione di caratteristiche dall'immagine di ingresso, creando mappe di caratteristiche a varie scale.
  2. Collo: Questo componente si colloca tra la spina dorsale e la testa. Raffina e aggrega le mappe di caratteristiche della spina dorsale, spesso combinando caratteristiche di diversi livelli per costruire una rappresentazione più ricca. Un esempio comune è la Feature Pyramid Network (FPN).
  3. Testa di rilevamento: è la parte finale della rete, che prende le caratteristiche raffinate dal collo ed esegue il compito di rilevamento vero e proprio. Prevede i riquadri di delimitazione, le etichette di classe e i punteggi di confidenza per gli oggetti nell'immagine.

La spina dorsale è quindi la base su cui viene costruito il resto del modello di rilevamento. Modelli come YOLOv8 e YOLO11 integrano potenti backbone per garantire un'estrazione delle caratteristiche di alta qualità, essenziale per le loro prestazioni all'avanguardia in diversi compiti. È possibile esplorare diversi modelli YOLO a confronto per vedere come le scelte architettoniche influiscono sulle prestazioni.

Applicazioni del mondo reale

I backbone sono componenti fondamentali di innumerevoli applicazioni di intelligenza artificiale:

  1. Guida autonoma: I sistemi di auto a guida autonoma si affidano in larga misura a backbone robusti (ad esempio, varianti di ResNet o EfficientNet) per elaborare i dati provenienti da telecamere e sensori LiDAR. Le caratteristiche estratte consentono di rilevare e classificare veicoli, pedoni, semafori e linee di corsia, un aspetto cruciale per la navigazione sicura e il processo decisionale, come si vede nei sistemi sviluppati da aziende come Waymo.
  2. Analisi delle immagini mediche: Nelle soluzioni di IA per il settore sanitario, i backbone vengono utilizzati per analizzare scansioni mediche come radiografie, TAC o risonanze magnetiche. Ad esempio, un backbone come DenseNet può estrarre le caratteristiche da una radiografia del torace per aiutare a rilevare i segni di polmonite o da una TAC per identificare potenziali tumori(ricerca rilevante in Radiology: AI). Questo aiuta i radiologi nella diagnosi e nella pianificazione del trattamento. I modelli Ultralytics come YOLO11 possono essere adattati a compiti come il rilevamento dei tumori sfruttando potenti backbone.

È possibile semplificare il processo di utilizzo di potenti backbone per i propri progetti utilizzando piattaforme come Ultralytics HUB, che semplifica la gestione dei set di dati e la formazione di modelli personalizzati.

Unitevi alla comunità di Ultralytics

Entrate a far parte del futuro dell'IA. Connettetevi, collaborate e crescete con gli innovatori globali.

Iscriviti ora
Link copiato negli appunti