Yolo Vision Shenzhen
Shenzhen
Iscriviti ora
Glossario

Backbone

Scopri il ruolo dei backbone nel deep learning, esplora le principali architetture come ResNet e ViT e scopri le loro applicazioni di IA nel mondo reale.

Un backbone è un componente fondamentale di un modello di apprendimento profondo, in particolare nella visione artificiale (CV). Funziona come la rete rete di estrazione delle caratteristiche, progettata per di dati di input grezzi, come un'immagine, e di trasformarli in un insieme di caratteristiche di alto livello. Queste mappe di caratteristiche catturano schemi essenziali come i bordi, texture e forme. Questa ricca rappresentazione viene poi utilizzata dalle parti successive della rete per eseguire compiti quali il rilevamento di oggetti, segmentazione dell'immagine o classificazione delle immagini. La spina dorsale è la base di una rete neurale (NN) che impara a "vedere" gli elementi visivi fondamentali di un'immagine. "vedere" gli elementi visivi fondamentali all'interno di un'immagine.

Come funzionano i Backbone

In genere, una spina dorsale è una rete neurale profonda rete neurale convoluzionale (CNN) che è stata pre-addestrata su un set di dati di classificazione su larga scala, come ad esempio ImageNet. Questo pre-addestramento, una forma di apprendimento per trasferimento, consente alla rete di apprendere una una vasta libreria di caratteristiche visive generali. Quando si sviluppa un modello per un compito nuovo e specifico, gli sviluppatori spesso utilizzano un pre-addestrato invece di partire da zero. Questo approccio riduce significativamente il tempo necessario per modelli personalizzati e riduce i requisiti di dati, spesso di dati, portando spesso a prestazioni migliori. Le caratteristiche estratte dalla struttura portante vengono poi passate al "collo" e alla "testa" della rete. "collo" e alla "testa" della rete, che eseguono un ulteriore affinamento e generano l'output finale. La scelta della backbone è spesso un compromesso tra accuratezza, dimensione del modello e latenza di inferenza, un fattore critico. latenza dell'inferenza, un fattore critico per ottenere prestazioni in tempo reale.

Il codice che segue dimostra come un sistema preaddestrato di Ultralytics YOLO11 che contiene un efficiente modello efficiente, può essere caricato e utilizzato per l'inferenza su un'immagine.

from ultralytics import YOLO

# Load a pre-trained YOLO11 model. Its architecture includes a powerful backbone.
model = YOLO("yolo11n.pt")

# Run inference. The backbone processes the image to extract features for detection.
results = model("https://ultralytics.com/images/bus.jpg")

# Display the detection results
results[0].show()

Architetture Backbone Comuni

La progettazione delle dorsali si è evoluta in modo significativo e ogni nuova architettura offre miglioramenti in termini di prestazioni ed efficienza. efficienza. Alcune delle architetture backbone più influenti sono:

  • Reti residue (ResNet): Introdotti da Microsoft Research, i modelli ResNet utilizzano "connessioni saltate" per consentire l'addestramento di reti molto più profonde, attenuando il problema del gradiente svanente problema della scomparsa del gradiente.
  • EfficientNet: Sviluppata da Google AI, questa famiglia di modelli impiega un metodo di scalatura composto che bilancia in modo uniforme la profondità, l'ampiezza e la risoluzione della rete per creare modelli che modelli altamente precisi e allo stesso tempo efficienti dal punto di vista computazionale.
  • Vision Transformer (ViT): Questa architettura adatta il modello di grande successo modello Transformer dall'elaborazione elaborazione del linguaggio naturale (NLP) per compiti di visione. I ViT elaborano le immagini come sequenze di patch e usano l'auto-attenzione per catturare il contesto globale. per catturare il contesto globale, un di un contesto globale, allontanandosi dai campi ricettivi locali delle CNN tradizionali.
  • CSPNet (Cross Stage Partial Network): Come descritto nel suo come descritto nel suo articolo originale, questa architettura migliora l'efficienza dell'apprendimento partizione delle mappe di caratteristiche per ridurre i colli di bottiglia computazionali. È un componente chiave in molti modelli Ultralytics YOLO Ultralytics.

Backbone vs. Head and Neck

Nelle moderne architetture di rilevamento degli oggetti, il modello è tipicamente separato in tre parti principali:

  1. Backbone: Come base, il suo ruolo è quello di estrarre mappe di caratteristiche a varie scale dall'immagine di ingresso. immagine.
  2. Collo: Questo componente collega la spina dorsale alla testa. Raffina e aggrega le caratteristiche della della spina dorsale, spesso combinando informazioni provenienti da diversi livelli per creare una rappresentazione più ricca. Un esempio comune è la rete di piramidi di caratteristiche (FPN).
  3. Testa di rilevamento: è la parte finale della rete. parte della rete. Prende le caratteristiche raffinate dal collo ed esegue il compito principale, come la predizione di bounding box, le etichette delle classi e i punteggi di confidenza per ogni oggetto.

La spina dorsale è quindi l'elemento fondamentale dell'intero modello. È possibile esplorare una serie di modelloYOLO per vedere come le diverse scelte architettoniche influiscono sulle prestazioni.

Applicazioni nel mondo reale

I backbone sono componenti essenziali di innumerevoli applicazioni di intelligenza artificiale in vari settori:

  1. Veicoli autonomi: Nelle auto a guida autonoma, le robuste dorsali come ResNet o le varianti EfficientNet elaborano le immagini delle telecamere per detect e classify altri veicoli, pedoni e segnali stradali. segnali stradali. L'estrazione di queste caratteristiche è fondamentale per la navigazione e il processo decisionale del veicolo, come dimostrato dai sistemi come dimostrano i sistemi sviluppati da aziende come Waymo.
  2. Analisi delle immagini mediche: Nelle soluzioni di IA per l'assistenza sanitaria, i backbone sono utilizzati per per analizzare scansioni mediche come radiografie e risonanze magnetiche. Ad esempio, una struttura portante può estrarre le caratteristiche da una radiografia del torace per per aiutare a identificare i segni di polmonite o da una TAC per trovare potenziali tumori, come evidenziato in una ricerca di Radiologia: Artificial Intelligence. Questo aiuta i radiologi a diagnosi più rapide e accurate, e modelli come YOLO11 possono essere perfezionati per compiti specializzati come il rilevamento dei tumori. il rilevamento dei tumori.

Unitevi alla comunità di Ultralytics

Entra nel futuro dell'AI. Connettiti, collabora e cresci con innovatori globali

Iscriviti ora