Scopri il ruolo dei backbone nel deep learning, esplora le principali architetture come ResNet e ViT e scopri le loro applicazioni di IA nel mondo reale.
Un backbone è un componente fondamentale di un modello di apprendimento profondo, in particolare nella visione artificiale (CV). Funziona come la rete rete di estrazione delle caratteristiche, progettata per di dati di input grezzi, come un'immagine, e di trasformarli in un insieme di caratteristiche di alto livello. Queste mappe di caratteristiche catturano schemi essenziali come i bordi, texture e forme. Questa ricca rappresentazione viene poi utilizzata dalle parti successive della rete per eseguire compiti quali il rilevamento di oggetti, segmentazione dell'immagine o classificazione delle immagini. La spina dorsale è la base di una rete neurale (NN) che impara a "vedere" gli elementi visivi fondamentali di un'immagine. "vedere" gli elementi visivi fondamentali all'interno di un'immagine.
In genere, una spina dorsale è una rete neurale profonda rete neurale convoluzionale (CNN) che è stata pre-addestrata su un set di dati di classificazione su larga scala, come ad esempio ImageNet. Questo pre-addestramento, una forma di apprendimento per trasferimento, consente alla rete di apprendere una una vasta libreria di caratteristiche visive generali. Quando si sviluppa un modello per un compito nuovo e specifico, gli sviluppatori spesso utilizzano un pre-addestrato invece di partire da zero. Questo approccio riduce significativamente il tempo necessario per modelli personalizzati e riduce i requisiti di dati, spesso di dati, portando spesso a prestazioni migliori. Le caratteristiche estratte dalla struttura portante vengono poi passate al "collo" e alla "testa" della rete. "collo" e alla "testa" della rete, che eseguono un ulteriore affinamento e generano l'output finale. La scelta della backbone è spesso un compromesso tra accuratezza, dimensione del modello e latenza di inferenza, un fattore critico. latenza dell'inferenza, un fattore critico per ottenere prestazioni in tempo reale.
Il codice che segue dimostra come un sistema preaddestrato di Ultralytics YOLO11 che contiene un efficiente modello efficiente, può essere caricato e utilizzato per l'inferenza su un'immagine.
from ultralytics import YOLO
# Load a pre-trained YOLO11 model. Its architecture includes a powerful backbone.
model = YOLO("yolo11n.pt")
# Run inference. The backbone processes the image to extract features for detection.
results = model("https://ultralytics.com/images/bus.jpg")
# Display the detection results
results[0].show()
La progettazione delle dorsali si è evoluta in modo significativo e ogni nuova architettura offre miglioramenti in termini di prestazioni ed efficienza. efficienza. Alcune delle architetture backbone più influenti sono:
Nelle moderne architetture di rilevamento degli oggetti, il modello è tipicamente separato in tre parti principali:
La spina dorsale è quindi l'elemento fondamentale dell'intero modello. È possibile esplorare una serie di modelloYOLO per vedere come le diverse scelte architettoniche influiscono sulle prestazioni.
I backbone sono componenti essenziali di innumerevoli applicazioni di intelligenza artificiale in vari settori: