Yolo Vision Shenzhen
Shenzhen
Iscriviti ora
Glossario

Rete neurale convoluzionale (CNN)

Explore how Convolutional Neural Networks (CNNs) power modern computer vision. Learn about layers, applications, and how to run Ultralytics YOLO26 for real-time AI.

Una rete neurale convoluzionale (CNN) è un'architettura di deep learning specializzata progettata per elaborare dati con una topologia a griglia, in particolare immagini digitali. Ispirate alla struttura biologica della corteccia visiva, le CNN sono in grado di preservare in modo unico le relazioni spaziali all'interno dei dati di input. A differenza delle reti neurali tradizionali che appiattiscono un'immagine in un lungo elenco di numeri, le CNN analizzano piccole regioni sovrapposte di un'immagine per apprendere automaticamente le gerarchie delle caratteristiche, dai semplici bordi e texture alle forme e agli oggetti complessi. Questa capacità le rende la tecnologia fondamentale alla base dei moderni sistemi di visione artificiale (CV).

Come funzionano le reti neurali convoluzionali

La potenza di una CNN risiede nella sua capacità di ridurre un'immagine complessa in una forma più facile da elaborare senza perdere caratteristiche fondamentali per ottenere una buona previsione. Ciò si ottiene attraverso una pipeline di livelli distinti che trasformano il volume di input in una classe o un valore di output:

  • Livello di convoluzione: è l'elemento fondamentale . Utilizza una serie di filtri (o kernel) apprendibili che scorrono sull'immagine in ingresso come una torcia elettrica. In ogni posizione, il filtro esegue un'operazione matematica chiamata convoluzione, creando una mappa delle caratteristiche che evidenzia modelli specifici come linee orizzontali o sfumature di colore.
  • Funzione di attivazione: dopo la convoluzione, viene applicata una funzione non lineare all'output. La scelta più comune è la ReLU (Rectified Linear Unit), che trasforma i valori negativi dei pixel in zero. Ciò introduce la non linearità, consentendo alla rete di apprendere modelli complessi che vanno oltre le semplici relazioni lineari.
  • Livello di pooling: noto anche come downsampling, questo livello riduce la dimensionalità delle mappe delle caratteristiche. Tecniche come il max pooling mantengono solo le caratteristiche più importanti (i valori più alti) in una regione, il che riduce il carico computazionale e aiuta a prevenire l' overfitting.
  • Livello completamente connesso: nella fase finale, le caratteristiche elaborate vengono appiattite e inserite in una rete neurale standard (NN). Questo livello utilizza le caratteristiche di alto livello identificate dai livelli precedenti per effettuare una classificazione o una previsione finale, come "gatto" o "cane".

Applicazioni nel mondo reale

Le CNN hanno trasformato i settori industriali automatizzando le attività visive con una precisione sovrumana .

  • Diagnostica medica: nel settore sanitario, le CNN assistono i radiologi identificando le anomalie nelle scansioni mediche più rapidamente dell'occhio umano. Ad esempio, i modelli di deep learning analizzano le scansioni MRI e TC per detect i detect segni di tumori o fratture. La ricerca che coinvolge l'IA inradiologia evidenzia come questi strumenti migliorino la coerenza e la velocità diagnostica.
  • Sistemi autonomi: le auto a guida autonoma si affidano fortemente alle CNN per percepire l'ambiente circostante. Modelli come YOLO26 utilizzano efficienti backbone CNN per eseguire il rilevamento di oggetti in tempo reale, identificando pedoni, segnali stradali e altri veicoli per prendere decisioni di guida in frazioni di secondo.

CNN contro Vision Transformers (ViT)

Sebbene le CNN siano state a lungo lo standard per le attività di visione, è emersa una nuova architettura chiamata Vision Transformer (ViT).

  • Le CNN elaborano le immagini utilizzando caratteristiche locali e sono altamente efficienti su set di dati più piccoli grazie al loro "bias induttivo" (presuppongono che i pixel vicini siano correlati). Eccellono in scenari che richiedono inferenze in tempo reale su dispositivi edge.
  • I ViT dividono le immagini in patch e le elaborano utilizzando meccanismi di auto-attenzione globale. Ciò consente loro di catturare dipendenze a lungo raggio all'interno di un'immagine, ma in genere richiede enormi set di dati e una maggiore potenza di calcolo per addestrarli in modo efficace.

Esempio di implementazione

Le librerie moderne rendono semplice l'utilizzo di modelli basati su CNN. Il ultralytics Il pacchetto fornisce l'accesso a modelli all'avanguardia come YOLO26, che presentano architetture CNN altamente ottimizzate per un'inferenza rapida.

L'esempio seguente mostra come caricare un modello CNN pre-addestrato ed eseguire una previsione:

from ultralytics import YOLO

# Load a YOLO26 model, which uses an advanced CNN architecture
model = YOLO("yolo26n.pt")

# Run inference on an image to identify objects
results = model("https://ultralytics.com/images/bus.jpg")

# Display the prediction results
results[0].show()

Strumenti per lo sviluppo

Lo sviluppo delle CNN è supportato da un solido ecosistema di strumenti open source. Gli ingegneri utilizzano in genere framework come PyTorch o TensorFlow per costruire architetture personalizzate. Queste librerie forniscono le tensor di basso livello necessarie per la convoluzione e la retropropagazione.

Per i team che desiderano semplificare il ciclo di vita dei progetti di visione artificiale, dalla raccolta dei dati alla distribuzione, Ultralytics offre una soluzione completa. Semplifica i flussi di lavoro complessi, consentendo agli sviluppatori di concentrarsi sull'applicazione delle CNN per risolvere i problemi aziendali piuttosto che sulla gestione dell' infrastruttura. Inoltre, i modelli possono essere esportati in formati come ONNX o TensorRT per un'implementazione ad alte prestazioni su dispositivi edge .

Unitevi alla comunità di Ultralytics

Entra nel futuro dell'AI. Connettiti, collabora e cresci con innovatori globali

Iscriviti ora