Yolo Vision Shenzhen
Shenzhen
Iscriviti ora
Glossario

Rete neurale convoluzionale (CNN)

Scopri come le reti neurali convoluzionali (CNN) rivoluzionano la computer vision, potenziando l'IA nella sanità, nelle auto a guida autonoma e altro ancora.

Una rete neurale convoluzionale (CNN) è un tipo specializzato di rete neurale (NN) che è altamente efficace per l'elaborazione di dati con una topologia a griglia, come le immagini. Ispirate alla corteccia visiva umana, le CNN apprendono automaticamente e in modo adattivo le gerarchie spaziali delle caratteristiche dai dati di input. Questo le rende l'architettura fondamentale per la maggior parte delle moderne attività di computer vision (CV), dove hanno ottenuto risultati all'avanguardia in ogni campo, dalla classificazione delle immagini al rilevamento di oggetti.

Come funzionano le CNN

A differenza di una rete neurale standard in cui ogni neurone di un livello è collegato a ogni neurone del livello successivo, le CNN utilizzano una speciale operazione matematica chiamata convoluzione. Ciò consente alla rete di apprendere le caratteristiche in un campo ricettivo locale, preservando le relazioni spaziali tra i pixel.

Una tipica architettura CNN è costituita da diversi layer chiave:

  1. Livello di convoluzione: È il blocco costitutivo principale in cui un filtro, o kernel, scorre sull'immagine di input per produrre mappe di caratteristiche. Queste mappe evidenziano pattern come bordi, angoli e texture. La dimensione di questi filtri e i pattern che rilevano vengono appresi durante l'addestramento del modello.
  2. Livello di attivazione: Dopo ogni convoluzione, viene applicata una funzione di attivazione come ReLU per introdurre non linearità, consentendo al modello di apprendere schemi più complessi.
  3. Livello di pooling (sottocampionamento): Questo livello riduce le dimensioni spaziali (larghezza e altezza) delle feature map, il che diminuisce il carico computazionale e aiuta a rendere le feature rilevate più robuste ai cambiamenti di posizione e orientamento. Un documento classico sull'argomento è ImageNet Classification with Deep Convolutional Neural Networks.
  4. Livello completamente connesso: Dopo diversi livelli convoluzionali e di pooling, le caratteristiche di alto livello vengono appiattite e passate a un livello completamente connesso, che esegue la classificazione in base alle caratteristiche apprese.

CNN vs. Altre Architetture

Sebbene le CNN siano un tipo di modello di deep learning, differiscono significativamente da altre architetture.

  • Reti neurali (NN): Una NN standard tratta i dati di input come un vettore piatto, perdendo tutte le informazioni spaziali. Le CNN preservano queste informazioni, rendendole ideali per l'analisi delle immagini.
  • Vision Transformers (ViT).: A differenza delle CNN, che hanno un forte bias induttivo per la località spaziale, ViT. trattare un'immagine come una sequenza di patch e utilizzare un auto-attenzione meccanismo per apprendere le relazioni globali. I ViT spesso richiedono più dati per l'addestramento, ma possono eccellere in attività in cui il contesto a lungo raggio è importante. Molti modelli moderni, come RT-DETR, utilizzare un approccio ibrido, combinando una CNN backbone con un approccio basato su Transformer detection head.

Applicazioni nel mondo reale

Le CNN sono la forza trainante di innumerevoli applicazioni del mondo reale:

Strumenti e Framework

Lo sviluppo e il deployment di CNN sono supportati da strumenti e framework potenti:

Unisciti alla community di Ultralytics

Entra nel futuro dell'AI. Connettiti, collabora e cresci con innovatori globali

Iscriviti ora
Link copiato negli appunti