Rete neurale convoluzionale (CNN)
Scoprite come le reti neurali convoluzionali (CNN) rivoluzionano la visione computerizzata, alimentando l'intelligenza artificiale nell'assistenza sanitaria, nelle auto a guida autonoma e altro ancora.
Una rete neurale convoluzionale (CNN) è un tipo specializzato di rete neurale (NN) molto efficace per l'elaborazione di dati con una topologia a griglia, come le immagini. Ispirate alla corteccia visiva umana, le CNN apprendono automaticamente e in modo adattivo gerarchie spaziali di caratteristiche dai dati in ingresso. Questo le rende l'architettura fondamentale per la maggior parte delle attività di computer vision (CV) moderne, dove hanno ottenuto risultati all'avanguardia in tutti i campi, dalla classificazione delle immagini al rilevamento degli oggetti.
Come funziona la Cnn
A differenza di una rete neurale standard, in cui ogni neurone di uno strato è collegato a ogni neurone dello strato successivo, le CNN utilizzano una speciale operazione matematica chiamata convoluzione. Ciò consente alla rete di apprendere le caratteristiche in un campo recettivo locale, preservando le relazioni spaziali tra i pixel.
Una tipica architettura CNN è composta da diversi livelli chiave:
- Strato convoluzionale: Questo è il blocco centrale in cui un filtro, o kernel, scorre sull'immagine di ingresso per produrre mappe di caratteristiche. Queste mappe evidenziano modelli come bordi, angoli e texture. Le dimensioni di questi filtri e i modelli che rilevano vengono appresi durante l'addestramento del modello.
- Strato di attivazione: Dopo ogni convoluzione, viene applicata una funzione di attivazione come ReLU per introdurre la non linearità, consentendo al modello di apprendere modelli più complessi.
- Livello di pooling (downsampling): Questo livello riduce le dimensioni spaziali (larghezza e altezza) delle mappe di caratteristiche, riducendo il carico computazionale e contribuendo a rendere le caratteristiche rilevate più robuste ai cambiamenti di posizione e orientamento. Un classico documento sull'argomento è ImageNet Classification with Deep Convolutional Neural Networks.
- Strato completamente connesso: Dopo diversi strati convoluzionali e di pooling, le caratteristiche di alto livello vengono appiattite e passate a uno strato completamente connesso, che esegue la classificazione in base alle caratteristiche apprese.
Cnn contro altre architetture
Le CNN sono un tipo di modello di apprendimento profondo, ma si differenziano notevolmente da altre architetture.
- Reti neurali (NN): Una NN standard tratta i dati di input come un vettore piatto, perdendo tutte le informazioni spaziali. Le CNN conservano queste informazioni, rendendole ideali per l'analisi delle immagini.
- Trasformatori di visione (ViT): A differenza delle CNN, che hanno una forte inclinazione induttiva per la località spaziale, ViTs trattare un'immagine come una sequenza di patch e usare una auto-attenzione per apprendere relazioni globali. I ViT spesso richiedono un maggior numero di dati per l'addestramento, ma possono eccellere in compiti in cui il contesto a lungo termine è importante. Molti modelli moderni, come RT-DETRutilizzare un approccio ibrido, combinando una CNN
backbone
con un trasformatore detection head
.
Applicazioni del mondo reale
Le CNN sono la forza trainante di innumerevoli applicazioni reali:
- Rilevamento di oggetti: I modelli della famiglia Ultralytics YOLO, come YOLOv8 e YOLO11, utilizzano le colonne portanti CNN per identificare e localizzare gli oggetti nelle immagini e nei video con notevole velocità e precisione. Questa tecnologia è fondamentale per tutti i settori, dall'IA nei sistemi automobilistici alla gestione dell'inventario guidata dall'IA.
- Analisi di immagini mediche: Nel settore sanitario, le CNN assistono i radiologi analizzando le scansioni mediche (radiografie, risonanze magnetiche, TAC) per individuare tumori, fratture e altre anomalie. Questa applicazione contribuisce a migliorare la velocità e la coerenza della diagnosi, come evidenziato da ricerche condotte da istituzioni come il National Institutes of Health (NIH). Per ulteriori informazioni, è possibile esplorare l'analisi delle immagini mediche con Ultralytics.
- Segmentazione delle immagini: Per le attività che richiedono una comprensione a livello di pixel, come nel caso dei veicoli autonomi che devono distinguere la strada da un pedone, le architetture basate su CNN come U-Net sono ampiamente utilizzate per la segmentazione delle immagini.
Strumenti e strutture
Lo sviluppo e la distribuzione delle CNN sono supportati da potenti strumenti e framework: