Réseau neuronal convolutif (CNN)
Découvrez comment les réseaux neuronaux convolutifs (CNN) révolutionnent la vision par ordinateur, alimentant l'IA dans les domaines de la santé, des voitures autonomes, et bien plus encore.
Un réseau neuronal convolutif (CNN) est une architecture d'apprentissage profond spécialisée conçue pour traiter des données avec une
topologie de type grille, notamment des images numériques. Inspirés de la structure biologique du
cortex visuel, les CNN sont les seuls à pouvoir préserver les
relations spatiales au sein des données d'entrée. Contrairement aux réseaux neuronaux traditionnels qui aplatissent une image en une longue liste de
chiffres, les CNN analysent de petites régions superposées d'une image pour apprendre automatiquement les hiérarchies de caractéristiques, des
simples contours et textures aux formes et objets complexes. Cette capacité en fait la technologie fondamentale des
systèmes modernes de vision par ordinateur (CV).
Fonctionnement des réseaux neuronaux convolutifs
La puissance d'un CNN réside dans sa capacité à réduire une image complexe en une forme plus facile à traiter sans perdre les
caractéristiques essentielles à l'obtention d'une bonne prédiction. Ceci est réalisé grâce à un pipeline de couches distinctes :
-
Couche convolutive : Il s'agit de l'élément central. Elle utilise un ensemble de filtres (ou
noyaux) apprenables qui glissent sur l'image d'entrée comme une lampe torche. À chaque position, le filtre effectue une opération mathématique
appelée convolution, créant une
carte de caractéristiques qui met en évidence des motifs spécifiques tels que
des lignes horizontales ou des dégradés de couleurs.
-
Fonction d'activation : après la convolution, une fonction non linéaire est appliquée à la sortie. Le choix le plus
courant est la
fonction ReLU (Rectified Linear Unit), qui
transforme les valeurs de pixels négatives en zéro. Cela introduit une non-linéarité, permettant au réseau d'apprendre des modèles complexes
au-delà des simples relations linéaires.
-
Couche de regroupement : également appelée sous-échantillonnage, cette couche réduit la dimensionnalité des cartes de caractéristiques.
Des techniques telles que le regroupement maximal ne conservent que les caractéristiques les plus importantes
(les valeurs les plus élevées) dans une région, ce qui réduit la charge de calcul et aide à prévenir le
surapprentissage.
-
Couche entièrement connectée : lors de la dernière étape, les caractéristiques traitées sont aplaties et introduites dans un
réseau neuronal standard (NN). Cette couche utilise les
caractéristiques de haut niveau identifiées par les couches précédentes pour effectuer une classification ou une prédiction finale, telle que
« chat » ou « chien ».
Applications concrètes
Les CNN ont transformé les industries en automatisant les tâches visuelles avec une précision surhumaine
.
-
Diagnostic médical : dans le domaine de la santé, les CNN aident les radiologues en identifiant les anomalies dans les examens médicaux
plus rapidement que l'œil humain. Par exemple, les modèles d'apprentissage profond analysent les
IRM et les tomodensitogrammes afin de detect les detect signes de
cancer du sein ou du poumon. Les recherches menées par les
National Institutes of Health (NIH)
soulignent la manière dont ces outils améliorent la cohérence et la rapidité des diagnostics.
-
Systèmes autonomes : les voitures autonomes s'appuient fortement sur les CNN pour percevoir leur environnement. Des modèles
tels que YOLO26 utilisent des structures CNN efficaces pour effectuer une
détection d'objets en temps réel, identifiant les
piétons, les panneaux de signalisation et les autres véhicules afin de prendre des décisions de conduite en une fraction de seconde.
CNN vs Vision Transformers (ViT)
Alors que les CNN ont longtemps été la norme pour les tâches de vision, une nouvelle architecture appelée
Vision Transformer (ViT) a fait son apparition.
-
Les CNN traitent les images à l'aide de caractéristiques locales et sont très efficaces sur les petits ensembles de données en raison de leur
« biais inductif » (ils supposent que les pixels proches sont liés).
-
Les ViT divisent les images en patchs et les traitent à l'aide de mécanismes d'auto-attention globaux.
Cela leur permet de
capturer les dépendances à longue distance dans une image, mais nécessite généralement des ensembles de données massifs et une plus grande puissance de calcul pour
un apprentissage efficace.
Exemple de mise en œuvre
Les bibliothèques modernes facilitent l'utilisation des modèles basés sur les CNN. Le ultralytics Le package donne accès
à des modèles de pointe tels que YOLO26, qui intègrent des architectures CNN hautement optimisées pour une inférence rapide.
L'exemple suivant montre comment charger un modèle CNN pré-entraîné et exécuter une prédiction :
from ultralytics import YOLO
# Load a YOLO26 model, which uses an advanced CNN architecture
model = YOLO("yolo26n.pt")
# Run inference on an image to identify objects
results = model("https://ultralytics.com/images/bus.jpg")
# Display the prediction results
results[0].show()
Outils pour le développement
Le développement des CNN est soutenu par un écosystème robuste d'outils open source. Les ingénieurs utilisent généralement des frameworks tels que
PyTorch ou TensorFlow pour créer des
architectures personnalisées. Ces bibliothèques fournissent les tensor de bas niveau nécessaires à la convolution et à la rétropropagation.
Pour les équipes qui cherchent à rationaliser le cycle de vie des projets de vision par ordinateur, de la
collecte de données au déploiement, Ultralytics offre une solution complète. Elle simplifie les flux de travail complexes, permettant aux
développeurs de se concentrer sur l'application des CNN pour résoudre les problèmes commerciaux plutôt que sur la gestion de l'infrastructure. De plus, les
modèles peuvent être exportés vers des formats tels que ONNX ou
TensorRT pour un déploiement haute performance sur des
appareils de pointe.