Réseau neuronal convolutif (CNN)
Découvrez comment les réseaux neuronaux convolutifs (CNN) révolutionnent la vision par ordinateur, alimentant l'IA dans les domaines de la santé, des voitures autonomes, et bien plus encore.
Un réseau neuronal convolutif (CNN) est une classe spécialisée d'architecture de
d'architecture d'apprentissage profond (DL) conçue pour
traiter les données qui ont une topologie en forme de grille, comme les images numériques. Inspirés par la structure biologique du cortex visuel
du cortex visuel animal, les CNN sont capables d'apprendre automatiquement des hiérarchies spatiales de caractéristiques.
d'apprendre automatiquement des hiérarchies spatiales de caractéristiques. Contrairement aux réseaux neuronaux traditionnels qui traitent les données d'entrée comme une
comme une liste plate de nombres, les CNN préservent les relations spatiales entre les pixels, ce qui en fait la technologie de base de la plupart des systèmes modernes de traitement de l'information.
derrière la plupart des applications modernes de
modernes de vision par ordinateur (VPI). En filtrant
En filtrant efficacement les données d'entrée pour en extraire des modèles significatifs, ces réseaux permettent des avancées allant de la reconnaissance faciale sur les smartphones aux outils de diagnostic dans les hôpitaux.
reconnaissance faciale sur les smartphones aux outils de diagnostic
l 'analyse d'images médicales.
Fonctionnement des réseaux neuronaux convolutifs
L'efficacité d'un CNN réside dans sa capacité à réduire les images dans une forme plus facile à traiter, sans perdre les caractéristiques essentielles pour obtenir une bonne prédiction.
les caractéristiques essentielles à l'obtention d'une bonne prédiction. Cet objectif est atteint grâce à une série de couches spécialisées :
-
Couche convolutive : Il s'agit de l'élément de base. Elle utilise un ensemble de filtres pouvant être appris, souvent appelés noyaux, qui glissent sur l'image d'entrée.
souvent appelés noyaux, qui glissent sur l'image d'entrée. Ce processus mathématique, appelé
convolution, produit des
des cartes de caractéristiques qui mettent en évidence des
tels que les bords, les courbes ou les textures. Vous pouvez visualiser ce processus grâce à des
des explications interactives de CNN pour voir comment les filtres extraient
données visuelles.
-
Fonction d'activation : Après la convolution, une fonction non linéaire est appliquée aux cartes de caractéristiques. Le choix le
choix le plus courant est la
ReLU (Rectified Linear Unit), qui remplace les valeurs négatives des pixels par zéro.
remplace les valeurs négatives des pixels par zéro. Cette fonction introduit la non-linéarité, ce qui permet au réseau d'apprendre des relations complexes plutôt que de simples combinaisons linéaires.
complexes plutôt que de simples combinaisons linéaires.
-
Couche de mise en commun : Également connue sous le nom de "downsampling", cette couche réduit la dimensionnalité de la carte des caractéristiques.
caractéristiques. Des techniques telles que le regroupement maximal (max pooling) sélectionnent les
dans une région, réduisant ainsi la charge de calcul et aidant le modèle à se généraliser en évitant le surajustement.
en évitant le surajustement.
-
Couche entièrement connectée : Dans les étapes finales, les caractéristiques de haut niveau sont aplaties et introduites dans un réseau neuronal standard (NN).
réseau neuronal (RN) standard. Cette couche
effectue la tâche finale de classification ou de régression sur la base des caractéristiques extraites par les couches précédentes.
Importance et applications dans le monde réel
Les CNN ont révolutionné le domaine de l'intelligence artificielle en éliminant la nécessité d'une extraction manuelle des caractéristiques.
Leur capacité à apprendre des caractéristiques distinctives directement
directement à partir de données d'apprentissage a conduit à une
dans divers secteurs d'activité.
-
Détection d'objets pour les systèmes autonomes : Dans l'industrie automobile, les CNN sont essentiels pour permettre aux
de percevoir leur environnement.
environnement. Des modèles tels que YOLO11 utilisent un réseau de base basé sur le CNN
CNN pour detect piétons, les panneaux de signalisation et les autres véhicules en temps réel avec une grande précision.
véhicules en temps réel avec une grande précision.
-
Diagnostic médical : Les CNN aident les radiologues à identifier les anomalies dans les scanners médicaux. Par exemple, les modèles d'apprentissage profond
Par exemple, les modèles d'apprentissage profond peuvent analyser les radiographies ou les IRM pour detect tumeurs ou les fractures plus rapidement que l'inspection humaine seule.
l'inspection humaine seule. Des recherches menées par les
Instituts nationaux de la santé (NIH)
démontrent comment ces outils automatisés améliorent considérablement la cohérence des diagnostics.
-
Commerce de détail et gestion des stocks : Systèmes de caisse automatisés et
gestion intelligente des stocks
s'appuient sur les CNN pour reconnaître les produits sur les étagères, track niveaux de stock et prévenir les pertes, rationalisant ainsi les opérations des grands distributeurs.
grands détaillants.
Différencier les CNN des concepts apparentés
Bien qu'ils soient souvent utilisés de manière interchangeable avec les termes généraux de l'IA, les CNN présentent des caractéristiques distinctes par rapport à d'autres architectures.
architectures :
-
CNN et réseaux neuronaux classiques : Un réseau neuronal traditionnel entièrement connecté relie chaque neurone d'entrée à chaque neurone de sortie.
chaque neurone d'entrée à chaque neurone de sortie. Lorsqu'il est appliqué à des images, cela conduit à un nombre massif de paramètres et à une perte de la structure spatiale.
structure spatiale. En revanche, les CNN utilisent le partage des paramètres (en utilisant le même filtre sur l'ensemble de l'image), ce qui les rend très efficaces.
l'ensemble de l'image), ce qui les rend très efficaces pour les données visuelles.
-
CNN et transformateurs de vision (ViT) : Alors que les CNN se concentrent sur les caractéristiques locales grâce à la convolution, les transformateurs de vision (ViT) traitent les images,
les transformateurs de vision (ViT) traitent les images
comme des séquences de taches à l'aide d'un
mécanisme d'auto-attention pour capturer le
contexte global. Les ViT nécessitent souvent des ensembles de données plus importants pour s'entraîner efficacement, alors que les CNN ont un fort "biais inductif" qui leur permet d'obtenir de bons résultats même avec des ensembles de données plus petits.
inductif" qui leur permet d'obtenir de bons résultats même avec des ensembles de données plus petits. Les modèles hybrides combinent souvent les deux, comme le montrent des architectures telles que
architectures telles que RT-DETR.
Exemple de mise en œuvre
Les bibliothèques modernes permettent d'exploiter facilement la puissance des CNN. Les ultralytics fournit
permet d'accéder à des modèles de pointe tels que YOLO11, qui comportent des backbones CNN optimisés pour une inférence rapide.
L'exemple suivant montre comment charger un modèle CNN pré-entraîné et effectuer une prédiction :
from ultralytics import YOLO
# Load a YOLO11 model, which uses a highly optimized CNN architecture
model = YOLO("yolo11n.pt")
# Run object detection on an image to identify features and objects
results = model("https://ultralytics.com/images/bus.jpg")
# Display the prediction results
results[0].show()
Outils et cadres de développement
Le développement des CNN s'appuie sur un solide écosystème d'outils à code source ouvert. Les chercheurs et les ingénieurs utilisent généralement
des frameworks tels que PyTorch ou
TensorFlow pour construire des architectures personnalisées à partir de zéro. Ces bibliothèques
fournissent les opérations tensor de bas niveau nécessaires à la convolution et à la rétropropagation.
Pour ceux qui cherchent à rationaliser le cycle de vie des projets de vision par ordinateur - de la gestion des données au déploiement - la prochaine plateforme Ultralytics offre une solution complète.
Ultralytics Platform offre une solution complète. Elle simplifie les flux de travail complexes
de travail complexes liés à l'apprentissage des modèles et permet aux équipes de se concentrer sur
sur l'application des CNN pour résoudre des problèmes commerciaux plutôt que sur la gestion de l'infrastructure. En outre, le déploiement de ces modèles sur des
est facilité par des formats tels que ONNX et
TensorRTgarantissant des performances élevées dans les
de production.