Connectez-vous à YOLO Vision 2025 !
25 septembre 2025
10:00 — 18:00, heure d'été britannique
Événement hybride
Yolo Vision 2024
Glossaire

Réseau neuronal convolutif (CNN)

Découvrez comment les réseaux neuronaux convolutifs (CNN) révolutionnent la vision par ordinateur, alimentant l'IA dans les domaines de la santé, des voitures autonomes, et bien plus encore.

Un réseau neuronal convolutif (CNN) est un type spécialisé de réseau neuronal (NN) qui est très efficace pour traiter les données avec une topologie de type grille, telles que les images. Inspirés par le cortex visuel humain, les CNN apprennent automatiquement et de manière adaptative les hiérarchies spatiales de caractéristiques à partir des données d'entrée. Cela en fait l'architecture fondamentale pour la plupart des tâches modernes de vision par ordinateur (CV), où ils ont obtenu des résultats de pointe dans tous les domaines, de la classification d'images à la détection d'objets.

Comment fonctionnent les CNN

Contrairement à un réseau neuronal standard où chaque neurone d'une couche est connecté à chaque neurone de la couche suivante, les CNN utilisent une opération mathématique spéciale appelée convolution. Cela permet au réseau d'apprendre les caractéristiques dans un champ réceptif local, en préservant les relations spatiales entre les pixels.

Une architecture CNN typique est constituée de plusieurs couches clés :

  1. Couche convolutionnelle : Il s'agit de l'élément de base où un filtre, ou noyau, glisse sur l'image d'entrée pour produire des cartes de caractéristiques. Ces cartes mettent en évidence des motifs tels que les bords, les coins et les textures. La taille de ces filtres et les motifs qu'ils détectent sont appris pendant l'entraînement du modèle.
  2. Couche d'activation : Après chaque convolution, une fonction d'activation comme ReLU est appliquée pour introduire une non-linéarité, permettant au modèle d'apprendre des motifs plus complexes.
  3. Couche de pooling (sous-échantillonnage) : Cette couche réduit les dimensions spatiales (largeur et hauteur) des cartes de caractéristiques, ce qui diminue la charge de calcul et contribue à rendre les caractéristiques détectées plus robustes aux changements de position et d'orientation. Un article classique sur le sujet est ImageNet Classification with Deep Convolutional Neural Networks.
  4. Couche entièrement connectée : Après plusieurs couches de convolution et de pooling, les caractéristiques de haut niveau sont aplaties et transmises à une couche entièrement connectée, qui effectue la classification en fonction des caractéristiques apprises.

CNN vs. Autres Architectures

Bien que les CNN soient un type de modèle d'apprentissage profond, ils diffèrent considérablement des autres architectures.

  • Réseaux neuronaux (NN) : Un NN standard traite les données d’entrée comme un vecteur plat, perdant ainsi toute information spatiale. Les CNN conservent ces informations, ce qui les rend idéaux pour l’analyse d’images.
  • Transformateurs de vision (ViT): Contrairement aux CNN, qui ont un fort biais inductif pour la localité spatiale, ViTs traiter une image comme une séquence de patchs et utiliser un auto-attention mécanisme pour apprendre les relations globales. Les ViT nécessitent souvent plus de données pour s'entraîner, mais peuvent exceller dans les tâches où le contexte à longue portée est important. De nombreux modèles modernes, comme RT-DETR, utilisez une approche hybride, combinant un CNN backbone avec une approche basée sur les Transformers detection head.

Applications concrètes

Les CNN sont le moteur d'innombrables applications du monde réel :

  • Détection d'objets : Les modèles de la famille Ultralytics YOLO, tels que YOLOv8 et YOLO11, utilisent des backbones CNN pour identifier et localiser des objets dans des images et des vidéos avec une vitesse et une précision remarquables. Cette technologie est cruciale pour tout, des systèmes d'IA dans l'automobile à la gestion des stocks basée sur l'IA.
  • Analyse d'images médicales : Dans le domaine de la santé, les CNN aident les radiologues en analysant les images médicales (radiographies, IRM, tomodensitométries) pour détecter les tumeurs, les fractures et autres anomalies. Cette application contribue à améliorer la vitesse et la cohérence du diagnostic, comme le souligne la recherche d'institutions telles que les National Institutes of Health (NIH). Vous pouvez explorer l'analyse d'images médicales avec Ultralytics pour plus d'informations.
  • Segmentation d'image : Pour les tâches nécessitant une compréhension au niveau du pixel, comme dans les véhicules autonomes qui doivent distinguer la route d'un piéton, les architectures basées sur CNN comme U-Net sont largement utilisées pour la segmentation d'image.

Outils et frameworks

Le développement et le déploiement des CNN sont pris en charge par des outils et des frameworks puissants :

Rejoignez la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant
Lien copié dans le presse-papiers