Convolutional Neural Network (CNN)
Explore comment les réseaux de neurones convolutifs (CNN) propulsent la vision par ordinateur moderne. Apprends sur les couches, les applications et comment exécuter Ultralytics YOLO26 pour l'IA en temps réel.
Un réseau de neurones convolutifs (CNN) est une architecture d'apprentissage profond spécialisée conçue pour traiter des données ayant une topologie en grille, notamment les images numériques. Inspirés par la structure biologique du cortex visuel, les CNN sont capables de préserver les relations spatiales au sein des données d'entrée. Contrairement aux réseaux de neurones traditionnels qui aplatissent une image en une longue liste de nombres, les CNN analysent de petites régions qui se chevauchent pour apprendre automatiquement des hiérarchies de caractéristiques, allant des bords et textures simples aux formes et objets complexes. Cette capacité en fait la technologie fondamentale des systèmes modernes de vision par ordinateur (CV).
Link to this sectionComment fonctionnent les réseaux de neurones convolutifs#
La puissance d'un CNN réside dans sa capacité à réduire une image complexe en une forme plus facile à traiter sans perdre les caractéristiques essentielles à une bonne prédiction. Cela est réalisé grâce à une chaîne de couches distinctes qui transforment le volume d'entrée en une classe ou une valeur de sortie :
- Couche de convolution : C'est l'élément de base. Elle utilise un ensemble de filtres (ou noyaux) apprenables qui glissent sur l'image d'entrée comme une lampe torche. À chaque position, le filtre effectue une opération mathématique appelée convolution, créant une carte de caractéristiques qui met en évidence des motifs spécifiques tels que des lignes horizontales ou des dégradés de couleurs.
- Fonction d'activation : Après la convolution, une fonction non linéaire est appliquée à la sortie. Le choix le plus courant est le ReLU (Rectified Linear Unit), qui convertit les valeurs de pixels négatives en zéro. Cela introduit de la non-linéarité, permettant au réseau d'apprendre des motifs complexes au-delà de simples relations linéaires.
- Couche de pooling : Également appelée sous-échantillonnage, cette couche réduit la dimensionnalité des cartes de caractéristiques. Des techniques comme le max pooling ne conservent que les caractéristiques les plus importantes (les valeurs les plus élevées) dans une région, ce qui réduit la charge computationnelle et aide à prévenir le surapprentissage (overfitting).
- Couche entièrement connectée : Dans la phase finale, les caractéristiques traitées sont aplaties et transmises à un réseau de neurones (NN) standard. Cette couche utilise les caractéristiques de haut niveau identifiées par les couches précédentes pour effectuer une classification ou une prédiction finale, comme "chat" ou "chien".
Link to this sectionApplications concrètes#
Les CNN ont transformé des industries en automatisant des tâches visuelles avec une précision surhumaine.
- Diagnostics médicaux : Dans le secteur de la santé, les CNN assistent les radiologues en identifiant des anomalies sur des scans médicaux plus rapidement que l'œil humain. Par exemple, les modèles d'apprentissage profond analysent des IRM et des scanners CT pour détecter les signes précoces de tumeurs ou de fractures. La recherche impliquant l'IA en radiologie souligne comment ces outils améliorent la cohérence et la vitesse des diagnostics.
- Systèmes autonomes : Les voitures autonomes dépendent fortement des CNN pour percevoir leur environnement. Des modèles comme YOLO26 utilisent des backbones CNN efficaces pour effectuer de la détection d'objets en temps réel, identifiant les piétons, les panneaux de signalisation et d'autres véhicules pour prendre des décisions de conduite en une fraction de seconde.
Link to this sectionCNN vs Vision Transformers (ViT)#
Bien que les CNN soient depuis longtemps la norme pour les tâches de vision, une architecture plus récente appelée le Vision Transformer (ViT) a émergé.
- Les CNN traitent les images en utilisant des caractéristiques locales et sont très efficaces sur de petits ensembles de données grâce à leur "biais inductif" (ils supposent que les pixels proches sont liés). Ils excellent dans les scénarios nécessitant une inférence en temps réel sur des appareils périphériques.
- Les ViTs divisent les images en patchs et les traitent à l'aide de mécanismes d'auto-attention globaux. Cela leur permet de capturer des dépendances à longue portée à travers une image, mais nécessite généralement des ensembles de données massifs et plus de puissance de calcul pour un entraînement efficace.
Link to this sectionExemple d'implémentation#
Les bibliothèques modernes rendent l'utilisation des modèles basés sur les CNN simple. Le package ultralytics donne accès à des modèles de pointe comme YOLO26, qui disposent d'architectures CNN hautement optimisées pour une inférence rapide.
L'exemple suivant démontre comment charger un modèle CNN pré-entraîné et effectuer une prédiction :
from ultralytics import YOLO
# Load a YOLO26 model, which uses an advanced CNN architecture
model = YOLO("yolo26n.pt")
# Run inference on an image to identify objects
results = model("https://ultralytics.com/images/bus.jpg")
# Display the prediction results
results[0].show()Link to this sectionOutils de développement#
Le développement des CNN est soutenu par un écosystème robuste d'outils open-source. Les ingénieurs utilisent généralement des frameworks tels que PyTorch ou TensorFlow pour créer des architectures personnalisées. Ces bibliothèques fournissent les opérations tensorielles de bas niveau nécessaires à la convolution et à la rétropropagation (backpropagation).
For teams looking to streamline the lifecycle of computer vision projects—from data collection to deployment—the Ultralytics Platform offers a comprehensive solution. It simplifies complex workflows, allowing developers to focus on applying CNNs to solve business problems rather than managing infrastructure. Additionally, models can be exported to formats like ONNX or TensorRT for high-performance deployment on edge devices.






