Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Convolution

Découvrez comment la convolution alimente l'IA dans la vision par ordinateur, permettant des tâches telles que la détection d'objets, la reconnaissance d'images et l'imagerie médicale avec précision.

La convolution est une opération fondamentale dans l'apprentissage profond (DL), en particulier dans le domaine de la vision par ordinateur (CV). Elle sert de pierre angulaire aux réseaux neuronaux convolutionnels (CNN), permettant aux modèles d'apprendre automatiquement et efficacement des caractéristiques hiérarchiques à partir de données de type grille, telles que des images. Le processus consiste à faire glisser un petit filtre, appelé noyau, sur une image d'entrée pour produire des cartes de caractéristiques qui mettent en évidence des motifs spécifiques comme les bords, les textures ou les formes. Cette méthode s'inspire de l'organisation du cortex visuel animal et est très efficace pour les tâches où les relations spatiales entre les points de données sont importantes.

Comment fonctionne la convolution ?

À la base, une convolution est une opération mathématique qui fusionne deux ensembles d'informations. Dans le contexte d'un CNN, elle combine les données d'entrée (les valeurs de pixel d'une image) avec un noyau. Le noyau est une petite matrice de poids qui agit comme un détecteur de caractéristiques. Ce noyau glisse sur la hauteur et la largeur de l'image d'entrée, et à chaque position, il effectue une multiplication élément par élément avec la portion chevauchante de l'image. Les résultats sont additionnés pour créer un seul pixel dans la carte de caractéristiques de sortie. Ce processus de glissement est répété sur toute l'image.

En utilisant différents noyaux, un CNN peut apprendre à détecter un large éventail de caractéristiques. Les premières couches peuvent apprendre à reconnaître des motifs simples comme les bords et les couleurs, tandis que les couches plus profondes peuvent combiner ces caractéristiques de base pour identifier des structures plus complexes comme les yeux, les roues ou le texte. Cette capacité à construire une hiérarchie de caractéristiques visuelles est ce qui donne aux CNN leur puissance dans les tâches de vision. Le processus est rendu efficace sur le plan computationnel grâce à deux principes clés :

  • Partage de paramètres : Le même noyau est utilisé sur toute l'image, ce qui réduit considérablement le nombre total de paramètres apprenables par rapport à un réseau entièrement connecté. Ce concept d'utilisation efficace des paramètres aide également le modèle à mieux se généraliser.
  • Localité spatiale : L'opération suppose que les pixels proches les uns des autres sont plus fortement liés que les pixels éloignés, un fort biais inductif qui est très efficace pour les images naturelles.

Importance dans l'apprentissage profond

La convolution est la pierre angulaire de la vision par ordinateur moderne. Les modèles comme Ultralytics YOLO utilisent intensivement des couches convolutionnelles dans leurs architectures de backbone pour une extraction de caractéristiques puissante. Cela permet une large gamme d'applications, de la détection d'objets et de la segmentation d'images à des tâches plus complexes. L'efficacité de la convolution en a fait la méthode de choix pour le traitement des images et autres données spatiales, formant la base de nombreuses architectures de pointe détaillées dans des ressources telles que l'historique des modèles de vision.

Applications concrètes

  • Analyse d'images médicales : Dans l'IA pour la santé, les CNN utilisent des convolutions pour analyser les images médicales comme les IRM ou les tomodensitométries. Les noyaux peuvent être entraînés pour détecter les textures et les formes spécifiques caractéristiques des tumeurs ou d'autres anomalies, aidant ainsi les radiologues à établir des diagnostics plus rapides et plus précis. Vous pouvez en savoir plus sur ces avancées dans des revues comme Radiology : Artificial Intelligence.
  • Véhicules autonomes : Les voitures autonomes s'appuient sur les CNN pour percevoir leur environnement. Les convolutions traitent les entrées des caméras en temps réel pour identifier les piétons, les autres véhicules, les voies de circulation et les panneaux de signalisation. Cela permet au système de la voiture de construire une compréhension globale de son environnement et de naviguer en toute sécurité, comme on le voit dans la technologie développée par des entreprises comme Waymo.

Convolution vs. Concepts connexes

Il est utile de distinguer la convolution des autres opérations de réseau neuronal :

  • Couches entièrement connectées : Dans une couche entièrement connectée, chaque neurone est connecté à chaque neurone de la couche précédente. Pour les images, cela est très inefficace car cela ignore la structure spatiale et conduit à un nombre massif de paramètres. La convolution, avec sa connectivité locale et son partage de paramètres, est beaucoup plus évolutive et mieux adaptée aux données d'image.
  • Vision Transformers (ViT) : Contrairement à la détection de caractéristiques locales des CNN, les Vision Transformers utilisent un mécanisme d'auto-attention pour modéliser les relations globales entre différents patchs d'image. Bien que puissants, les ViT nécessitent généralement des ensembles de données plus volumineux pour apprendre ces relations à partir de zéro, tandis que le biais inductif des convolutions les rend plus efficaces en termes de données. Les modèles hybrides, comme RT-DETR, visent à combiner les forces des deux approches.

Outils et formation

La mise en œuvre et l'entraînement de modèles qui utilisent la convolution sont facilités par divers frameworks d'apprentissage profond. Des bibliothèques comme PyTorch (site officiel de PyTorch) et TensorFlow (site officiel de TensorFlow) fournissent des outils robustes pour la construction de CNN. Les API de haut niveau telles que Keras simplifient davantage le développement.

Pour une expérience simplifiée, des plateformes comme Ultralytics HUB permettent aux utilisateurs de gérer des jeux de données, d'effectuer l'entraînement de modèles et de déployer facilement des modèles puissants comme YOLO11. La compréhension des concepts de base tels que la convolution, la taille du noyau, le pas, le remplissage et le champ réceptif qui en résulte est essentielle pour un entraînement de modèle et une conception d'architecture efficaces.

Rejoignez la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant
Lien copié dans le presse-papiers