Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Convolution

Découvrez comment la convolution alimente l'IA dans la vision par ordinateur, permettant des tâches telles que la détection d'objets, la reconnaissance d'images et l'imagerie médicale avec précision.

La convolution est une opération mathématique spécialisée qui constitue l'élément fondamental des systèmes modernes de vision par ordinateur. modernes de vision par ordinateur (VA). Dans le contexte de l'intelligence artificielle (IA), convolution permet aux modèles de traiter des données en grille, telles que des images, en filtrant systématiquement les entrées afin d'extraire des modèles significatifs. des motifs significatifs. Contrairement aux algorithmes traditionnels qui nécessitent la définition manuelle de règles, la convolution permet à un réseau neuronal d'apprendre automatiquement l'espace. réseau neuronal d'apprendre automatiquement des hiérarchies hiérarchies spatiales de caractéristiques - allant de simples bords et textures à des formes d'objets complexes - imitant les processus biologiques observés dans le cortex visuel de l'homme et de la femme. biologiques observés dans le cortex visuel du cerveau.

La mécanique de la convolution

L'opération consiste à faire glisser une petite matrice de chiffres, appelée noyau ou filtre, sur une image d'entrée. noyau ou filtre, sur une image d'entrée. À chaque position, le noyau effectue une multiplication par élément avec les valeurs des pixels qui se chevauchent et additionne les résultats pour produire un seul pixel de sortie. produire un seul pixel de sortie. Ce processus génère une carte des caractéristiques, qui met en évidence les zones où des spécifiques ont été détectés.

Les paramètres clés qui définissent le comportement d'une convolution sont les suivants :

  • Taille du noyau : Les dimensions du filtre (par exemple, 3x3 ou 5x5), qui déterminent la zone de l'entrée considérée en une seule fois, sont souvent appelées "taille du noyau". d'entrée considérée en une seule fois, souvent appelée champ réceptif.
  • Stride : La taille du pas du filtre sur l'image. Une plus grande se traduit par des dimensions de sortie plus petites, ce qui correspond à un sous-échantillonnage des données. dimensions de sortie plus petites, réduisant ainsi l'échantillonnage des données.
  • Remplissage : L'ajout de pixels de bordure (généralement des zéros) à l'entrée pour contrôler la taille spatiale de la sortie. de la sortie, un concept détaillé dans la documentation de PyTorch .

Pertinence de l'apprentissage profond

La convolution est le principal moteur des réseaux neuronaux réseaux neuronaux convolutifs (CNN). Son importance réside dans deux propriétés principales : le partage des paramètres et la localité spatiale. la localité spatiale. En utilisant les mêmes poids du modèle (noyau) sur l'ensemble de l'image, le réseau reste le réseau reste efficace sur le plan informatique et capable de invariance de traduction, ce qui signifie qu'il peut reconnaître un objet quel que soit l'endroit où il apparaît dans l'image. Cette efficacité permet à des architectures sophistiquées telles que YOLO11 d'effectuer des inférences en temps réel sur sur différents matériels, des puissants GPU aux appareils d'intelligence artificielle Edge AI à ressources limitées.

Applications concrètes

L'utilité de la convolution s'étend à pratiquement tous les secteurs utilisant des données visuelles :

  • Analyse d'images médicales : En l 'IA dans le domaine de la santé, la convolution permet aux algorithmes d'analyser IRM et les tomodensitogrammes pour d'identifier de minuscules anomalies. Par exemple, des noyaux spécifiques peuvent être formés pour mettre en évidence les textures irrégulières irrégulières associées aux tumeurs à un stade précoce, aidant ainsi les radiologues à établir des diagnostics précis.
  • Navigation autonome : Les voitures auto-conduites s'appuient fortement sur la convolution pour détection d'objets et la segmentation d'images. Le système traite les flux vidéo vidéo pour distinguer les voies de circulation, les piétons et les panneaux de signalisation, ce qui permet à l'IA automobile de prendre des décisions sûres en une fraction de seconde. l 'IA automobile de prendre des décisions de conduite de conduire en toute sécurité et en quelques secondes.

Convolution et couches entièrement connectées

Il est important de distinguer la convolution des couches entièrement connectées (denses). Dans une couche entièrement connectée, chaque neurone d'entrée se connecte à chaque neurone de sortie. chaque neurone d'entrée se connecte à chaque neurone de sortie, ce qui est coûteux en termes de calcul et ne tient pas compte de la structure spatiale des images. structure spatiale des images. À l'inverse, la convolution préserve les relations spatiales et réduit considérablement le nombre de paramètres. paramètres, ce qui permet d'éviter l'ajustement excessif sur des données données à haute dimension. Alors que les couches denses sont souvent utilisées pour la classification finale, les couches convolutives se chargent de l'extraction des caractéristiques. l'extraction des caractéristiques.

Mise en œuvre de la convolution avec Ultralytics

Vous pouvez visualiser l'architecture convolutive des détecteurs d'objets modernes à l'aide de la fonction ultralytics paquet. Le code suivant charge un YOLO11 et imprime sa structure, révélant ainsi les Conv2d les couches utilisées pour le traitement.

from ultralytics import YOLO

# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")

# Print the model architecture to observe Conv2d layers
# These layers perform the convolution operations to extract features
print(model.model)

Rejoindre la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant