Glossaire

Cartes des caractéristiques

Découvrez comment les cartes de caractéristiques alimentent les modèles YOLO d'Ultralytics, permettant une détection précise des objets et des applications d'IA avancées telles que la conduite autonome.

Une carte de caractéristiques est la sortie d'un filtre convolutionnel, également appelé noyau, appliqué à une couche d'entrée dans un réseau neuronal convolutionnel (CNN). Il s'agit essentiellement d'une représentation des caractéristiques apprises, telles que les bords, les textures ou les formes complexes, détectées dans des régions spécifiques d'une image. Chaque filtre d'une couche de convolution est conçu pour détecter une caractéristique unique et spécifique. La carte de caractéristiques qui en résulte met en évidence les endroits où cette caractéristique particulière est présente dans les données d'entrée, constituant ainsi un élément fondamental pour un large éventail de tâches de vision par ordinateur (VPI).

Fonctionnement des cartes détaillées

La génération d'une carte de caractéristiques commence lorsqu'un CNN applique un filtre - une petite matrice de poids pouvant être appris - surune image d'entrée ou sur la carte de caractéristiques d'une couche précédente. Ce filtre glisse sur l'entrée et effectue une opération de convolution à chaque position. La sortie de cette opération de glissement crée un nouveau tableau 2D, qui est la carte des caractéristiques. Les valeurs d'activation de la carte indiquent la force de la caractéristique détectée à chaque emplacement. Par exemple, un filtre formé à la détection des bords verticaux produira des valeurs d'activation élevées dans la carte des caractéristiques aux emplacements correspondant aux bords verticaux. Les cadres d'apprentissage profond modernes tels que PyTorch et TensorFlow gèrent ces opérations automatiquement.

Représentation hiérarchique des caractéristiques

L'un des aspects les plus puissants des CNN est leur capacité à construire une hiérarchie de caractéristiques.

  • Couches initiales : Les cartes de caractéristiques des couches initiales de l'ossature d' un réseau capturent des caractéristiques simples et fondamentales telles que les arêtes, les coins et les gradients de couleur. Ces épines dorsales sont souvent de puissants réseaux pré-entraînés, comme ResNet.
  • Couches de niveau intermédiaire : Au fur et à mesure que les données progressent dans le réseau, les couches suivantes combinent ces caractéristiques simples en motifs plus complexes, tels que des textures, des parties d'objets (comme une roue ou un œil) ou des formes simples.
  • Couches profondes : Les cartes de caractéristiques des couches profondes représentent des concepts très abstraits et complexes, tels que des objets entiers. Ce processus hiérarchique permet à des modèles comme Ultralytics YOLO d'effectuer des tâches sophistiquées telles que la détection d'objets, la segmentation d'images et la classification d'images.

Cartes d'entités et concepts connexes

Il est utile de différencier les cartes de caractéristiques des termes étroitement liés :

  • Extraction de caractéristiques : Il s'agit du processus d'identification et d'extraction de modèles significatifs à partir de données brutes. Les cartes de caractéristiques sont le résultat tangible de l'extraction de caractéristiques qui a lieu dans une couche CNN. Si l'extraction de caractéristiques est un concept général, les cartes de caractéristiques sont les structures de données spécifiques qui contiennent les caractéristiques apprises de manière organisée dans l'espace.
  • Intégrations : Les cartes de caractéristiques sont généralement des tableaux multidimensionnels qui conservent des informations spatiales sur l'emplacement des caractéristiques. En revanche, les embeddings sont généralement des vecteurs unidimensionnels denses qui représentent l'ensemble d'une image ou d'un objet dans un espace sémantique comprimé. Ils sont souvent créés en aplatissant et en traitant les cartes de caractéristiques finales d'un réseau afin de capturer une signification de haut niveau pour des tâches telles que la recherche sémantique ou la classification, en sacrifiant les détails spatiaux pour une utilisation dans une base de données vectorielle.

Applications dans le monde réel

Les cartes de caractéristiques font partie intégrante d'innombrables applications d'intelligence artificielle (IA) et d'apprentissage machine (ML) :

  1. Conduite autonome: Dans les voitures à conduite autonome, les CNN traitent les données des caméras et des capteurs pour naviguer dans le monde. Les cartes de caractéristiques générées à différents niveaux permettent d'identifier les piétons, les autres véhicules, le marquage des voies et les panneaux de signalisation. Les premières couches détectent les bords et les textures, tandis que les couches plus profondes les combinent pour reconnaître les objets complexes. Ces éléments sont essentiels pour une navigation sûre, et des entreprises comme Waymo s'appuient fortement sur ces technologies pour leur IA dans les voitures à conduite autonome.
  2. Analyse d'images médicales: Les CNN analysent les scanners médicaux (rayons X, CT, IRM) pour aider au diagnostic. Les cartes de caractéristiques mettent en évidence les anomalies potentielles. Par exemple, lors de l'utilisation d'un ensemble de données comme celui des tumeurs cérébrales pour détecter les tumeurs, les premières cartes de caractéristiques peuvent identifier des textures ou des bords inhabituels. Les cartes plus profondes apprennent ensuite à reconnaître les formes et les structures spécifiques caractéristiques des tumeurs, ce qui aide les radiologues dans leur travail. Ces recherches sont souvent publiées dans des revues de premier plan telles que Radiologie : Artificial Intelligence.

Visualisation et interprétation

La visualisation des cartes de caractéristiques fournit des informations précieuses sur ce qu'un CNN a appris et sur la manière dont il prend ses décisions. En examinant les parties d'une image qui activent fortement des cartes de caractéristiques spécifiques, les développeurs peuvent comprendre si le modèle se concentre sur des informations pertinentes. Ce processus est un élément clé de l'IA explicable (XAI), qui contribue à l'interprétabilité globale du modèle. Il peut être réalisé à l'aide d'outils tels que TensorBoard ou d'autres techniques de visualisation avancées. La compréhension des cartes de caractéristiques aide à déboguer les modèles, à améliorer leur précision et leur fiabilité, et à gérer l'ensemble du cycle de vie grâce à des plateformes comme Ultralytics HUB.

Rejoindre la communauté Ultralytics

Rejoignez l'avenir de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

S'inscrire
Lien copié dans le presse-papiers