Glossaire

Dorsale

Découvrez le rôle des backbones dans l'apprentissage profond, explorez les meilleures architectures comme ResNet et ViT, et apprenez leurs applications d'IA dans le monde réel.

Dans l'apprentissage profond, en particulier dans le domaine de la vision par ordinateur (VA), la "colonne vertébrale" fait référence à l'ensemble initial et fondamental de couches dans un modèle de réseau neuronal (NN). Son objectif principal est l'extraction de caractéristiques: traiter des données d'entrée brutes, comme une image, et les transformer en une représentation compacte et informative. Cette représentation, souvent appelée carte des caractéristiques, capture les motifs, les textures et les formes essentiels des données d'entrée. L'épine dorsale est considérée comme les yeux de l'intelligence artificielle. Elle effectue l'interprétation initiale avant que le raisonnement de plus haut niveau n'intervienne. Ce traitement fondamental est essentiel pour la capacité globale du modèle à comprendre et à interpréter les informations visuelles pour les tâches ultérieures.

Fonctionnalité de base

Une épine dorsale typique consiste en une séquence de couches, comprenant généralement des couches convolutives, des couches de mise en commun (qui réduisent les dimensions spatiales) et des fonctions d'activation (qui introduisent la non-linéarité). Au fur et à mesure que les données d'entrée passent par ces couches, le réseau apprend progressivement des caractéristiques hiérarchiques. Les premières couches peuvent détecter des éléments simples tels que les bords et les coins, tandis que les couches plus profondes combinent ces caractéristiques plus simples pour reconnaître des structures plus complexes, des parties d'objets et, finalement, des objets entiers. Le résultat généré par l'épine dorsale est un ensemble de cartes de caractéristiques de haut niveau qui résument les informations cruciales de l'entrée originale. Ce processus réduit efficacement la dimensionnalité des données tout en préservant leur signification sémantique, formant ainsi la base de nombreux modèles d'apprentissage profond performants.

Rôle dans les modèles de vision par ordinateur

Dans les modèles sophistiqués de vision par ordinateur conçus pour des tâches telles que la détection d'objets, la segmentation d'instances ou l'estimation de la pose, l'épine dorsale fournit la représentation des caractéristiques essentielles. Les composants suivants, souvent appelés le "cou" (qui affine et regroupe les caractéristiques) et la "tête" (qui effectue la prédiction finale de la tâche), s'appuient sur les caractéristiques extraites par l'épine dorsale. Par exemple, une tête de détection utilise ces caractéristiques affinées pour prédire les boîtes de délimitation autour des objets détectés et leurs classes correspondantes. L'épine dorsale est distincte de ces étapes ultérieures ; son seul objectif est de générer une représentation puissante, souvent polyvalente, des caractéristiques à partir des données d'entrée. Une pratique courante consiste à utiliser des dorsales pré-entraînées sur des ensembles de données à grande échelle comme ImageNet, puis à les affiner pour des tâches spécifiques en aval à l'aide de l'apprentissage par transfert, ce qui permet d'accélérer considérablement le processus de formation.

Architectures dorsales communes

Plusieurs architectures de réseaux neuronaux bien établies sont fréquemment employées comme dorsales en raison de leur efficacité avérée dans l'extraction de caractéristiques :

Le choix de l'épine dorsale a un impact significatif sur les caractéristiques de performance d'un modèle, notamment la vitesse, le coût de calcul(FLOPs) et la précision, comme le montrent diverses comparaisons de modèles. Des frameworks comme PyTorch et TensorFlow, ainsi que des bibliothèques comme OpenCV, sont des outils essentiels pour la mise en œuvre et l'utilisation de ces épines dorsales. Des plateformes comme Ultralytics HUB simplifient encore le processus d'utilisation de modèles avec différents backbones.

Distinguer l'épine dorsale des termes apparentés

Il est important de ne pas confondre l'épine dorsale avec l'ensemble du réseau neuronal ou d'autres composants spécifiques :

  • Réseau neuronal complet : L'épine dorsale n'est qu'une partie, généralement la partie initiale d'extraction des caractéristiques, d'une architecture de réseau plus vaste. Le réseau complet comprend également le cou et la (les) tête(s) responsable(s) des prédictions spécifiques à une tâche.
  • Tête de détection : il s'agit de la partie finale d'un modèle de détection d'objets qui prend les caractéristiques (souvent traitées par le squelette et le cou) et produit les coordonnées de la boîte englobante et les probabilités de la classe. Il s'agit d'une tâche spécifique, contrairement à l'épine dorsale qui est plus générale.
  • Extracteur de caractéristiques : Bien que l'épine dorsale soit un extracteur de caractéristiques, le terme "extracteur de caractéristiques" peut parfois se référer à toute partie d'un réseau qui extrait des caractéristiques, ou même à des algorithmes autonomes d'extraction de caractéristiques en dehors de l'apprentissage profond (comme SIFT ou HOG). Dans le contexte des architectures modernes d'apprentissage profond comme Ultralytics YOLO, le terme "backbone" fait spécifiquement référence à la base convolutive initiale.

Applications dans le monde réel

Les backbones sont des composants fondamentaux dans d'innombrables applications d'intelligence artificielle :

  1. Conduite autonome : Les systèmes des voitures à conduite autonome s'appuient fortement sur des dorsales robustes (par exemple, les variantes ResNet ou EfficientNet) pour traiter les données provenant des caméras et des capteurs LiDAR. Les caractéristiques extraites permettent de détecter et de classer les véhicules, les piétons, les feux de circulation et les lignes de voie, ce qui est crucial pour une navigation et une prise de décision sûres, comme le montrent les systèmes développés par des entreprises telles que Waymo.
  2. Analyse d'images médicales : Dans les solutions d'IA pour les soins de santé, les dorsales sont utilisées pour analyser les scanners médicaux tels que les radiographies, les tomodensitogrammes ou les IRM. Par exemple, une dorsale comme DenseNet peut extraire des caractéristiques d'une radiographie du thorax pour aider à détecter les signes de pneumonie ou d'un scanner pour identifier des tumeurs potentielles(recherche pertinente dans Radiology : AI). Les radiologues sont ainsi mieux à même de poser un diagnostic et de planifier un traitement. Les modèles Ultralytics tels que YOLO11 peuvent être adaptés à des tâches telles que la détection de tumeurs en s'appuyant sur de puissantes dorsales.

Rejoindre la communauté Ultralytics

Rejoignez l'avenir de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

S'inscrire
Lien copié dans le presse-papiers