Dorsale
Découvrez le rôle des backbones dans l'apprentissage profond, explorez les meilleures architectures comme ResNet et ViT, et apprenez leurs applications d'IA dans le monde réel.
Une épine dorsale est un composant central d'un modèle d'apprentissage profond, en particulier dans le domaine de la vision par ordinateur (VA). Il sert de réseau principal d'extraction des caractéristiques. Sa tâche principale consiste à prendre des données d'entrée brutes, telles qu'une image, et à les transformer en un ensemble de caractéristiques de haut niveau, ou cartes de caractéristiques, qui peuvent être utilisées pour des tâches en aval telles que la détection d'objets, la segmentation d'images ou la classification. L'épine dorsale est la partie du réseau neuronal (RN) qui apprend à "voir" et à comprendre les motifs fondamentaux (bords, textures, formes et objets) d'une image.
Fonctionnement des dorsales
L'épine dorsale est généralement un réseau neuronal convolutif profond (CNN) qui a été pré-entraîné sur un ensemble de données de classification d'images à grande échelle, tel qu'ImageNet. Ce processus de pré-entraînement, une forme d'apprentissage par transfert, apprend au réseau à reconnaître une vaste bibliothèque de caractéristiques visuelles générales. Lorsqu'ils construisent un modèle pour une nouvelle tâche, les développeurs utilisent souvent ces réseaux pré-entraînés au lieu de partir de zéro. Cette approche réduit considérablement le temps de formation et la quantité de données étiquetées nécessaires, tout en améliorant souvent les performances du modèle. Les caractéristiques extraites par l'épine dorsale sont ensuite transmises au "cou" et à la "tête" du réseau, qui effectuent d'autres traitements et génèrent le résultat final. Le choix de l'épine dorsale implique souvent un compromis entre la précision, la taille du modèle et le temps de latence de l'inférence, ce qui est crucial pour obtenir des performances en temps réel.
Architectures dorsales communes
La conception des dorsales a évolué au fil des ans, chaque nouvelle architecture offrant des améliorations en termes d'efficacité et de performance. Parmi les architectures les plus influentes, on peut citer les suivantes :
- Réseaux résiduels (ResNet) : Introduits par Microsoft Research, les modèles ResNet utilisent des "sauts de connexion" pour permettre au réseau d'apprendre des fonctions résiduelles. Cette innovation a permis de former des réseaux beaucoup plus profonds sans souffrir du problème du gradient qui s'évanouit.
- EfficientNet : Développée par Google AI, cette famille de modèles utilise une méthode de mise à l'échelle composée pour équilibrer uniformément la profondeur, la largeur et la résolution du réseau. Il en résulte des modèles à la fois très précis et efficaces sur le plan informatique.
- Transformateur de vision (ViT): En adaptant à la vision l'architecture de Transformer, qui a fait ses preuves dans le domaine du NLP, les ViT traitent une image comme une séquence de patchs et utilisent l'auto-attention pour capturer le contexte global, offrant une approche différente par rapport aux champs réceptifs locaux des CNN.
- CSPNet (Cross Stage Partial Network) : Cette architecture, décrite dans son article original, améliore l'apprentissage en intégrant des cartes de caractéristiques au début et à la fin d'une étape du réseau, ce qui améliore la propagation du gradient et réduit les goulets d'étranglement informatiques. Il s'agit d'un élément clé de nombreux modèles YOLO d'Ultralytics.
Colonne vertébrale vs. tête et cou
Dans une architecture typique de détection d'objets, le modèle est composé de trois parties principales :
- L'épine dorsale : Son rôle est d'extraire les caractéristiques de l'image d'entrée et de créer des cartes de caractéristiques à différentes échelles.
- Le cou : Ce composant se situe entre la colonne vertébrale et la tête. Il affine et agrège les cartes de caractéristiques de l'épine dorsale, en combinant souvent des caractéristiques de différentes couches pour construire une représentation plus riche. Un exemple courant est le Feature Pyramid Network (FPN).
- Tête de détection: il s'agit de la dernière partie du réseau, qui prend les caractéristiques affinées du cou et effectue la tâche de détection proprement dite. Elle prédit les boîtes de délimitation, les étiquettes de classe et les scores de confiance pour les objets de l'image.
L'épine dorsale est donc la base sur laquelle le reste du modèle de détection est construit. Les modèles tels que YOLOv8 et YOLO11 intègrent de puissantes colonnes vertébrales pour garantir une extraction de caractéristiques de haute qualité, ce qui est essentiel pour leurs performances de pointe dans diverses tâches. Vous pouvez explorer différentes comparaisons de modèles YOLO pour voir comment les choix architecturaux influent sur les performances.
Applications dans le monde réel
Les backbones sont des composants fondamentaux dans d'innombrables applications d'intelligence artificielle :
- Conduite autonome: Les systèmes des voitures à conduite autonome s'appuient fortement sur des dorsales robustes (par exemple, les variantes ResNet ou EfficientNet) pour traiter les données provenant des caméras et des capteurs LiDAR. Les caractéristiques extraites permettent de détecter et de classer les véhicules, les piétons, les feux de circulation et les lignes de voie, ce qui est crucial pour une navigation et une prise de décision sûres, comme le montrent les systèmes développés par des entreprises telles que Waymo.
- Analyse d'images médicales: Dans les solutions d'IA pour les soins de santé, les dorsales sont utilisées pour analyser les scanners médicaux tels que les radiographies, les tomodensitogrammes ou les IRM. Par exemple, une dorsale comme DenseNet peut extraire des caractéristiques d'une radiographie du thorax pour aider à détecter les signes de pneumonie ou d'un scanner pour identifier des tumeurs potentielles(recherche pertinente dans Radiology : AI). Cela aide les radiologues à établir un diagnostic et à planifier un traitement. Les modèles Ultralytics tels que YOLO11 peuvent être adaptés à des tâches telles que la détection de tumeurs en s'appuyant sur de puissantes dorsales.
Vous pouvez rationaliser le processus d'utilisation de backbones puissants pour vos propres projets en utilisant des plateformes comme Ultralytics HUB, qui simplifie la gestion des ensembles de données et la formation de modèles personnalisés.