Backbone
Découvrez le rôle des backbones dans l'apprentissage profond, explorez les principales architectures telles que ResNet et ViT, et découvrez leurs applications concrètes dans le domaine de l'IA.
Un backbone est un composant central d'un modèle d'apprentissage profond, en particulier dans la vision par ordinateur (CV). Il sert de principal réseau d'extraction de caractéristiques. Son rôle principal est de prendre des données d'entrée brutes, telles qu'une image, et de les transformer en un ensemble de caractéristiques de haut niveau, ou cartes de caractéristiques, qui peuvent être utilisées pour des tâches en aval telles que la détection d'objets, la segmentation d'image ou la classification. Vous pouvez considérer le backbone comme la partie du réseau neuronal (NN) qui apprend à "voir" et à comprendre les motifs fondamentaux (comme les bords, les textures, les formes et les objets) dans une image.
Comment fonctionnent les Backbones
Le backbone est généralement un réseau neuronal convolutif (CNN) profond qui a été pré-entraîné sur un ensemble de données de classification d'images à grande échelle, tel que ImageNet. Ce processus de pré-entraînement, une forme d'apprentissage par transfert, enseigne au réseau à reconnaître une vaste bibliothèque de caractéristiques visuelles générales. Lors de la construction d'un modèle pour une nouvelle tâche, les développeurs utilisent souvent ces backbones pré-entraînés au lieu de partir de zéro. Cette approche réduit considérablement le temps d'entraînement et la quantité de données étiquetées nécessaires, tout en améliorant souvent les performances du modèle. Les caractéristiques extraites par le backbone sont ensuite transmises au "neck" et à la "head" du réseau, qui effectuent un traitement supplémentaire et génèrent la sortie finale. Le choix du backbone implique souvent un compromis entre la précision, la taille du modèle et la latence d'inférence, ce qui est crucial pour obtenir des performances en temps réel.
Architectures de backbone courantes
La conception des backbones a évolué au fil des ans, chaque nouvelle architecture offrant des améliorations en termes d'efficacité et de performance. Parmi les architectures de backbone les plus influentes, on peut citer :
- Réseaux résiduels (ResNet): Introduits par Microsoft Research, les modèles ResNet utilisent des "sauts de connexion" pour permettre au réseau d'apprendre des fonctions résiduelles. Cette innovation a permis de former des réseaux beaucoup plus profonds sans souffrir du problème du gradient qui s'évanouit.
- EfficientNet : Développée par Google AI, cette famille de modèles utilise une méthode de mise à l'échelle composée pour équilibrer uniformément la profondeur, la largeur et la résolution du réseau. Il en résulte des modèles à la fois très précis et efficaces sur le plan computationnel.
- Transformateur de vision (ViT): En adaptant à la vision l'architecture de Transformer, qui a fait ses preuves dans le domaine du NLP, les ViT traitent une image comme une séquence de patchs et utilisent l'auto-attention pour capturer le contexte global, offrant une approche différente par rapport aux champs réceptifs locaux des CNN.
- CSPNet (Cross Stage Partial Network - Réseau Partiel Inter-étages) : Cette architecture, décrite dans son article original, améliore l'apprentissage en intégrant des cartes de caractéristiques du début et de la fin d'une étape du réseau, ce qui améliore la propagation du gradient et réduit les goulots d'étranglement computationnels. C'est un élément clé de nombreux modèles Ultralytics YOLO.
Backbone vs. Head and Neck
Dans une architecture typique de détection d'objets, le modèle est composé de trois parties principales :
- Backbone : Son rôle est d'effectuer l'extraction de caractéristiques de l'image d'entrée, en créant des cartes de caractéristiques à différentes échelles.
- Neck : Ce composant se situe entre le backbone et la head. Il affine et agrège les cartes de caractéristiques du backbone, combinant souvent des caractéristiques de différentes couches pour construire une représentation plus riche. Un exemple courant est le Feature Pyramid Network (FPN).
- Tête de détection: Il s'agit de la partie finale du réseau, qui prend les caractéristiques affinées du cou et effectue la tâche de détection proprement dite. Elle prédit les boîtes de délimitation, les étiquettes de classe et les scores de confiance pour les objets de l'image.
Le backbone est donc la fondation sur laquelle repose le reste du modèle de détection. Des modèles comme YOLOv8 et YOLO11 intègrent des backbones puissants pour assurer une extraction de caractéristiques de haute qualité, ce qui est essentiel pour leurs performances de pointe dans diverses tâches. Vous pouvez explorer différentes comparaisons de modèles YOLO pour voir comment les choix architecturaux ont un impact sur les performances.
Applications concrètes
Les backbones sont des composants fondamentaux dans d'innombrables applications d'IA :
- La conduite autonome: Les systèmes des voitures à conduite autonome s'appuient fortement sur des backbones robustes (par exemple, les variantes ResNet ou EfficientNet) pour traiter les données provenant des caméras et des capteurs LiDAR. Les caractéristiques extraites permettent de détecter et de classer les véhicules, les piétons, les feux de circulation et les lignes de voie, ce qui est crucial pour une navigation et une prise de décision sûres, comme le montrent les systèmes développés par des entreprises telles que Waymo.
- Analyse d'images médicales: Dans les solutions d'IA pour les soins de santé, les dorsales sont utilisées pour analyser les scanners médicaux tels que les radiographies, les tomodensitogrammes ou les IRM. Par exemple, une dorsale comme DenseNet peut extraire des caractéristiques d'une radiographie du thorax pour aider à détecter les signes de pneumonie ou d'un scanner pour identifier des tumeurs potentielles(recherche pertinente dans Radiologie : IA). Les radiologues sont ainsi mieux à même de poser un diagnostic et de planifier un traitement. Les modèles Ultralytics tels que YOLO11 peuvent être adaptés à des tâches telles que la détection de tumeurs en s'appuyant sur de puissantes dorsales.
Vous pouvez simplifier l'utilisation de backbones performants pour vos propres projets en utilisant des plateformes comme Ultralytics HUB, qui simplifie la gestion des datasets et l'entraînement de modèles personnalisés.