Backbone
Découvrez le rôle des backbones dans l'apprentissage profond, explorez les principales architectures telles que ResNet et ViT, et découvrez leurs applications concrètes dans le domaine de l'IA.
Une colonne vertébrale est un composant essentiel d'un
modèle d'apprentissage profond, en particulier dans
vision par ordinateur (VA). Il fonctionne comme le
réseau principal d'extraction des caractéristiques, conçu pour
prendre des données d'entrée brutes telles qu'une image et les transformer en un ensemble de caractéristiques de haut niveau. Ces
Ces cartes de caractéristiques capturent des modèles essentiels tels que les bords, les textures et les formes,
les textures et les formes. Cette représentation riche est ensuite utilisée par les parties suivantes du réseau pour effectuer des tâches telles que
la détection d'objets
la segmentation d'images ou
la classification d'images. L'épine dorsale est la base d'un
réseau neuronal (RN) qui apprend à "voir" les éléments visuels fondamentaux d'une image.
"voir" les éléments visuels fondamentaux d'une image.
Comment fonctionnent les Backbones
En règle générale, une épine dorsale est un réseau de neurones profonds
réseau neuronal convolutif (CNN) profond
qui a été pré-entraîné sur un ensemble de données de classification à grande échelle, tel qu'un
ImageNet. Ce pré-entraînement, une forme d'apprentissage par transfert, permet au réseau d'apprendre une
d 'apprentissage par transfert, permet au réseau d'apprendre une
une vaste bibliothèque de caractéristiques visuelles générales. Lorsqu'ils développent un modèle pour une nouvelle tâche spécifique, les développeurs utilisent souvent une base pré-entraînée au lieu de partir de zéro.
au lieu de partir de zéro. Cette approche réduit considérablement le temps nécessaire pour
d 'entraînement des modèles personnalisés et réduit les besoins en données, ce qui se traduit souvent par de meilleures performances.
souvent de meilleures performances. Les caractéristiques extraites par l'épine dorsale sont ensuite transmises au "cou" et à la "tête" du réseau.
Les caractéristiques extraites par l'épine dorsale sont ensuite transmises au "cou" et à la "tête" du réseau, qui procèdent à un raffinement supplémentaire et génèrent la sortie finale. Le choix du
est souvent un compromis entre la précision, la taille du modèle et la latence d'inférence, un facteur critique.
la latence de l'inférence, un facteur critique pour
d'inférence, un facteur critique pour
performance en temps réel.
Le code suivant montre comment un logiciel pré-entraîné de
Ultralytics YOLO11 pré-entraîné, qui contient une
peut être chargé et utilisé pour l'inférence sur une image.
from ultralytics import YOLO
# Load a pre-trained YOLO11 model. Its architecture includes a powerful backbone.
model = YOLO("yolo11n.pt")
# Run inference. The backbone processes the image to extract features for detection.
results = model("https://ultralytics.com/images/bus.jpg")
# Display the detection results
results[0].show()
Architectures de backbone courantes
La conception des dorsales a considérablement évolué, chaque nouvelle architecture offrant des améliorations en termes de performances et d'efficacité.
performance et d'efficacité. Parmi les architectures les plus influentes, on peut citer les suivantes :
-
Réseaux résiduels (ResNet):
Introduits par Microsoft Research, les modèles ResNet utilisent des
"connexions sautées" pour permettre la formation de réseaux beaucoup plus profonds en atténuant le problème du gradient
problème du gradient qui s'évanouit.
-
EfficientNet : Développée par Google AI, cette famille de modèles
utilise une méthode de mise à l'échelle composée qui équilibre uniformément la profondeur, la largeur et la résolution du réseau pour créer des modèles qui sont à la fois très précis et efficaces sur le plan informatique.
qui sont à la fois très précis et efficaces sur le plan informatique.
-
Vision Transformer (ViT):
Cette architecture adapte le modèle
Transformer, qui a connu un grand succès, dans le domaine du
traitement du langage naturel (NLP)
pour les tâches de vision. Les ViTs traitent les images comme des séquences de patchs et utilisent l'auto-attention pour capturer le contexte global.
l 'auto-attention pour saisir le contexte global, ce qui s'éloigne des champs réceptifs locaux des CNN traditionnels.
contexte global, ce qui s'éloigne des champs réceptifs locaux des CNN traditionnels.
-
CSPNet (Cross Stage Partial Network) : Comme indiqué dans son
l 'article original, cette architecture améliore l'efficacité de l'apprentissage en partitionnant les cartes de caractéristiques afin de réduire les goulets d'étranglement informatiques.
en partitionnant les cartes de caractéristiques afin de réduire les goulets d'étranglement informatiques. Il s'agit d'un élément clé de nombreux Ultralytics YOLO
d'Ultralytics.
Backbone vs. Head and Neck
Dans les architectures
détection d'objets, le modèle est généralement
modèle est généralement divisé en trois parties principales :
-
L'épine dorsale : En tant que base, son rôle est d'extraire des cartes de caractéristiques à différentes échelles à partir de l'image d'entrée.
d'entrée.
-
Le cou : Ce composant relie la colonne vertébrale à la tête. Il affine et agrège les caractéristiques de l'épine dorsale, en combinant souvent des informations provenant de différentes couches afin de créer une représentation plus riche.
de l'épine dorsale, en combinant souvent des informations provenant de différentes couches pour créer une représentation plus riche. Un exemple courant
est le Feature Pyramid Network (FPN).
-
Tête de détection: il s'agit de la partie
du réseau. Elle prend les caractéristiques affinées du cou et exécute la tâche principale, telle que la prédiction des boîtes englobantes, des étiquettes de classe et des scores de confiance.
les boîtes englobantes, les étiquettes de classe et les scores de confiance
pour chaque objet.
L'épine dorsale est donc l'élément fondamental de l'ensemble du modèle. Vous pouvez explorer une variété de comparaisons de modèles
comparaisons de modèlesYOLO pour voir comment les différents choix architecturaux
d'architecture affectent les performances.
Applications concrètes
Les backbones sont des composants essentiels dans d'innombrables applications d'intelligence artificielle dans divers secteurs :
-
Véhicules autonomes: Dans les
voitures autonomes, des réseaux de base robustes tels que ResNet
ou EfficientNet traitent l'imagerie des caméras pour detect et classify autres véhicules, les piétons et les feux de signalisation.
les feux de signalisation. Cette extraction de caractéristiques est essentielle pour la navigation et la prise de décision du véhicule, comme le démontrent les systèmes développés par des entreprises telles que Waynex.
comme le démontrent les systèmes développés par des entreprises telles que Waymo.
-
Analyse d'images médicales:
Dans les solutions d'IA pour les soins de santé, les dorsales sont utilisées pour analyser les scans médicaux tels que les radiographies et les IRM.
pour analyser les scanners médicaux tels que les radiographies et les IRM. Par exemple, un backbone peut extraire des caractéristiques d'une radiographie du thorax afin d'identifier les signes de pneumonie ou d'un scanner afin de détecter d'éventuelles tumeurs.
pour identifier les signes d'une pneumonie ou d'un scanner pour détecter des tumeurs potentielles, comme le souligne une étude de la revue
Radiologie : Artificial Intelligence. Cela aide les radiologues à
radiologues à établir des diagnostics plus rapides et plus précis, et des modèles comme YOLO11 peuvent être affinés pour des tâches spécialisées telles que la détection de tumeurs.
la détection de tumeurs.