Glossaire

Backbone

Découvrez le rôle des backbones dans l'apprentissage profond, explorez les principales architectures telles que ResNet et ViT, et découvrez leurs applications concrètes dans le domaine de l'IA.

Une colonne vertébrale est un composant essentiel d'un modèle d'apprentissage profond, en particulier dans vision par ordinateur (VA). Il fonctionne comme le réseau principal d'extraction des caractéristiques, conçu pour prendre des données d'entrée brutes telles qu'une image et les transformer en un ensemble de caractéristiques de haut niveau. Ces Ces cartes de caractéristiques capturent des modèles essentiels tels que les bords, les textures et les formes, les textures et les formes. Cette représentation riche est ensuite utilisée par les parties suivantes du réseau pour effectuer des tâches telles que la détection d'objets la segmentation d'images ou la classification d'images. L'épine dorsale est la base d'un réseau neuronal (RN) qui apprend à "voir" les éléments visuels fondamentaux d'une image. "voir" les éléments visuels fondamentaux d'une image.

Comment fonctionnent les Backbones

En règle générale, une épine dorsale est un réseau de neurones profonds réseau neuronal convolutif (CNN) profond qui a été pré-entraîné sur un ensemble de données de classification à grande échelle, tel qu'un ImageNet. Ce pré-entraînement, une forme d'apprentissage par transfert, permet au réseau d'apprendre une d 'apprentissage par transfert, permet au réseau d'apprendre une une vaste bibliothèque de caractéristiques visuelles générales. Lorsqu'ils développent un modèle pour une nouvelle tâche spécifique, les développeurs utilisent souvent une base pré-entraînée au lieu de partir de zéro. au lieu de partir de zéro. Cette approche réduit considérablement le temps nécessaire pour d 'entraînement des modèles personnalisés et réduit les besoins en données, ce qui se traduit souvent par de meilleures performances. souvent de meilleures performances. Les caractéristiques extraites par l'épine dorsale sont ensuite transmises au "cou" et à la "tête" du réseau. Les caractéristiques extraites par l'épine dorsale sont ensuite transmises au "cou" et à la "tête" du réseau, qui procèdent à un raffinement supplémentaire et génèrent la sortie finale. Le choix du est souvent un compromis entre la précision, la taille du modèle et la latence d'inférence, un facteur critique. la latence de l'inférence, un facteur critique pour d'inférence, un facteur critique pour performance en temps réel.

Le code suivant montre comment un logiciel pré-entraîné de Ultralytics YOLO11 pré-entraîné, qui contient une peut être chargé et utilisé pour l'inférence sur une image.

from ultralytics import YOLO

# Load a pre-trained YOLO11 model. Its architecture includes a powerful backbone.
model = YOLO("yolo11n.pt")

# Run inference. The backbone processes the image to extract features for detection.
results = model("https://ultralytics.com/images/bus.jpg")

# Display the detection results
results[0].show()

Architectures de backbone courantes

La conception des dorsales a considérablement évolué, chaque nouvelle architecture offrant des améliorations en termes de performances et d'efficacité. performance et d'efficacité. Parmi les architectures les plus influentes, on peut citer les suivantes :

Réseaux résiduels (ResNet): Introduits par Microsoft Research, les modèles ResNet utilisent des "connexions sautées" pour permettre la formation de réseaux beaucoup plus profonds en atténuant le problème du gradient problème du gradient qui s'évanouit.
EfficientNet : Développée par Google AI, cette famille de modèles utilise une méthode de mise à l'échelle composée qui équilibre uniformément la profondeur, la largeur et la résolution du réseau pour créer des modèles qui sont à la fois très précis et efficaces sur le plan informatique. qui sont à la fois très précis et efficaces sur le plan informatique.
Vision Transformer (ViT): Cette architecture adapte le modèle Transformer, qui a connu un grand succès, dans le domaine du traitement du langage naturel (NLP) pour les tâches de vision. Les ViTs traitent les images comme des séquences de patchs et utilisent l'auto-attention pour capturer le contexte global. l 'auto-attention pour saisir le contexte global, ce qui s'éloigne des champs réceptifs locaux des CNN traditionnels. contexte global, ce qui s'éloigne des champs réceptifs locaux des CNN traditionnels.
CSPNet (Cross Stage Partial Network) : Comme indiqué dans son l 'article original, cette architecture améliore l'efficacité de l'apprentissage en partitionnant les cartes de caractéristiques afin de réduire les goulets d'étranglement informatiques. en partitionnant les cartes de caractéristiques afin de réduire les goulets d'étranglement informatiques. Il s'agit d'un élément clé de nombreux Ultralytics YOLO d'Ultralytics.

Backbone vs. Head and Neck

Dans les architectures détection d'objets, le modèle est généralement modèle est généralement divisé en trois parties principales :

L'épine dorsale : En tant que base, son rôle est d'extraire des cartes de caractéristiques à différentes échelles à partir de l'image d'entrée. d'entrée.
Le cou : Ce composant relie la colonne vertébrale à la tête. Il affine et agrège les caractéristiques de l'épine dorsale, en combinant souvent des informations provenant de différentes couches afin de créer une représentation plus riche. de l'épine dorsale, en combinant souvent des informations provenant de différentes couches pour créer une représentation plus riche. Un exemple courant est le Feature Pyramid Network (FPN).
Tête de détection: il s'agit de la partie du réseau. Elle prend les caractéristiques affinées du cou et exécute la tâche principale, telle que la prédiction des boîtes englobantes, des étiquettes de classe et des scores de confiance. les boîtes englobantes, les étiquettes de classe et les scores de confiance pour chaque objet.

L'épine dorsale est donc l'élément fondamental de l'ensemble du modèle. Vous pouvez explorer une variété de comparaisons de modèles comparaisons de modèlesYOLO pour voir comment les différents choix architecturaux d'architecture affectent les performances.

Applications concrètes

Les backbones sont des composants essentiels dans d'innombrables applications d'intelligence artificielle dans divers secteurs :

Véhicules autonomes: Dans les voitures autonomes, des réseaux de base robustes tels que ResNet ou EfficientNet traitent l'imagerie des caméras pour detect et classify autres véhicules, les piétons et les feux de signalisation. les feux de signalisation. Cette extraction de caractéristiques est essentielle pour la navigation et la prise de décision du véhicule, comme le démontrent les systèmes développés par des entreprises telles que Waynex. comme le démontrent les systèmes développés par des entreprises telles que Waymo.
Analyse d'images médicales: Dans les solutions d'IA pour les soins de santé, les dorsales sont utilisées pour analyser les scans médicaux tels que les radiographies et les IRM. pour analyser les scanners médicaux tels que les radiographies et les IRM. Par exemple, un backbone peut extraire des caractéristiques d'une radiographie du thorax afin d'identifier les signes de pneumonie ou d'un scanner afin de détecter d'éventuelles tumeurs. pour identifier les signes d'une pneumonie ou d'un scanner pour détecter des tumeurs potentielles, comme le souligne une étude de la revue Radiologie : Artificial Intelligence. Cela aide les radiologues à radiologues à établir des diagnostics plus rapides et plus précis, et des modèles comme YOLO11 peuvent être affinés pour des tâches spécialisées telles que la détection de tumeurs. la détection de tumeurs.

Backbone

Former les modèlesYOLO d'Ultralytics pour rationaliser les flux de travail dans tous les secteurs d'activité

Solution de licence d'entreprise flexible pour dynamiser votre innovation

Former des modèles d'IA en quelques secondes avec Ultralytics YOLO

Comment fonctionnent les Backbones

Architectures de backbone courantes

Backbone vs. Head and Neck

Applications concrètes

En savoir plus dans cette catégorie

Comprendre pourquoi l'annotation humaine est essentielle

Qu'est-ce que la distillation de jeux de données ? Un aperçu rapide

Les lunettes Oakley Meta AI redéfinissent les lunettes grâce à la technologie Vision AI.

Rejoindre la communauté Ultralytics