Découvrez le rôle d'une infrastructure dans l'apprentissage profond. Découvrez comment Ultralytics utilise des infrastructures optimisées pour une extraction rapide et précise des caractéristiques et la détection d'objets.
Une architecture de base est le composant fondamental d'extraction de caractéristiques d'une architecture d'apprentissage profond, agissant comme le principal moteur qui transforme les données brutes en représentations significatives. Dans le contexte de la vision par ordinateur, l'architecture de base comprend généralement une série de couches au sein d'un réseau neuronal qui traite les images d'entrée afin d' identifier des modèles hiérarchiques. Ces modèles vont de caractéristiques simples de bas niveau, telles que les contours et les textures, à des concepts complexes de haut niveau, tels que les formes et les objets. La sortie de la colonne vertébrale, souvent appelée carte de caractéristiques, sert d'entrée pour les composants en aval qui effectuent des tâches spécifiques telles que la classification ou la détection.
La fonction principale d'une dorsale est de « voir » et de comprendre le contenu visuel d'une image avant que des décisions spécifiques ne soient prises. Elle agit comme un traducteur universel, convertissant les valeurs des pixels en un format condensé et riche en informations. La plupart des dorsales modernes s'appuient sur des réseaux neuronaux convolutifs (CNN) ou des transformateurs de vision (ViT) et sont souvent pré-entraînées sur des ensembles de données massifs tels que ImageNet. Ce processus de pré-entraînement , aspect central de l'apprentissage par transfert, permet au modèle d'exploiter les caractéristiques visuelles apprises précédemment, ce qui réduit considérablement les données et le temps nécessaires pour entraîner un nouveau modèle pour une application spécifique.
Par exemple, lorsque l'on utilise Ultralytics , l' architecture comprend une épine dorsale hautement optimisée qui extrait efficacement les caractéristiques multi-échelles. Cela permet aux parties suivantes du réseau de se concentrer entièrement sur la localisation des objets et l'attribution de probabilités de classe sans avoir besoin de réapprendre à reconnaître les structures visuelles de base à partir de zéro.
Pour bien comprendre l'architecture des modèles de détection d'objets, il est essentiel de distinguer le tronc commun des deux autres composantes principales : le cou et la tête.
Les backbones sont les moteurs silencieux derrière de nombreuses applications industrielles et scientifiques de l'IA. Leur capacité à généraliser les données visuelles les rend adaptables à divers secteurs.
Des architectures de pointe telles que YOLO11 et la technologie de pointe YOLO26 intègrent par défaut de puissantes infrastructures. Ces composants sont conçus pour offrir une latence d'inférence optimale sur diverses plateformes matérielles , des appareils périphériques aux GPU haute performance .
Python suivant montre comment charger un modèle avec une structure pré-entraînée à l'aide de la fonction
ultralytics paquet. Cette configuration exploite automatiquement la colonne vertébrale pour l'extraction de caractéristiques pendant l'
inférence.
from ultralytics import YOLO
# Load a YOLO26 model, which includes a pre-trained CSP backbone
model = YOLO("yolo26n.pt")
# Perform inference on an image
# The backbone extracts features, which are then used for detection
results = model("https://ultralytics.com/images/bus.jpg")
# Display the resulting detection
results[0].show()
En utilisant une infrastructure pré-entraînée, les développeurs peuvent effectuer des ajustements sur leurs propres ensembles de données personnalisés à l'aide de Ultralytics . Cette approche facilite le développement rapide de modèles spécialisés, tels que ceux utilisés pour la détection de colis dans le domaine de la logistique, sans les énormes ressources informatiques généralement nécessaires pour entraîner un réseau neuronal profond à partir de zéro.