Découvrez comment le champ réceptif définit ce que voit un réseau neuronal. Apprenez comment Ultralytics optimise le contexte spatial pour detect efficacement detect de toutes tailles.
Dans le domaine de la vision par ordinateur (CV) et de l'apprentissage profond , le champ réceptif désigne la région spécifique d'une image d'entrée qu'un neurone particulier d'un réseau neuronal (NN) « voit » ou analyse. Conceptuellement, il fonctionne de manière similaire au champ de vision de l'œil humain ou de l'objectif d'un appareil photo. Il détermine la quantité de contexte spatial qu'un modèle peut percevoir à un niveau donné. À mesure que les données progressent dans un réseau neuronal convolutif (CNN), le champ réceptif s'étend généralement, permettant au système de passer de l'identification de petits détails locaux, tels que les bords ou les coins, à la compréhension de structures globales complexes, telles que des objets ou des scènes entiers.
La taille et la profondeur du champ réceptif sont dictées par l'architecture du réseau. Dans les couches initiales, les neurones ont généralement un petit champ réceptif, se concentrant sur un petit groupe de pixels pour capturer des textures fines. À mesure que le réseau s'approfondit, des opérations telles que les couches de regroupement et les convolutions à pas variable réduisent efficacement la résolution des cartes de caractéristiques. Ce processus permet aux neurones suivants d'agréger des informations provenant d'une partie beaucoup plus grande de l'entrée d'origine.
Les architectures modernes, notamment le modèle de pointe Ultralytics , sont conçues pour équilibrer ces champs avec minutie. Si le champ réceptif est trop étroit, le modèle peut ne pas reconnaître les objets de grande taille, car il ne peut pas percevoir la forme dans son ensemble. À l'inverse, si le champ est trop large sans maintenir la résolution, le modèle pourrait ne pas détecter les petits objets. Pour remédier à cela, les ingénieurs utilisent souvent des convolutions dilatées (également appelées convolutions atrous ) pour élargir le champ réceptif sans réduire la résolution spatiale, une technique essentielle pour les tâches de haute précision telles que la segmentation sémantique.
L'optimisation du champ réceptif est essentielle à la réussite de diverses solutions d'IA.
Pour bien comprendre la conception des réseaux, il est utile de différencier le champ réceptif d'autres termes similaires :
Les modèles de pointe tels que le nouveau YOLO26 utilisent des réseaux pyramidaux de caractéristiques (FPN) afin de maintenir des champs réceptifs efficaces pour les objets de toutes tailles. L'exemple suivant montre comment charger un modèle et effectuer une détection d'objets, en tirant automatiquement parti de ces optimisations architecturales internes . Les utilisateurs qui souhaitent former leurs propres modèles avec des architectures optimisées peuvent utiliser la Ultralytics pour une gestion transparente des ensembles de données et une formation dans le cloud.
from ultralytics import YOLO
# Load the latest YOLO26 model with optimized multi-scale receptive fields
model = YOLO("yolo26n.pt")
# Run inference; the model aggregates features from various receptive field sizes
results = model("https://ultralytics.com/images/bus.jpg")
# Display the results, detecting both large (bus) and small (person) objects
results[0].show()