Receptive Field
Explore comment le champ récepteur (receptive field) définit ce qu'un réseau de neurones voit. Apprends comment Ultralytics YOLO26 optimise le contexte spatial pour détecter efficacement les objets de toutes tailles.
Dans le domaine de la computer vision (CV) et du deep learning, le champ récepteur désigne la région spécifique d'une image d'entrée qu'un neurone particulier dans un neural network (NN) « voit » ou analyse. Conceptuellement, il fonctionne de manière similaire au champ de vision d'un œil humain ou d'un objectif d'appareil photo. Il détermine la quantité de contexte spatial qu'un modèle peut percevoir à une couche donnée. À mesure que les données progressent dans un Convolutional Neural Network (CNN), le champ récepteur s'élargit généralement, permettant au système de passer de l'identification de détails minuscules et locaux — comme des bords ou des coins — à la compréhension de structures complexes et globales, telles que des objets entiers ou des scènes.
Link to this sectionLes mécanismes des champs récepteurs#
La taille et la profondeur du champ récepteur sont dictées par l'architecture du réseau. Dans les premières couches, les neurones ont généralement un petit champ récepteur, se concentrant sur un minuscule groupe de pixels pour capturer des textures fines. À mesure que le réseau s'approfondit, des opérations telles que les pooling layers et les strided convolutions effectuent efficacement un downsample des feature maps. Ce processus permet aux neurones suivants d'agréger des informations provenant d'une portion beaucoup plus large de l'entrée originale.
Les architectures modernes, y compris le Ultralytics YOLO26 à la pointe de la technologie, sont conçues pour équilibrer ces champs avec précision. Si le champ récepteur est trop étroit, le modèle peut échouer à reconnaître de gros objets car il ne peut pas percevoir leur forme entière. À l'inverse, si le champ est excessivement large sans maintenir la résolution, le modèle pourrait manquer de petits objets. Pour y remédier, les ingénieurs utilisent souvent des dilated convolutions (aussi appelées convolutions atrous) pour étendre le champ récepteur sans réduire la résolution spatiale, une technique vitale pour des tâches de haute précision comme la semantic segmentation.
Link to this sectionApplications concrètes#
L'optimisation du champ récepteur est cruciale pour le succès de diverses AI solutions.
- Conduite autonome : Dans l'AI for automotive, les systèmes de perception doivent simultanément suivre des détails minuscules et de gros obstacles. Un véhicule a besoin d'un petit champ récepteur pour identifier des feux de signalisation lointains, tout en nécessitant simultanément un grand champ récepteur pour comprendre la trajectoire d'un camion proche ou la courbure d'une voie de circulation. Cette perception multi-échelle assure une meilleure AI safety et une prise de décision plus efficace.
- Diagnostics médicaux : Lors de l'application de l'AI in healthcare, les radiologues s'appuient sur des modèles pour repérer des anomalies dans les scans. Pour identifier des brain tumors, le réseau nécessite un large champ récepteur pour comprendre la symétrie et la structure globales du cerveau. Cependant, pour détecter des micro-calcifications en mammographie, le modèle s'appuie sur des couches initiales avec de petits champs récepteurs sensibles aux changements de texture subtils.
Link to this sectionDistinguer les concepts apparentés#
Pour bien comprendre la conception de réseau, il est utile de différencier le champ récepteur de termes similaires :
- Champ récepteur vs Kernel : La taille du kernel (ou filtre) définit les dimensions de la fenêtre glissante (par exemple, 3x3) pour une seule opération de convolution. Le champ récepteur est une propriété émergente représentant la zone d'entrée totale accumulée affectant un neurone. Un empilement de plusieurs kernels 3x3 résultera en un champ récepteur beaucoup plus grand que 3x3.
- Champ récepteur vs Feature Map : Une feature map est le volume de sortie produit par une couche, contenant les représentations apprises. Le champ récepteur décrit la relation entre un point unique sur cette feature map et l'image d'entrée originale.
- Champ récepteur vs Context Window : Bien que les deux termes fassent référence à la portée des données perçues, « context window » est généralement utilisé dans le Natural Language Processing (NLP) ou l'analyse vidéo pour désigner une étendue temporelle ou séquentielle (par exemple, une limite de jetons). Le champ récepteur se réfère strictement à la zone spatiale dans des données sous forme de grille (images).
Link to this sectionUtilisation pratique dans le code#
Des modèles à la pointe de la technologie comme le nouveau YOLO26 utilisent des Feature Pyramid Networks (FPN) pour maintenir des champs récepteurs efficaces pour des objets de toutes tailles. L'exemple suivant montre comment charger un modèle et effectuer une object detection, en exploitant automatiquement ces optimisations architecturales internes. Les utilisateurs souhaitant entraîner leurs propres modèles avec des architectures optimisées peuvent utiliser la Ultralytics Platform pour une gestion fluide des datasets et un entraînement dans le cloud.
from ultralytics import YOLO
# Load the latest YOLO26 model with optimized multi-scale receptive fields
model = YOLO("yolo26n.pt")
# Run inference; the model aggregates features from various receptive field sizes
results = model("https://ultralytics.com/images/bus.jpg")
# Display the results, detecting both large (bus) and small (person) objects
results[0].show()





