Learn how receptive fields help [CNNs](https://www.ultralytics.com/glossary/convolutional-neural-network-cnn) see context. Explore why [YOLO26](https://docs.ultralytics.com/models/yolo26/) optimizes this for superior object detection.
In the domain of computer vision (CV) and deep learning, the receptive field refers to the specific region of an input image that a particular neuron in a neural network (NN) "sees" or analyzes. Conceptually, it functions similarly to the field of view of a human eye or a camera lens. It determines how much spatial context a model can perceive at any given layer. As data progresses through a Convolutional Neural Network (CNN), the receptive field typically expands, allowing the system to transition from identifying tiny, local details—like edges or corners—to understanding complex, global structures like entire objects or scenes.
Kích thước và độ sâu của trường tiếp nhận được quyết định bởi kiến trúc của mạng. Ở các lớp ban đầu, các nơ-ron thường có trường tiếp nhận nhỏ, tập trung vào một cụm pixel nhỏ để thu nhận các chi tiết tinh tế. Khi mạng sâu hơn, các thao tác như lớp gộp (pooling layers) và phép tích chập bước nhảy (strided convolutions) sẽ làm giảm kích thước bản đồ đặc trưng một cách hiệu quả. Quá trình này cho phép các nơ-ron tiếp theo tổng hợp thông tin từ một phần lớn hơn nhiều của đầu vào ban đầu.
Các kiến trúc hiện đại, bao gồm cả Ultralytics YOLO26 tiên tiến nhất, được thiết kế để cân bằng các trường này một cách tỉ mỉ. Nếu trường tiếp nhận quá hẹp, mô hình có thể không nhận dạng được các đối tượng lớn vì nó không thể nhận biết toàn bộ hình dạng. Ngược lại, nếu trường quá rộng mà không duy trì độ phân giải, mô hình có thể bỏ sót các đối tượng nhỏ. Để giải quyết vấn đề này, các kỹ sư thường sử dụng phép tích chập giãn nở (còn được gọi là phép tích chập co rút) để mở rộng trường tiếp nhận mà không làm giảm độ phân giải không gian, một kỹ thuật rất quan trọng đối với các tác vụ có độ chính xác cao như phân đoạn ngữ nghĩa .
Việc tối ưu hóa phạm vi tiếp nhận là yếu tố then chốt cho sự thành công của nhiều giải pháp trí tuệ nhân tạo .
Để hiểu đầy đủ về thiết kế mạng, cần phân biệt trường tiếp nhận với các thuật ngữ tương tự:
State-of-the-art models like the newer YOLO26 utilize Feature Pyramid Networks (FPN) to maintain effective receptive fields for objects of all sizes. The following example shows how to load a model and perform object detection, leveraging these internal architectural optimizations automatically. Users looking to train their own models with optimized architectures can utilize the Ultralytics Platform for seamless dataset management and cloud training.
from ultralytics import YOLO
# Load the latest YOLO26 model with optimized multi-scale receptive fields
model = YOLO("yolo26n.pt")
# Run inference; the model aggregates features from various receptive field sizes
results = model("https://ultralytics.com/images/bus.jpg")
# Display the results, detecting both large (bus) and small (person) objects
results[0].show()