Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Trường Tiếp Nhận

Learn how receptive fields help [CNNs](https://www.ultralytics.com/glossary/convolutional-neural-network-cnn) see context. Explore why [YOLO26](https://docs.ultralytics.com/models/yolo26/) optimizes this for superior object detection.

In the domain of computer vision (CV) and deep learning, the receptive field refers to the specific region of an input image that a particular neuron in a neural network (NN) "sees" or analyzes. Conceptually, it functions similarly to the field of view of a human eye or a camera lens. It determines how much spatial context a model can perceive at any given layer. As data progresses through a Convolutional Neural Network (CNN), the receptive field typically expands, allowing the system to transition from identifying tiny, local details—like edges or corners—to understanding complex, global structures like entire objects or scenes.

The Mechanics Of Receptive Fields

Kích thước và độ sâu của trường tiếp nhận được quyết định bởi kiến trúc của mạng. Ở các lớp ban đầu, các nơ-ron thường có trường tiếp nhận nhỏ, tập trung vào một cụm pixel nhỏ để thu nhận các chi tiết tinh tế. Khi mạng sâu hơn, các thao tác như lớp gộp (pooling layers) và phép tích chập bước nhảy (strided convolutions) sẽ làm giảm kích thước bản đồ đặc trưng một cách hiệu quả. Quá trình này cho phép các nơ-ron tiếp theo tổng hợp thông tin từ một phần lớn hơn nhiều của đầu vào ban đầu.

Các kiến trúc hiện đại, bao gồm cả Ultralytics YOLO26 tiên tiến nhất, được thiết kế để cân bằng các trường này một cách tỉ mỉ. Nếu trường tiếp nhận quá hẹp, mô hình có thể không nhận dạng được các đối tượng lớn vì nó không thể nhận biết toàn bộ hình dạng. Ngược lại, nếu trường quá rộng mà không duy trì độ phân giải, mô hình có thể bỏ sót các đối tượng nhỏ. Để giải quyết vấn đề này, các kỹ sư thường sử dụng phép tích chập giãn nở (còn được gọi là phép tích chập co rút) để mở rộng trường tiếp nhận mà không làm giảm độ phân giải không gian, một kỹ thuật rất quan trọng đối với các tác vụ có độ chính xác cao như phân đoạn ngữ nghĩa .

Các Ứng dụng Thực tế

Việc tối ưu hóa phạm vi tiếp nhận là yếu tố then chốt cho sự thành công của nhiều giải pháp trí tuệ nhân tạo .

  • Lái xe tự động: Trong trí tuệ nhân tạo dành cho ô tô , các hệ thống nhận thức phải đồng thời... track Các chi tiết nhỏ nhất và các chướng ngại vật lớn. Một chiếc xe cần một trường nhận biết nhỏ để nhận diện đèn giao thông ở xa, đồng thời cần một trường nhận biết lớn để hiểu được quỹ đạo của một chiếc xe tải gần đó hoặc độ cong của làn đường. Khả năng nhận thức đa quy mô này đảm bảo an toàn và ra quyết định tốt hơn cho AI .
  • Chẩn đoán y khoa: Khi ứng dụng AI trong chăm sóc sức khỏe , các bác sĩ X quang dựa vào các mô hình để phát hiện những bất thường trong ảnh chụp. Để xác định khối u não , mạng lưới cần một trường tiếp nhận lớn để hiểu được sự đối xứng và cấu trúc tổng thể của não. Tuy nhiên, để detect Trong chụp nhũ ảnh, mô hình này dựa trên các lớp sớm với trường tiếp nhận nhỏ, nhạy cảm với những thay đổi cấu trúc tinh tế.

Phân biệt các khái niệm liên quan

Để hiểu đầy đủ về thiết kế mạng, cần phân biệt trường tiếp nhận với các thuật ngữ tương tự:

  • Vùng tiếp nhận so với kích thước bộ lọc : Kích thước bộ lọc (hoặc kernel) xác định kích thước của cửa sổ trượt (ví dụ: 3x3) cho một phép toán tích chập đơn lẻ. Vùng tiếp nhận là một thuộc tính phát sinh, biểu thị tổng diện tích đầu vào tích lũy ảnh hưởng đến một nơ-ron. Một chồng nhiều bộ lọc 3x3 sẽ tạo ra một vùng tiếp nhận lớn hơn nhiều so với 3x3.
  • Trường tiếp nhận so với bản đồ đặc trưng : Bản đồ đặc trưng là thể tích đầu ra được tạo ra bởi một lớp, chứa các biểu diễn đã học. Trường tiếp nhận mô tả mối quan hệ giữa một điểm duy nhất trên bản đồ đặc trưng đó và hình ảnh đầu vào gốc.
  • Trường tiếp nhận so với Cửa sổ ngữ cảnh : Mặc dù cả hai thuật ngữ đều đề cập đến phạm vi dữ liệu được nhận biết, "cửa sổ ngữ cảnh" thường được sử dụng trong Xử lý ngôn ngữ tự nhiên (NLP) hoặc phân tích video để chỉ một khoảng thời gian hoặc trình tự (ví dụ: giới hạn token). Trường tiếp nhận đề cập chính xác đến khu vực không gian trong dữ liệu dạng lưới (hình ảnh).

Practical Usage In Code

State-of-the-art models like the newer YOLO26 utilize Feature Pyramid Networks (FPN) to maintain effective receptive fields for objects of all sizes. The following example shows how to load a model and perform object detection, leveraging these internal architectural optimizations automatically. Users looking to train their own models with optimized architectures can utilize the Ultralytics Platform for seamless dataset management and cloud training.

from ultralytics import YOLO

# Load the latest YOLO26 model with optimized multi-scale receptive fields
model = YOLO("yolo26n.pt")

# Run inference; the model aggregates features from various receptive field sizes
results = model("https://ultralytics.com/images/bus.jpg")

# Display the results, detecting both large (bus) and small (person) objects
results[0].show()

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay