Receptive Field
Khám phá cách trường tiếp nhận (receptive field) xác định những gì mạng thần kinh nhìn thấy. Tìm hiểu cách Ultralytics YOLO26 tối ưu hóa bối cảnh không gian để phát hiện hiệu quả các đối tượng ở mọi kích thước.
Trong lĩnh vực computer vision (CV) và deep learning, receptive field đề cập đến vùng cụ thể của một ảnh đầu vào mà một neuron nhất định trong neural network (NN) "nhìn thấy" hoặc phân tích. Về mặt khái niệm, nó hoạt động tương tự như trường nhìn của mắt người hoặc ống kính máy ảnh. Nó xác định mức độ ngữ cảnh không gian mà một model có thể nhận thức được tại bất kỳ layer nào. Khi dữ liệu đi qua một Convolutional Neural Network (CNN), receptive field thường mở rộng, cho phép hệ thống chuyển đổi từ việc nhận diện các chi tiết nhỏ, cục bộ—như cạnh hoặc góc—sang hiểu các cấu trúc toàn cục, phức tạp như toàn bộ vật thể hoặc cảnh quan.
Link to this sectionCơ chế của Receptive Field#
Kích thước và độ sâu của receptive field được quyết định bởi kiến trúc của mạng. Ở các layer ban đầu, các neuron thường có receptive field nhỏ, tập trung vào một cụm pixel nhỏ để nắm bắt các kết cấu chi tiết. Khi mạng sâu dần, các thao tác như pooling layers và strided convolutions thực hiện downsample hiệu quả các feature maps. Quá trình này cho phép các neuron tiếp theo tổng hợp thông tin từ một phần lớn hơn nhiều của dữ liệu đầu vào gốc.
Các kiến trúc hiện đại, bao gồm Ultralytics YOLO26 tiên tiến nhất, được thiết kế để cân bằng các trường này một cách tỉ mỉ. Nếu receptive field quá hẹp, model có thể không nhận diện được các vật thể lớn vì nó không thể nhận thức được toàn bộ hình dạng. Ngược lại, nếu trường quá rộng mà không duy trì được độ phân giải, model có thể bỏ lỡ các vật thể nhỏ. Để giải quyết vấn đề này, các kỹ sư thường sử dụng dilated convolutions (còn được gọi là atrous convolutions) để mở rộng receptive field mà không làm giảm độ phân giải không gian, một kỹ thuật thiết yếu cho các tác vụ có độ chính xác cao như semantic segmentation.
Link to this sectionCác ứng dụng trong thực tế#
Tối ưu hóa receptive field là yếu tố then chốt cho sự thành công của nhiều AI solutions khác nhau.
- Autonomous Driving: Trong AI for automotive, các hệ thống nhận thức phải đồng thời theo dõi các chi tiết nhỏ và các vật cản lớn. Một phương tiện cần receptive field nhỏ để xác định đèn giao thông ở xa, trong khi đồng thời cần receptive field lớn để hiểu quỹ đạo của một chiếc xe tải gần đó hoặc độ cong của làn đường. Nhận thức đa quy mô này đảm bảo AI safety và khả năng ra quyết định tốt hơn.
- Medical Diagnostics: Khi ứng dụng AI in healthcare, các bác sĩ chẩn đoán hình ảnh dựa vào các model để phát hiện những điểm bất thường trong các bản quét. Để xác định brain tumors, mạng cần một receptive field lớn để hiểu cấu trúc và tính đối xứng tổng thể của não. Tuy nhiên, để phát hiện vi vôi hóa trong chụp nhũ ảnh, model dựa vào các layer sớm với receptive field nhỏ nhạy bén với những thay đổi tinh tế về kết cấu.
Link to this sectionPhân biệt các khái niệm liên quan#
Để hiểu đầy đủ về thiết kế mạng, việc phân biệt receptive field với các thuật ngữ tương tự là rất hữu ích:
- Receptive Field vs. Kernel: Kích thước kernel (hoặc filter) xác định kích thước của cửa sổ trượt (ví dụ: 3x3) cho một thao tác convolution đơn lẻ. Receptive field là một thuộc tính mới nổi đại diện cho tổng vùng đầu vào tích lũy ảnh hưởng đến một neuron. Một chồng gồm nhiều kernel 3x3 sẽ tạo ra một receptive field lớn hơn nhiều so với 3x3.
- Receptive Field vs. Feature Map: Một feature map là khối lượng đầu ra được tạo ra bởi một layer, chứa các biểu diễn đã học. Receptive field mô tả mối quan hệ giữa một điểm duy nhất trên feature map đó và ảnh đầu vào gốc.
- Receptive Field vs. Context Window: Mặc dù cả hai thuật ngữ đều đề cập đến phạm vi của dữ liệu được nhận thức, "context window" thường được sử dụng trong Natural Language Processing (NLP) hoặc phân tích video để chỉ một khoảng thời gian hoặc trình tự (ví dụ: giới hạn token). Receptive field chỉ đề cập nghiêm ngặt đến vùng không gian trong dữ liệu dạng lưới (hình ảnh).
Link to this sectionCách sử dụng thực tế trong Code#
Các model hiện đại như YOLO26 mới hơn sử dụng Feature Pyramid Networks (FPN) để duy trì receptive field hiệu quả cho các vật thể ở mọi kích thước. Ví dụ sau cho thấy cách tải một model và thực hiện object detection, tận dụng các tối ưu hóa kiến trúc nội bộ này một cách tự động. Những người dùng muốn huấn luyện model riêng của mình với các kiến trúc được tối ưu hóa có thể sử dụng Ultralytics Platform để quản lý tập dữ liệu và huấn luyện trên đám mây một cách liền mạch.
from ultralytics import YOLO
# Load the latest YOLO26 model with optimized multi-scale receptive fields
model = YOLO("yolo26n.pt")
# Run inference; the model aggregates features from various receptive field sizes
results = model("https://ultralytics.com/images/bus.jpg")
# Display the results, detecting both large (bus) and small (person) objects
results[0].show()





