Feature Pyramid Network (FPN)
Khám phá cách Feature Pyramid Networks (FPN) tăng cường phát hiện đối tượng đa quy mô. Tìm hiểu cách Ultralytics YOLO26 sử dụng các FPN tiên tiến để phát hiện các đối tượng nhỏ và lớn.
Feature Pyramid Network (FPN) là một thành phần kiến trúc chuyên biệt được sử dụng trong các hệ thống computer vision (CV) hiện đại để cải thiện khả năng phát hiện vật thể ở nhiều quy mô khác nhau. Nó giải quyết hiệu quả một thách thức lâu nay trong phân tích hình ảnh: nhận diện cả những cấu trúc lớn, nổi bật và những chi tiết nhỏ, ở xa trong cùng một hình ảnh. Bằng cách tạo ra biểu diễn đa quy mô của đầu vào—tương tự về mặt khái niệm với một kim tự tháp—FPN cho phép các mạng thần kinh trích xuất thông tin ngữ nghĩa phong phú ở mọi cấp độ phân giải. Kiến trúc này thường nằm giữa backbone, nơi trích xuất các đặc trưng thô, và detection head, nơi dự đoán các lớp đối tượng và hộp bao (bounding box).
Link to this sectionCách thức hoạt động của Feature Pyramid Network#
Đổi mới cốt lõi của FPN nằm ở cách nó xử lý thông tin. Các Convolutional Neural Networks (CNNs) truyền thống tạo ra một hệ thống phân cấp các đặc trưng, trong đó hình ảnh đầu vào được giảm lấy mẫu (downsampled) dần dần. Mặc dù điều này làm sâu sắc thêm sự hiểu biết về ngữ nghĩa (biết cái gì trong ảnh), nó thường làm giảm độ phân giải không gian (biết chính xác ở đâu), khiến các đối tượng nhỏ biến mất.
FPN giải quyết vấn đề này thông qua quy trình ba bước:
-
Bottom-Up Pathway: Đây là đường truyền dữ liệu chuẩn của mạng, ví dụ như Residual Network (ResNet). Khi mạng xử lý hình ảnh, nó tạo ra các feature maps có kích thước giảm dần nhưng tăng giá trị ngữ nghĩa.
-
Top-Down Pathway: Mạng xây dựng một kim tự tháp có độ phân giải cao hơn bằng cách tăng lấy mẫu (upsampling) các đặc trưng giàu ngữ nghĩa từ các lớp sâu hơn. Bước này "tái tạo" ngữ cảnh mạnh mẽ quay trở lại các bản đồ không gian lớn hơn.
-
Lateral Connections: Để khôi phục các chi tiết sắc nét bị mất trong quá trình giảm lấy mẫu, FPN hợp nhất các đặc trưng đã tăng lấy mẫu với các bản đồ độ phân giải cao ban đầu từ đường dẫn Bottom-Up thông qua các kết nối ngang (lateral connections).
Sự kết hợp này tạo ra một kim tự tháp mà ở đó mọi cấp độ đều có ngữ nghĩa mạnh mẽ và khả năng định vị tốt, giúp tăng đáng kể precision và recall trên mọi kích thước đối tượng.
Link to this sectionTầm quan trọng trong các kiến trúc phát hiện vật thể#
FPN là nền tảng của các object detection architectures hiện đại. Trước khi chúng ra đời, các mô hình phải chọn giữa tốc độ (chỉ sử dụng lớp cuối cùng) hoặc độ chính xác (xử lý kim tự tháp hình ảnh, vốn rất chậm). FPN cung cấp giải pháp tối ưu cho cả hai, cho phép real-time inference mà không làm giảm khả năng phát hiện các đối tượng nhỏ.
Hiệu quả này rất quan trọng đối với các mô hình tiên tiến như YOLO26, vốn tận dụng các mạng tổng hợp phức tạp lấy cảm hứng từ các nguyên lý FPN (như PANet) để đạt được hiệu suất vượt trội. Kiến trúc này đảm bảo rằng dù mô hình được triển khai trên các thiết bị biên hay các máy chủ mạnh mẽ thông qua Ultralytics Platform, nó vẫn duy trì độ chính xác cao trên các tập dữ liệu đa dạng.
Link to this sectionCác ứng dụng trong thực tế#
Khả năng đa quy mô của FPN khiến chúng trở nên không thể thiếu trong các ngành công nghiệp nơi sự an toàn và chính xác là ưu tiên hàng đầu.
- AI in Automotive: Các phương tiện tự lái phải đồng thời theo dõi xe tải lớn ở gần và đèn giao thông nhỏ hoặc người đi bộ ở xa. FPN cho phép hệ thống nhận thức xử lý các quy mô khác biệt này trong một lần truyền, đảm bảo đưa ra quyết định kịp thời. Các tập dữ liệu như nuScenes thường được sử dụng để đánh giá các khả năng này.
- Medical Image Analysis: Trong chẩn đoán hình ảnh, việc phát hiện bệnh lý đòi hỏi phải tìm ra các điểm bất thường có kích thước rất khác nhau. Một mô hình được trang bị FPN có thể xác định cả cấu trúc cơ quan lớn và các khối u nhỏ ở giai đoạn đầu trong các MRI scans, hỗ trợ bác sĩ chẩn đoán hình ảnh đưa ra các chẩn đoán chính xác.
- AI in Agriculture: Nông nghiệp chính xác dựa vào việc phát hiện cây trồng và sâu bệnh từ hình ảnh drone. Vì độ cao của drone có thể thay đổi, kích thước của cây trong ảnh cũng thay đổi. FPN giúp các mô hình khái quát hóa tốt, thực hiện chính xác việc object counting bất kể chiều cao camera.
Link to this sectionFPN so với các bộ tổng hợp đặc trưng khác#
Việc phân biệt FPN tiêu chuẩn với các biến thể phát triển của nó được tìm thấy trong các kiến trúc mới hơn là rất hữu ích.
- FPN so với PANet: Trong khi FPN thêm đường truyền từ trên xuống để làm phong phú các đặc trưng, Path Aggregation Network (PANet) thêm một đường truyền từ dưới lên trên FPN. Điều này rút ngắn đường dẫn thông tin cho các đặc trưng cấp thấp, cải thiện hơn nữa khả năng định vị, một kỹ thuật thường được áp dụng trong các mô hình YOLO.
- FPN so với BiFPN: Được tìm thấy trong EfficientDet, Bi-directional Feature Pyramid Network (BiFPN) giới thiệu các trọng số có thể học cho các đặc trưng khác nhau và loại bỏ các nút chỉ có một đầu vào, tối ưu hóa mạng để đạt hiệu quả cao hơn.
Link to this sectionVí dụ thực tế#
Các thư viện nâng cao như ultralytics xử lý sự phức tạp của việc xây dựng FPN ở bên trong. Khi bạn tải một mô hình như YOLO26, kiến trúc sẽ tự động bao gồm các lớp tổng hợp đặc trưng này để tối đa hóa hiệu suất.
from ultralytics import YOLO
# Load the YOLO26 model, which uses advanced feature pyramid principles internally
# The 'n' suffix indicates the nano version, optimized for speed
model = YOLO("yolo26n.pt")
# Perform inference on an image containing objects of various sizes
# The model's neck (FPN-based) aggregates features to detect small and large items
results = model("https://ultralytics.com/images/bus.jpg")
# Display results to see bounding boxes around buses (large) and people (small)
results[0].show()





