Khám phá cách Mạng Kim tự tháp Đặc trưng (FPN) nâng cao khả năng phát hiện đối tượng đa tỷ lệ. Tìm hiểu cách thức Ultralytics YOLO26 sử dụng FPN tiên tiến để detect vật thể nhỏ và lớn.
Mạng kim tự tháp đặc trưng (Feature Pyramid Network - FPN) là một thành phần kiến trúc chuyên biệt được sử dụng trong các hệ thống thị giác máy tính (CV) hiện đại để cải thiện khả năng phát hiện đối tượng ở nhiều tỷ lệ khác nhau. Nó giải quyết hiệu quả một thách thức lâu dài trong phân tích hình ảnh: nhận dạng cả các cấu trúc lớn, nổi bật và các chi tiết nhỏ, ở xa trong cùng một hình ảnh. Bằng cách tạo ra một biểu diễn đa tỷ lệ của đầu vào—về mặt khái niệm tương tự như một kim tự tháp—FPN cho phép mạng nơ-ron trích xuất thông tin ngữ nghĩa phong phú ở mọi mức độ phân giải. Kiến trúc này thường nằm giữa phần xương sống (backbone) , phần trích xuất các đặc trưng thô, và phần đầu phát hiện (detection head ), phần dự đoán các lớp đối tượng và hộp giới hạn.
Sự đổi mới cốt lõi của FPN nằm ở cách nó xử lý thông tin. Các mạng nơ-ron tích chập (CNN) truyền thống tạo ra một hệ thống phân cấp các đặc trưng, trong đó hình ảnh đầu vào được giảm kích thước dần dần. Mặc dù điều này giúp hiểu sâu hơn về ngữ nghĩa (biết được những gì có trong hình ảnh), nhưng nó thường làm giảm độ phân giải không gian (biết chính xác vị trí của vật thể), khiến các vật thể nhỏ biến mất.
FPN giải quyết vấn đề này thông qua quy trình ba bước:
Sự kết hợp này tạo ra một cấu trúc hình kim tự tháp, trong đó mỗi cấp độ đều có ngữ nghĩa mạnh mẽ và khả năng định vị tốt, giúp tăng đáng kể độ chính xác và khả năng thu hồi dữ liệu trên mọi kích thước đối tượng.
Mạng nơ-ron đa lớp (FPN) là nền tảng của các kiến trúc phát hiện đối tượng hiện đại. Trước khi chúng được giới thiệu, các mô hình phải lựa chọn giữa tốc độ (chỉ sử dụng lớp cuối cùng) hoặc độ chính xác (xử lý kim tự tháp hình ảnh, rất chậm). FPN cung cấp giải pháp tối ưu, cho phép suy luận thời gian thực mà không làm giảm khả năng phát hiện đối tượng nhỏ.
Hiệu quả này rất quan trọng đối với các mô hình tiên tiến như YOLO26 , sử dụng các mạng tổng hợp phức tạp lấy cảm hứng từ các nguyên tắc FPN (như PANet) để đạt được hiệu suất hàng đầu. Kiến trúc này đảm bảo rằng dù mô hình được triển khai trên các thiết bị biên hay máy chủ mạnh mẽ thông qua Nền tảng Ultralytics , nó vẫn duy trì độ chính xác cao trên nhiều tập dữ liệu khác nhau.
Khả năng hoạt động ở nhiều quy mô khác nhau của FPN khiến chúng trở nên không thể thiếu trong các ngành công nghiệp mà an toàn và độ chính xác là tối quan trọng.
Việc phân biệt FPN tiêu chuẩn với các biến thể đã được cải tiến của nó trong các kiến trúc mới hơn là rất hữu ích.
Các thư viện nâng cao như ultralytics Xử lý sự phức tạp của việc xây dựng FPN nội bộ. Khi bạn tải một mô hình như YOLO26, kiến trúc sẽ tự động bao gồm các lớp tổng hợp tính năng này để tối đa hóa hiệu suất.
from ultralytics import YOLO
# Load the YOLO26 model, which uses advanced feature pyramid principles internally
# The 'n' suffix indicates the nano version, optimized for speed
model = YOLO("yolo26n.pt")
# Perform inference on an image containing objects of various sizes
# The model's neck (FPN-based) aggregates features to detect small and large items
results = model("https://ultralytics.com/images/bus.jpg")
# Display results to see bounding boxes around buses (large) and people (small)
results[0].show()