Tìm hiểu cách Mạng kim tự tháp tính năng (FPN) cho phép phát hiện đối tượng đa quy mô—tăng độ chính xác cho các đối tượng nhỏ và lớn trong YOLO11 và các hệ thống CV hiện đại.
Mạng Kim tự tháp Đặc trưng (FPN) là một thành phần trong các mô hình học sâu , đặc biệt là các kiến trúc phát hiện đối tượng , được thiết kế để cải thiện khả năng phát hiện đối tượng ở nhiều tỷ lệ khác nhau. Trong bất kỳ hình ảnh nào, đối tượng có thể xuất hiện lớn hoặc nhỏ tùy thuộc vào kích thước và khoảng cách của chúng so với máy ảnh. FPN giải quyết thách thức này bằng cách tạo ra một biểu diễn đa tỷ lệ hiệu quả của các đặc trưng, cho phép mô hình nhận dạng đồng thời một chiếc ô tô nhỏ ở xa và một chiếc xe tải lớn ở gần với độ chính xác cao. Nó hoạt động như một cầu nối, hay "cổ chai", giữa bộ trích xuất đặc trưng chính và thành phần dự đoán cuối cùng của mạng.
FPN hoạt động bằng cách kết hợp các đặc điểm ngữ nghĩa mạnh, độ phân giải thấp với các đặc điểm ngữ nghĩa yếu, độ phân giải cao. Quá trình này thường được thực hiện thông qua một cấu trúc có hai đường dẫn và các kết nối bên.
Trong một mô hình phát hiện đối tượng điển hình, kiến trúc được chia thành xương sống, cổ và đầu. FPN là một lựa chọn phổ biến cho thành phần cổ. Vai trò chính của nó là tổng hợp các đặc điểm được trích xuất bởi xương sống trước khi chúng được sử dụng cho tác vụ phát hiện cuối cùng. Bằng cách cung cấp một biểu diễn đặc điểm phong phú, đa tỷ lệ, FPN cho phép các mô hình như YOLO11 hoạt động mạnh mẽ trên nhiều kích thước đối tượng. Cách tiếp cận này hiệu quả hơn về mặt tính toán so với việc xử lý ảnh ở nhiều độ phân giải riêng biệt, vì nó tái sử dụng các đặc điểm được tính toán trong lần chuyển tiếp duy nhất của xương sống. Nhiều mô hình tiên tiến tận dụng khái niệm này, như đã thấy trong nhiều so sánh mô hình YOLO .
FPN là một phần không thể thiếu của nhiều ứng dụng thị giác máy tính (CV) hiện đại, trong đó việc phát hiện đối tượng đa thang đo là rất quan trọng.
Mặc dù FPN đánh dấu một bước tiến đáng kể, các kiến trúc mới hơn đã phát triển khái niệm này. Một ví dụ đáng chú ý là Mạng Kim tự tháp Tính năng Hai chiều (BiFPN), được giới thiệu trong bài báo EfficientDet của Google Research . Không giống như đường dẫn từ trên xuống đơn giản của FPN, BiFPN giới thiệu các kết nối hai chiều (cả từ trên xuống và từ dưới lên) và sử dụng phương pháp hợp nhất tính năng có trọng số, cho phép mạng học được tầm quan trọng của các tính năng đầu vào khác nhau. Điều này thường dẫn đến hiệu suất và hiệu quả tốt hơn, như được nêu bật trong các so sánh như EfficientDet so với YOLO11 . Mặc dù FPN là một khái niệm nền tảng, BiFPN đại diện cho một phương pháp tiếp cận tiên tiến và tối ưu hơn cho việc hợp nhất tính năng đa quy mô.