Mạng kim tự tháp tính năng (FPN)
Tìm hiểu cách Mạng kim tự tháp tính năng (FPN) cho phép phát hiện đối tượng đa quy mô—tăng cường độ chính xác cho các đối tượng nhỏ và lớn trong YOLO11 và hệ thống CV hiện đại.
Mạng kim tự tháp đặc trưng (Feature Pyramid Network - FPN) là một kiến trúc chuyên biệt được sử dụng trong thị giác máy tính (CV) để cải thiện khả năng phát hiện đối tượng ở các tỷ lệ khác nhau. Nó đóng vai trò là thành phần quan trọng trong nhiều kiến trúc phát hiện đối tượng hiện đại, được thiết kế để khắc phục những hạn chế của các bộ phát hiện truyền thống gặp khó khăn trong việc nhận dạng các vật thể nhỏ. Bằng cách tạo ra một kim tự tháp đặc trưng đa tỷ lệ từ một hình ảnh đầu vào có độ phân giải đơn, FPN cho phép các mô hình... detect Cả cấu trúc lớn và chi tiết nhỏ đều có thể được nhận diện với độ chính xác cao. Kiến trúc này thường nằm giữa bộ xử lý trung tâm (trích xuất đặc trưng) và bộ xử lý đầu phát hiện (dự đoán lớp và khung), giúp làm phong phú thêm thông tin ngữ nghĩa được truyền đến các lớp cuối cùng.
Hiểu về kiến trúc FPN
Mục tiêu chính của FPN là tận dụng cấu trúc phân cấp đa tỷ lệ, hình kim tự tháp vốn có của Mạng nơ-ron tích chập sâu (CNN) đồng thời giảm chi phí tính toán liên quan đến việc xử lý riêng lẻ nhiều tỷ lệ hình ảnh. Kiến trúc này bao gồm ba đường dẫn chính xử lý dữ liệu hình ảnh:
-
Phương pháp tiếp cận từ dưới lên : Đây là phương pháp tính toán truyền thẳng của mạng xương sống, chẳng hạn như Mạng dư (Residual Networks - ResNet) . Khi hình ảnh di chuyển qua các lớp, độ phân giải không gian giảm (hình ảnh nhỏ lại) trong khi giá trị ngữ nghĩa (ngữ cảnh của những gì có trong hình ảnh) tăng lên.
-
Quy trình từ trên xuống : Giai đoạn này tạo ra các đặc điểm có độ phân giải cao hơn bằng cách lấy mẫu nâng cao các bản đồ đặc điểm có độ phân giải không gian thô hơn nhưng có ý nghĩa ngữ nghĩa mạnh hơn từ các cấp độ cao hơn của kim tự tháp. Điều này giúp khôi phục chi tiết không gian bị mất trong quá trình từ dưới lên.
-
Kết nối ngang : Các kết nối này hợp nhất các bản đồ đặc trưng được lấy mẫu tăng từ đường dẫn từ trên xuống với các bản đồ đặc trưng tương ứng từ đường dẫn từ dưới lên. Sự kết hợp này kết hợp ngữ cảnh ngữ nghĩa cấp cao với thông tin về kết cấu và cạnh cấp thấp, giúp tăng độ chính xác đáng kể. Bài báo nghiên cứu FPN gốc đã chứng minh cách kỹ thuật này đạt được kết quả tiên tiến nhất trên các bộ dữ liệu chuẩn.
Tầm quan trọng trong Trí tuệ nhân tạo hiện đại
Trước khi có FPN (Data Attached Network), các bộ phát hiện đối tượng thường phải lựa chọn giữa việc chỉ sử dụng lớp trên cùng (tốt cho đối tượng lớn, không tốt cho đối tượng nhỏ) hoặc xử lý một kim tự tháp hình ảnh (chậm và tốn kém về mặt tính toán). FPN cung cấp một giải pháp "tốt nhất của cả hai". Khả năng này rất quan trọng đối với suy luận thời gian thực , cho phép các mô hình tiên tiến như YOLO26 và YOLO11 duy trì tốc độ khung hình cao trong khi vẫn xác định chính xác các đối tượng chỉ chiếm một vài pixel trên màn hình.
Các Ứng dụng Thực tế
Khả năng xử lý dữ liệu đa quy mô khiến FPN trở nên không thể thiếu trong nhiều ngành công nghiệp dựa trên trí tuệ nhân tạo (AI) .
-
Xe tự hành : Hệ thống tự lái phải đồng thời... track Các phương tiện lớn ở gần và đèn giao thông hoặc người đi bộ ở xa. Mạng nơ-ron đa cấp (FPN) cho phép hệ thống nhận thức xử lý các yếu tố này trong cùng một lượt suy luận, đảm bảo các quyết định an toàn được đưa ra ngay lập tức. Các bộ dữ liệu hàng đầu như Waymo Open Dataset thường được sử dụng để huấn luyện các khả năng đa quy mô này.
-
Phân tích hình ảnh y tế : Trong chẩn đoán hình ảnh, việc xác định các bất thường đòi hỏi độ chính xác trên nhiều thang đo. Khối u có thể là một khối lớn hoặc một nốt nhỏ ở giai đoạn đầu. Mạng nơ-ron nguyên phát (FPN) tăng cường các mô hình phân đoạn hình ảnh được sử dụng trong X quang, giúp các bác sĩ lâm sàng. detect Các tổn thương bệnh lý với kích thước khác nhau trên phim X-quang và ảnh chụp cộng hưởng từ, như thường được thảo luận trong các tạp chí Radiology AI .
FPN so với BiFPN và PANet
Mặc dù FPN đã tạo ra cuộc cách mạng trong việc trích xuất đặc trưng, các kiến trúc mới hơn đã tinh chỉnh khái niệm này.
-
BiFPN (Bi-directional Feature Pyramid Network) : Được sử dụng trong EfficientDet, mạng này giới thiệu các trọng số có thể học được để tìm hiểu tầm quan trọng của các đặc trưng đầu vào khác nhau và bổ sung các đường dẫn từ dưới lên vào các đường dẫn từ trên xuống hiện có.
-
PANet (Mạng tổng hợp đường dẫn) : Thường được sử dụng trong YOLO Trong các kiến trúc này, PANet bổ sung thêm một đường dẫn từ dưới lên vào cấu trúc FPN để rút ngắn đường dẫn thông tin cho các đặc trưng cấp thấp, từ đó cải thiện hơn nữa độ chính xác định vị.
-
Mô hình YOLO Ultralytics : Các phiên bản hiện đại như YOLO26 sử dụng các biến thể tiên tiến của các mạng tổng hợp này để tối ưu hóa sự cân bằng giữa tốc độ và độ chính xác trung bình ( mAP ) .
Ví dụ triển khai
Thư viện học sâu và Ultralytics Khung phần mềm xử lý các vấn đề phức tạp của FPN một cách nội bộ. Ví dụ sau đây minh họa cách tải một mô hình sử dụng cấu trúc kim tự tháp đặc trưng. detect các đối tượng.
from ultralytics import YOLO
# Load the YOLO26 model, which utilizes an advanced feature pyramid architecture
# The 'n' suffix stands for nano, a lightweight version of the model
model = YOLO("yolo26n.pt")
# Run inference on an image to detect objects ranging from small to large
# The model internally uses its FPN neck to aggregate features at multiple scales
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Display the resulting bounding boxes and class labels
results[0].show()