Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Mạng kim tự tháp tính năng (FPN)

Tìm hiểu cách Mạng kim tự tháp tính năng (FPN) cho phép phát hiện đối tượng đa quy mô—tăng cường độ chính xác cho các đối tượng nhỏ và lớn trong YOLO11 và hệ thống CV hiện đại.

Mạng kim tự tháp tính năng (FPN) là một kiến trúc cơ bản trong thị giác máy tính hiện đại (CV) được thiết kế để detect Các đối tượng ở nhiều tỷ lệ khác nhau với độ chính xác cao. Các mô hình học sâu (DL) truyền thống thường gặp khó khăn trong việc nhận dạng các đối tượng nhỏ vì chúng phụ thuộc vào các lớp sâu, nơi độ phân giải không gian bị mất. FPN giải quyết vấn đề này bằng cách xây dựng một cấu trúc kim tự tháp của các bản đồ đặc trưng , kết hợp các đặc trưng có độ phân giải thấp, mạnh về mặt ngữ nghĩa với các đặc trưng có độ phân giải cao, chi tiết về mặt không gian. Thiết kế này đóng vai trò như một "cổ" quan trọng trong nhiều kiến trúc phát hiện đối tượng , kết nối bộ trích xuất đặc trưng ban đầu—được gọi là xương sống —với các lớp dự đoán cuối cùng, hay còn gọi là đầu phát hiện . Bằng cách chia sẻ thông tin hiệu quả giữa các cấp độ khác nhau, FPN cho phép các mô hình như YOLO11 nhận dạng chính xác cả các chi tiết nhỏ, ở xa và các chủ thể lớn, nổi bật trong một hình ảnh duy nhất.

Hiểu về kiến trúc

Điểm đổi mới cốt lõi của Mạng Kim tự tháp Tính năng nằm ở cách nó xử lý thông tin hình ảnh qua ba giai đoạn riêng biệt. Cấu trúc này cho phép mạng duy trì khả năng biểu diễn hình ảnh phong phú trên nhiều độ phân giải mà không phải chịu chi phí tính toán lớn.

  1. Đường dẫn từ dưới lên: Giai đoạn này tương ứng với quá trình chuyển tiếp của Mạng nơ-ron tích chập (CNN) tiêu chuẩn, chẳng hạn như ResNet . Khi hình ảnh đi qua mạng, kích thước không gian giảm trong khi giá trị ngữ nghĩa (hiểu biết theo ngữ cảnh) tăng lên.
  2. Đường dẫn từ trên xuống: Để khôi phục chi tiết không gian bị mất, mạng lưới sẽ lấy mẫu lại các bản đồ đặc trưng thô về mặt không gian nhưng giàu ngữ nghĩa từ các lớp sâu hơn. Quá trình này tái tạo hiệu quả các bản đồ có độ phân giải cao hơn, chứa đựng ngữ cảnh rõ ràng.
  3. Kết nối ngang: Bước quan trọng bao gồm việc hợp nhất các bản đồ được lấy mẫu từ đường dẫn từ trên xuống với các bản đồ tương ứng từ đường dẫn từ dưới lên. Các kết nối ngang này hợp nhất ngữ cảnh ngữ nghĩa cấp cao với các kết cấu và cạnh cấp thấp được tìm thấy trong các lớp trước đó, tạo ra một kim tự tháp đặc trưng đa tỷ lệ. Bài báo nghiên cứu FPN ban đầu trình bày chi tiết cách thức hợp nhất này tăng đáng kể hiệu suất trên các tập dữ liệu chuẩn như COCO .

Tại sao phát hiện đa thang đo lại quan trọng

Trong các tình huống thực tế, các vật thể xuất hiện với kích thước rất khác nhau tùy thuộc vào khoảng cách của chúng đến máy ảnh. Một bộ phân loại tiêu chuẩn có thể dễ dàng phát hiện ra một chiếc xe hơi lấp đầy khung hình nhưng lại không thể. detect một người đi bộ ở phía sau. FPN giải quyết vấn đề này bằng cách phân công các nhiệm vụ dự đoán cho các cấp độ khác nhau của kim tự tháp. Các vật thể lớn được phát hiện trên các bản đồ đặc trưng sâu có độ phân giải thấp, trong khi các vật thể nhỏ được phát hiện trên các bản đồ đặc trưng hợp nhất có độ phân giải cao. Khả năng này rất cần thiết để đạt được độ chính xáckhả năng thu hồi cao trong các môi trường đa dạng, giúp phân biệt các mô hình được trang bị FPN với các máy dò đơn cấp cũ.

Các Ứng dụng Thực tế

Khả năng xử lý dữ liệu đa quy mô khiến FPN trở nên không thể thiếu trong nhiều ngành công nghiệp dựa trên trí tuệ nhân tạo (AI) .

  • Xe tự hành : Hệ thống tự lái phải đồng thời track Các phương tiện gần đó và đèn giao thông ở xa. FPN cho phép ngăn xếp nhận thức xử lý các yếu tố này trong cùng một lượt suy luận, đảm bảo các quyết định an toàn quan trọng được đưa ra theo thời gian thực. Nghiên cứu hàng đầu từ các tổ chức như Waymo nhấn mạnh tầm quan trọng của việc hiểu biết đa chiều như vậy đối với việc điều hướng.
  • Phân tích hình ảnh y tế : Trong chẩn đoán hình ảnh, việc xác định các bất thường đòi hỏi độ chính xác trên nhiều thang đo. Một khối u có thể là một khối u lớn hoặc một nốt nhỏ, giai đoạn đầu. FPN cải thiện các mô hình phân đoạn hình ảnh được sử dụng trong X-quang, hỗ trợ các bác sĩ lâm sàng. detect các bệnh lý có kích thước khác nhau trong ảnh chụp X-quang và MRI, như đã thảo luận trong các tạp chí Radiology AI .

FPN so với BiFPN

Trong khi FPN đã cách mạng hóa việc trích xuất đặc trưng, các kiến trúc mới hơn đã tinh chỉnh khái niệm này. Một bước tiến đáng chú ý là Mạng Kim tự tháp Đặc trưng Hai chiều (BiFPN) , được Google Research giới thiệu trong kiến trúc EfficientDet. Không giống như FPN tiêu chuẩn, vốn chảy theo một chiều (từ trên xuống), BiFPN bổ sung các đường dẫn từ dưới lên và học các trọng số cụ thể cho mỗi kết nối, ưu tiên các đặc trưng quan trọng hơn. Tuy nhiên, các thiết kế FPN tiêu chuẩn và các biến thể của chúng vẫn là nền tảng cho các mô hình hiệu suất cao như YOLO11 , cân bằng hiệu quả giữa tốc độ và độ chính xác cho hầu hết các tác vụ suy luận thời gian thực .

Ví dụ triển khai

Các thư viện hiện đại xử lý sự phức tạp của FPN nội bộ. Ví dụ sau đây minh họa việc sử dụng gói Ultralytics YOLO , gói này kết hợp các cấu trúc kim tự tháp tính năng nâng cao để detect các vật thể có mọi kích cỡ một cách liền mạch.

from ultralytics import YOLO

# Load the YOLO11 model, which utilizes a feature pyramid architecture for multi-scale detection
model = YOLO("yolo11n.pt")

# Run inference on an image to detect objects ranging from small to large
results = model.predict("path/to/street_scene.jpg")

# Display the resulting bounding boxes and class labels
results[0].show()

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay