Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Mạng kim tự tháp tính năng (FPN)

Khám phá cách Mạng Kim tự tháp Đặc trưng (FPN) nâng cao khả năng phát hiện đối tượng đa tỷ lệ. Tìm hiểu cách thức Ultralytics YOLO26 sử dụng FPN tiên tiến để detect vật thể nhỏ và lớn.

Mạng kim tự tháp đặc trưng (Feature Pyramid Network - FPN) là một thành phần kiến ​​trúc chuyên biệt được sử dụng trong các hệ thống thị giác máy tính (CV) hiện đại để cải thiện khả năng phát hiện đối tượng ở nhiều tỷ lệ khác nhau. Nó giải quyết hiệu quả một thách thức lâu dài trong phân tích hình ảnh: nhận dạng cả các cấu trúc lớn, nổi bật và các chi tiết nhỏ, ở xa trong cùng một hình ảnh. Bằng cách tạo ra một biểu diễn đa tỷ lệ của đầu vào—về mặt khái niệm tương tự như một kim tự tháp—FPN cho phép mạng nơ-ron trích xuất thông tin ngữ nghĩa phong phú ở mọi mức độ phân giải. Kiến trúc này thường nằm giữa phần xương sống (backbone) , phần trích xuất các đặc trưng thô, và phần đầu phát hiện (detection head ), phần dự đoán các lớp đối tượng và hộp giới hạn.

Cách thức hoạt động của mạng lưới kim tự tháp đặc trưng

Sự đổi mới cốt lõi của FPN nằm ở cách nó xử lý thông tin. Các mạng nơ-ron tích chập (CNN) truyền thống tạo ra một hệ thống phân cấp các đặc trưng, ​​trong đó hình ảnh đầu vào được giảm kích thước dần dần. Mặc dù điều này giúp hiểu sâu hơn về ngữ nghĩa (biết được những gì có trong hình ảnh), nhưng nó thường làm giảm độ phân giải không gian (biết chính xác vị trí của vật thể), khiến các vật thể nhỏ biến mất.

FPN giải quyết vấn đề này thông qua quy trình ba bước:

  1. Đường dẫn từ dưới lên : Đây là đường truyền tiến tiêu chuẩn của mạng, chẳng hạn như mạng dư (Residual Network - ResNet) . Khi mạng xử lý hình ảnh, nó tạo ra các bản đồ đặc trưng có kích thước giảm dần nhưng giá trị ngữ nghĩa tăng lên.
  2. Đường dẫn từ trên xuống : Mạng lưới xây dựng một kim tự tháp có độ phân giải cao hơn bằng cách lấy mẫu nâng cao các đặc điểm giàu ngữ nghĩa từ các lớp sâu hơn. Bước này "tái tạo" ngữ cảnh mạnh mẽ trở lại các bản đồ không gian lớn hơn.
  3. Kết nối ngang : Để khôi phục các chi tiết sắc nét bị mất trong quá trình giảm độ phân giải, FPN kết hợp các đặc điểm được tăng độ phân giải với các bản đồ gốc có độ phân giải cao từ đường dẫn từ dưới lên thông qua các kết nối ngang.

Sự kết hợp này tạo ra một cấu trúc hình kim tự tháp, trong đó mỗi cấp độ đều có ngữ nghĩa mạnh mẽ khả năng định vị tốt, giúp tăng đáng kể độ chính xáckhả năng thu hồi dữ liệu trên mọi kích thước đối tượng.

Tầm quan trọng trong các kiến ​​trúc phát hiện đối tượng

Mạng nơ-ron đa lớp (FPN) là nền tảng của các kiến ​​trúc phát hiện đối tượng hiện đại. Trước khi chúng được giới thiệu, các mô hình phải lựa chọn giữa tốc độ (chỉ sử dụng lớp cuối cùng) hoặc độ chính xác (xử lý kim tự tháp hình ảnh, rất chậm). FPN cung cấp giải pháp tối ưu, cho phép suy luận thời gian thực mà không làm giảm khả năng phát hiện đối tượng nhỏ.

Hiệu quả này rất quan trọng đối với các mô hình tiên tiến như YOLO26 , sử dụng các mạng tổng hợp phức tạp lấy cảm hứng từ các nguyên tắc FPN (như PANet) để đạt được hiệu suất hàng đầu. Kiến trúc này đảm bảo rằng dù mô hình được triển khai trên các thiết bị biên hay máy chủ mạnh mẽ thông qua Nền tảng Ultralytics , nó vẫn duy trì độ chính xác cao trên nhiều tập dữ liệu khác nhau.

Các Ứng dụng Thực tế

Khả năng hoạt động ở nhiều quy mô khác nhau của FPN khiến chúng trở nên không thể thiếu trong các ngành công nghiệp mà an toàn và độ chính xác là tối quan trọng.

  • Trí tuệ nhân tạo trong ngành ô tô : Xe tự lái phải đồng thời đáp ứng các yêu cầu sau: track Những chiếc xe tải lớn ở gần đó và những đèn giao thông nhỏ hoặc người đi bộ ở xa. Mạng nơ-ron đa chiều (FPN) cho phép hệ thống xử lý nhận thức xử lý các quy mô khác nhau này trong một lần duy nhất, đảm bảo việc ra quyết định kịp thời. Các tập dữ liệu như nuScenes thường được sử dụng để đánh giá hiệu năng của các khả năng này.
  • Phân tích hình ảnh y tế : Trong chẩn đoán hình ảnh, việc phát hiện các bệnh lý đòi hỏi phải nhận diện các bất thường có kích thước rất khác nhau. Mô hình được trang bị FPN có thể xác định cả các cấu trúc cơ quan lớn và các khối u nhỏ, ở giai đoạn đầu trong ảnh chụp MRI , hỗ trợ các bác sĩ X quang đưa ra chẩn đoán chính xác.
  • Trí tuệ nhân tạo trong nông nghiệp : Nông nghiệp chính xác dựa vào việc phát hiện cây trồng và sâu bệnh từ hình ảnh chụp bằng máy bay không người lái. Vì độ cao của máy bay không người lái có thể thay đổi, kích thước của cây trồng trong hình ảnh cũng thay đổi. Mạng nơ-ron đa lớp (FPN) giúp các mô hình tổng quát hóa tốt, thực hiện việc đếm đối tượng chính xác bất kể độ cao của camera.

So sánh FPN với các công cụ tổng hợp tính năng khác

Việc phân biệt FPN tiêu chuẩn với các biến thể đã được cải tiến của nó trong các kiến ​​trúc mới hơn là rất hữu ích.

  • So sánh FPN và PANet : Trong khi FPN bổ sung một đường dẫn từ trên xuống để làm phong phú thêm các đặc trưng, ​​Mạng tổng hợp đường dẫn (PANet) lại bổ sung thêm một đường dẫn từ dưới lên trên FPN. Điều này rút ngắn đường dẫn thông tin cho các đặc trưng cấp thấp, giúp cải thiện hơn nữa khả năng định vị, một kỹ thuật thường được áp dụng trong... YOLO mô hình.
  • FPN so với BiFPN : được tìm thấy trong EfficientDet, Mạng kim tự tháp đặc trưng hai chiều (BiFPN) giới thiệu các trọng số có thể học được cho các đặc trưng khác nhau và loại bỏ các nút chỉ có một đầu vào, tối ưu hóa mạng để đạt hiệu quả cao nhất.

Ví dụ thực tế

Các thư viện nâng cao như ultralytics Xử lý sự phức tạp của việc xây dựng FPN nội bộ. Khi bạn tải một mô hình như YOLO26, kiến ​​trúc sẽ tự động bao gồm các lớp tổng hợp tính năng này để tối đa hóa hiệu suất.

from ultralytics import YOLO

# Load the YOLO26 model, which uses advanced feature pyramid principles internally
# The 'n' suffix indicates the nano version, optimized for speed
model = YOLO("yolo26n.pt")

# Perform inference on an image containing objects of various sizes
# The model's neck (FPN-based) aggregates features to detect small and large items
results = model("https://ultralytics.com/images/bus.jpg")

# Display results to see bounding boxes around buses (large) and people (small)
results[0].show()

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay