Đón xem YOLO Vision 2025!
25 tháng 9, 2025
10:00 — 18:00 BST
Sự kiện kết hợp
Yolo Vision 2024
Bảng chú giải thuật ngữ

Mạng kim tự tháp tính năng (FPN)

Tìm hiểu cách Mạng kim tự tháp tính năng (FPN) cho phép phát hiện đối tượng đa quy mô—tăng độ chính xác cho các đối tượng nhỏ và lớn trong YOLO11 và các hệ thống CV hiện đại.

Mạng Kim tự tháp Đặc trưng (FPN) là một thành phần trong các mô hình học sâu , đặc biệt là các kiến trúc phát hiện đối tượng , được thiết kế để cải thiện khả năng phát hiện đối tượng ở nhiều tỷ lệ khác nhau. Trong bất kỳ hình ảnh nào, đối tượng có thể xuất hiện lớn hoặc nhỏ tùy thuộc vào kích thước và khoảng cách của chúng so với máy ảnh. FPN giải quyết thách thức này bằng cách tạo ra một biểu diễn đa tỷ lệ hiệu quả của các đặc trưng, cho phép mô hình nhận dạng đồng thời một chiếc ô tô nhỏ ở xa và một chiếc xe tải lớn ở gần với độ chính xác cao. Nó hoạt động như một cầu nối, hay "cổ chai", giữa bộ trích xuất đặc trưng chính và thành phần dự đoán cuối cùng của mạng.

Mạng lưới kim tự tháp tính năng hoạt động như thế nào

FPN hoạt động bằng cách kết hợp các đặc điểm ngữ nghĩa mạnh, độ phân giải thấp với các đặc điểm ngữ nghĩa yếu, độ phân giải cao. Quá trình này thường được thực hiện thông qua một cấu trúc có hai đường dẫn và các kết nối bên.

  1. Đường dẫn từ dưới lên: Đây là đường dẫn chuẩn của Mạng nơ-ron tích chập (CNN) , đóng vai trò là xương sống của mô hình. Khi một hình ảnh đi qua các lớp liên tiếp, bản đồ đặc trưng thu được sẽ giảm kích thước không gian nhưng tăng chiều sâu ngữ nghĩa, nghĩa là chúng nắm bắt được nhiều khái niệm trừu tượng hơn.
  2. Đường dẫn từ trên xuống: Sau đó, mạng sẽ lấy bản đồ đặc điểm từ lớp sâu nhất (lớp này nhỏ nhưng chứa nhiều thông tin) và bắt đầu lấy mẫu lại.
  3. Kết nối ngang: Khi đường dẫn từ trên xuống tái tạo các bản đồ đặc trưng lớn hơn, nó sẽ hợp nhất chúng với các bản đồ đặc trưng tương ứng từ đường dẫn từ dưới lên. Sự hợp nhất này làm giàu các lớp được lấy mẫu cao hơn với các chi tiết tinh vi hơn, cục bộ hơn từ các lớp trước đó. Kết quả là một "kim tự tháp" các bản đồ đặc trưng, mỗi bản đồ giàu cả về ngữ nghĩa lẫn chi tiết không gian, sau đó được đưa vào đầu phát hiện để dự đoán. Bài báo nghiên cứu ban đầu của FPN cung cấp một giải thích kỹ thuật chi tiết về quy trình này.

Vai trò của FPN trong phát hiện đối tượng

Trong một mô hình phát hiện đối tượng điển hình, kiến trúc được chia thành xương sống, cổ và đầu. FPN là một lựa chọn phổ biến cho thành phần cổ. Vai trò chính của nó là tổng hợp các đặc điểm được trích xuất bởi xương sống trước khi chúng được sử dụng cho tác vụ phát hiện cuối cùng. Bằng cách cung cấp một biểu diễn đặc điểm phong phú, đa tỷ lệ, FPN cho phép các mô hình như YOLO11 hoạt động mạnh mẽ trên nhiều kích thước đối tượng. Cách tiếp cận này hiệu quả hơn về mặt tính toán so với việc xử lý ảnh ở nhiều độ phân giải riêng biệt, vì nó tái sử dụng các đặc điểm được tính toán trong lần chuyển tiếp duy nhất của xương sống. Nhiều mô hình tiên tiến tận dụng khái niệm này, như đã thấy trong nhiều so sánh mô hình YOLO .

Các Ứng dụng Thực tế

FPN là một phần không thể thiếu của nhiều ứng dụng thị giác máy tính (CV) hiện đại, trong đó việc phát hiện đối tượng đa thang đo là rất quan trọng.

  • Xe tự hành : Xe tự lái phải phát hiện người đi bộ, phương tiện, biển báo giao thông và vạch kẻ đường ở nhiều khoảng cách khác nhau. FPN giúp hệ thống nhận dạng của xe, được mô tả chi tiết trong các nguồn tài liệu từ các tổ chức như Đại học Carnegie Mellon , xác định người đi bộ ở xa và xe ở gần trong cùng một khung hình, điều này rất cần thiết cho việc điều hướng an toàn.
  • Phân tích hình ảnh y tế : Trong X-quang, FPN có thể giúp phân tích các hình ảnh chụp cắt lớp y tế để phát hiện các bất thường ở nhiều kích thước khác nhau, chẳng hạn như tổn thương nhỏ và khối u lớn. Khả năng đa thang đo này cho phép chẩn đoán tự động toàn diện và chính xác hơn trong các lĩnh vực như bệnh học và ung thư, như đã được thảo luận trong nghiên cứu do Viện Y tế Quốc gia (NIH) công bố.

FPN so với BiFPN

Mặc dù FPN đánh dấu một bước tiến đáng kể, các kiến trúc mới hơn đã phát triển khái niệm này. Một ví dụ đáng chú ý là Mạng Kim tự tháp Tính năng Hai chiều (BiFPN), được giới thiệu trong bài báo EfficientDet của Google Research . Không giống như đường dẫn từ trên xuống đơn giản của FPN, BiFPN giới thiệu các kết nối hai chiều (cả từ trên xuống và từ dưới lên) và sử dụng phương pháp hợp nhất tính năng có trọng số, cho phép mạng học được tầm quan trọng của các tính năng đầu vào khác nhau. Điều này thường dẫn đến hiệu suất và hiệu quả tốt hơn, như được nêu bật trong các so sánh như EfficientDet so với YOLO11 . Mặc dù FPN là một khái niệm nền tảng, BiFPN đại diện cho một phương pháp tiếp cận tiên tiến và tối ưu hơn cho việc hợp nhất tính năng đa quy mô.

Tham gia cộng đồng Ultralytics

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay
Đã sao chép liên kết vào clipboard