Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Đầu dò

Khám phá vai trò quan trọng của detection head trong object detection, tinh chỉnh các bản đồ đặc trưng để xác định chính xác vị trí và lớp của đối tượng.

Đầu phát hiện là thành phần cuối cùng và có lẽ là quan trọng nhất của mô hình phát hiện đối tượng, đóng vai trò là lớp ra quyết định, chuyển đổi các đặc điểm hình ảnh được mã hóa thành các dự đoán khả thi. Nằm ở cuối mạng nơ-ron học sâu, cụ thể là sau xương sống và cổ, đầu phát hiện xử lý các bản đồ đặc điểm cấp cao để tạo ra đầu ra cuối cùng: lớp của đối tượng và vị trí chính xác của nó trong ảnh. Trong khi các lớp trước đó của mạng tập trung vào việc trích xuất đặc điểm—xác định các cạnh, kết cấu và các mẫu phức tạp—đầu phát hiện diễn giải dữ liệu này để trả lời câu hỏi "nó là gì?" và "nó ở đâu?"

Chức năng và Kiến trúc

Nhiệm vụ chính của đầu phát hiện là thực hiện hai nhiệm vụ riêng biệt nhưng đồng thời: phân loại và hồi quy. Trong các kiến trúc phát hiện đối tượng hiện đại, các nhiệm vụ này thường được xử lý bởi các nhánh riêng biệt trong đầu, một lựa chọn thiết kế cho phép mô hình chuyên biệt hóa các khía cạnh dự đoán khác nhau.

  • Nhánh phân loại: Thành phần phụ này gán điểm xác suất cho nhiều loại khác nhau (ví dụ: "người", "xe đạp", "đèn giao thông"). Nó sử dụng một hàm mất mát như Mất mát Entropy chéo để tìm hiểu sự khác biệt giữa các lớp.
  • Nhánh hồi quy: Phần này của đầu dự đoán tọa độ không gian của hộp giới hạn bao quanh đối tượng. Nó tinh chỉnh kích thước hộp (x, y, chiều rộng, chiều cao) để phù hợp chặt chẽ với thực tế, thường giảm thiểu tổn thất Giao trên Hợp ( IoU ) .

Đầu ra từ đầu phát hiện thường là một tập hợp dày đặc các phát hiện ứng viên. Để hoàn thiện kết quả, các bước hậu xử lý như NMS (Non-Maximum Suppression) được áp dụng để lọc ra các hộp chồng chéo và chỉ giữ lại những dự đoán đáng tin cậy nhất.

Các loại đầu phát hiện

Thiết kế của đầu phát hiện quyết định cách mô hình tiếp cận vấn đề định vị vật thể.

  • Đầu dựa trên mỏ neo: Máy dò vật thể một giai đoạn truyền thống như đầu YOLO Các phiên bản dựa trên các hộp neo được xác định trước. Phần đầu dự đoán các giá trị bù trừ từ các hộp tham chiếu cố định này. Mặc dù hiệu quả, phương pháp này đòi hỏi phải điều chỉnh cẩn thận các siêu tham số neo.
  • Đầu không neo: Các mô hình tiên tiến, bao gồm Ultralytics YOLO11 , sử dụng bộ dò không neo . Các đầu dò này dự đoán tâm và kích thước vật thể trực tiếp từ các điểm ảnh bản đồ đặc trưng mà không cần dựa vào các hộp được thiết lập sẵn. Điều này giúp đơn giản hóa đáng kể kiến trúc mô hình và cải thiện khả năng khái quát hóa trên các hình dạng vật thể khác nhau.

Các Ứng dụng Thực tế

Hiệu quả và độ chính xác của đầu phát hiện rất quan trọng để triển khai trí tuệ nhân tạo (AI) trong các môi trường phức tạp.

  1. Chẩn đoán y khoa: Trong phân tích hình ảnh y khoa , đầu dò được huấn luyện để xác định các bất thường như khối u hoặc gãy xương trên phim chụp X-quang và MRI. Ví dụ, AI trong chăm sóc sức khỏe dựa vào đầu dò có độ chính xác cao để giảm tỷ lệ âm tính giả, hỗ trợ các bác sĩ X-quang phát hiện bệnh sớm.
  2. Phân tích bán lẻ: Các cửa hàng thông minh sử dụng thị giác máy tính để track kiểm kê và theo dõi hành vi của khách hàng. Đầu dò trong AI dành cho ứng dụng bán lẻ có thể xác định các sản phẩm cụ thể trên kệ hoặc detect hành vi đáng ngờ để ngăn ngừa mất mát, xử lý nguồn cấp dữ liệu video theo thời gian thực.

Phát hiện Đầu so với Xương sống và Cổ

Sẽ rất hữu ích khi phân biệt đầu phát hiện với các thành phần chính khác của Mạng nơ-ron tích chập (CNN) :

  • Xương sống: Xương sống (ví dụ: ResNet hoặc CSPDarknet) có nhiệm vụ trích xuất các đặc điểm hình ảnh thô từ hình ảnh đầu vào.
  • Cổ: Cổ, thường là Mạng kim tự tháp đặc điểm (FPN) , kết hợp và tinh chỉnh các đặc điểm này để tổng hợp ngữ cảnh ở các quy mô khác nhau.
  • Đầu: Đầu phát hiện sử dụng các tính năng tinh chỉnh này để tạo ra lớp cuối cùng và phối hợp các dự đoán.

Ví dụ triển khai

Sau đây là Python đoạn mã minh họa cách kiểm tra đầu phát hiện của một thiết bị đã được đào tạo trước YOLO11 mô hình sử dụng ultralytics gói. Điều này giúp người dùng hiểu cấu trúc của lớp cuối cùng chịu trách nhiệm suy luận.

from ultralytics import YOLO

# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")

# Inspect the final detection head layer
# This typically reveals the number of classes (nc) and anchors/outputs
print(model.model.model[-1])

# Run inference to see the head's output in action
results = model("https://ultralytics.com/images/bus.jpg")

Việc hiểu rõ đầu phát hiện là điều cần thiết cho bất kỳ ai muốn tối ưu hóa hiệu suất mô hình hoặc thực hiện các tác vụ nâng cao như học chuyển giao, trong đó đầu thường được thay thế để huấn luyện mô hình trên một tập dữ liệu tùy chỉnh mới. Các nhà nghiên cứu liên tục thử nghiệm các thiết kế đầu mới để cải thiện các chỉ số như Độ chính xác trung bình ( mAP ) , mở rộng giới hạn mà thị giác máy tính có thể đạt được.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay