Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Đầu dò

Khám phá vai trò quan trọng của detection head trong object detection, tinh chỉnh các bản đồ đặc trưng để xác định chính xác vị trí và lớp của đối tượng.

A detection head acts as the final decision-making layer in an object detection neural network architecture. While the earlier layers of the model are responsible for understanding the shapes, textures, and features within an image, the detection head is the specific component that interprets this information to predict exactly what objects are present and where they are located. It transforms the abstract, high-level data produced by the feature extractor into actionable results, typically outputting a set of bounding boxes enclosing identified objects along with their corresponding class labels and confidence scores.

Phân biệt đầu với cột sống và cổ.

To fully grasp the function of a detection head, it is helpful to visualize modern detectors as being composed of three primary stages, each serving a distinct purpose in the computer vision (CV) pipeline:

  • Backbone: This is the initial part of the network, often a Convolutional Neural Network (CNN) like ResNet or CSPNet. It processes the raw input image to create feature maps that represent visual patterns.
  • Neck: Sitting between the backbone and the head, the neck refines and combines features from different scales. Architectures like the Feature Pyramid Network (FPN) ensure the model can detect objects of varying sizes by aggregating context.
  • Head: The final component that consumes the refined features from the neck. It performs the actual task of classification (what is it?) and regression (where is it?).

Sự tiến hóa: Dựa trên neo so với không dựa trên neo

The design of detection heads has evolved significantly to improve speed and accuracy, particularly with the transition from traditional methods to modern real-time inference models.

  • Đầu dò dựa trên điểm neo: Các bộ dò đối tượng một giai đoạn truyền thống dựa vào các hộp neo được xác định trước — các hình dạng tham chiếu cố định với nhiều kích thước khác nhau. Đầu dò sẽ dự đoán mức độ cần kéo giãn hoặc dịch chuyển các điểm neo này để phù hợp với đối tượng. Phương pháp này được mô tả chi tiết trong nghiên cứu nền tảng về Faster R-CNN .
  • Anchor-Free Heads: State-of-the-art models, including the latest YOLO26, utilize anchor-free detectors. These heads predict object centers and dimensions directly from the pixels in the feature maps, eliminating the need for manual anchor tuning. This simplifies the architecture and enhances the model's ability to generalize to novel object shapes, a technique often associated with Fully Convolutional One-Stage Object Detection (FCOS).

Các Ứng dụng Thực tế

The precision of the detection head is critical for deploying artificial intelligence (AI) in safety-critical and industrial environments. Users can easily annotate data and train these specialized heads using the Ultralytics Platform.

  • Lái xe tự động: Trong trí tuệ nhân tạo dành cho ô tô , bộ phận cảm biến chịu trách nhiệm phân biệt giữa người đi bộ, đèn giao thông và các phương tiện khác trong thời gian thực. Một bộ phận cảm biến được tối ưu hóa cao đảm bảo độ trễ suy luận đủ thấp để xe có thể phản ứng tức thì.
  • Chẩn đoán y khoa: Trong phân tích hình ảnh y khoa , các đầu dò được tinh chỉnh để xác định vị trí các bất thường như khối u trong ảnh chụp MRI. Nhánh hồi quy phải cực kỳ chính xác để vạch ra ranh giới chính xác của tổn thương, hỗ trợ các bác sĩ trong việc đưa ra các giải pháp chăm sóc sức khỏe .

Ví dụ mã

The following example demonstrates how to load a YOLO26 model and inspect the output of its detection head. When inference runs, the head processes the image and returns the final boxes containing coordinates and class IDs.

from ultralytics import YOLO

# Load the YOLO26n model (nano version)
model = YOLO("yolo26n.pt")

# Run inference on an image to utilize the detection head
results = model("https://ultralytics.com/images/bus.jpg")

# The detection head outputs are stored in results[0].boxes
for box in results[0].boxes:
    # Print the bounding box coordinates and the predicted class
    print(f"Class: {int(box.cls)}, Coordinates: {box.xywh.numpy()}")

This interaction highlights how the detection head translates complex neural network activations into readable data that developers can use for downstream tasks like object tracking or counting.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay