Detection Head
Aprende como uma cabeça de deteção (detection head) permite a deteção de objetos em tempo real. Explora o seu papel no Ultralytics YOLO26 para prever caixas delimitadoras e etiquetas com alta precisão.
Uma cabeça de detecção (detection head) atua como a camada final de tomada de decisão na arquitetura de uma rede neural de detecção de objetos. Embora as camadas iniciais do modelo sejam responsáveis por entender as formas, texturas e características dentro de uma imagem, a cabeça de detecção é o componente específico que interpreta essas informações para prever exatamente quais objetos estão presentes e onde eles estão localizados. Ela transforma os dados abstratos de alto nível produzidos pelo extrator de características em resultados acionáveis, normalmente gerando um conjunto de bounding boxes que envolvem os objetos identificados, juntamente com seus rótulos de classe correspondentes e confidence scores.
Link to this sectionDistinguindo a Cabeça do Backbone e do Neck#
Para compreender totalmente a função de uma cabeça de detecção, é útil visualizar os detectores modernos como sendo compostos por três estágios principais, cada um servindo a um propósito distinto no pipeline de computer vision (CV):
- Backbone: Esta é a parte inicial da rede, geralmente uma Convolutional Neural Network (CNN) como ResNet ou CSPNet. Ela processa a imagem de entrada bruta para criar feature maps que representam padrões visuais.
- Neck: Posicionado entre o backbone e a cabeça, o neck refina e combina características de diferentes escalas. Arquiteturas como a Feature Pyramid Network (FPN) garantem que o modelo consiga detectar objetos de tamanhos variados através da agregação de contexto.
- Head: O componente final que consome as características refinadas do neck. Ele realiza a tarefa propriamente dita de classificação (o que é?) e regressão (onde está?).
Link to this sectionEvolução: Baseada em Âncoras vs. Livre de Âncoras#
O design das cabeças de detecção evoluiu significativamente para melhorar a velocidade e a precisão, particularmente com a transição dos métodos tradicionais para modelos modernos de real-time inference.
- Cabeças Baseadas em Âncoras (Anchor-Based Heads): Os one-stage object detectors tradicionais baseavam-se em anchor boxes predefinidas — formas de referência fixas de vários tamanhos. A cabeça previa o quanto esticar ou deslocar essas âncoras para ajustar ao objeto. Esta abordagem é detalhada na pesquisa fundamental sobre Faster R-CNN.
- Cabeças Livres de Âncoras (Anchor-Free Heads): Modelos de última geração, incluindo o mais recente YOLO26, utilizam anchor-free detectors. Essas cabeças preveem os centros e as dimensões dos objetos diretamente a partir dos pixels nos feature maps, eliminando a necessidade de ajuste manual de âncoras. Isso simplifica a arquitetura e aumenta a capacidade do modelo de generalizar para formas de objetos inéditas, uma técnica frequentemente associada à Fully Convolutional One-Stage Object Detection (FCOS).
Link to this sectionAplicações no Mundo Real#
A precisão da cabeça de detecção é fundamental para implementar artificial intelligence (AI) em ambientes industriais e de segurança crítica. Você pode anotar dados facilmente e treinar essas cabeças especializadas usando a Ultralytics Platform.
- Direção Autônoma: Em AI for automotive, a cabeça de detecção é responsável por distinguir entre pedestres, semáforos e outros veículos em tempo real. Uma cabeça altamente otimizada garante que a inference latency permaneça baixa o suficiente para que o veículo reaja instantaneamente.
- Diagnósticos Médicos: Em medical image analysis, as cabeças de detecção são ajustadas para localizar anomalias, como tumores em exames de ressonância magnética. O ramo de regressão deve ser extremamente preciso para delinear os limites exatos de uma lesão, auxiliando médicos em healthcare solutions.
Link to this sectionExemplo de Código#
O exemplo a seguir demonstra como carregar um modelo YOLO26 e inspecionar a saída da sua cabeça de detecção. Quando a inferência é executada, a cabeça processa a imagem e retorna as boxes finais contendo coordenadas e IDs de classe.
from ultralytics import YOLO
# Load the YOLO26n model (nano version)
model = YOLO("yolo26n.pt")
# Run inference on an image to utilize the detection head
results = model("https://ultralytics.com/images/bus.jpg")
# The detection head outputs are stored in results[0].boxes
for box in results[0].boxes:
# Print the bounding box coordinates and the predicted class
print(f"Class: {int(box.cls)}, Coordinates: {box.xywh.numpy()}")Essa interação destaca como a cabeça de detecção traduz ativações complexas de redes neurais em dados legíveis que desenvolvedores podem usar para tarefas subsequentes, como object tracking ou contagem.






