Detection Head
Aprende cómo un cabezal de detección permite la detección de objetos en tiempo real. Explora su papel en Ultralytics YOLO26 para predecir cajas delimitadoras y etiquetas con alta precisión.
Un cabezal de detección actúa como la capa final de toma de decisiones en la arquitectura de una red neuronal de detección de objetos. Mientras que las primeras capas del modelo son responsables de comprender las formas, texturas y características dentro de una imagen, el cabezal de detección es el componente específico que interpreta esta información para predecir exactamente qué objetos están presentes y dónde se encuentran. Transforma los datos abstractos de alto nivel producidos por el extractor de características en resultados accionables, generando típicamente un conjunto de bounding boxes que encierran los objetos identificados junto con sus etiquetas de clase correspondientes y puntuaciones de confianza.
Link to this sectionDistinguir el cabezal del backbone y el neck#
Para comprender completamente la función de un cabezal de detección, resulta útil visualizar los detectores modernos como si estuvieran compuestos por tres etapas principales, cada una de las cuales cumple un propósito distinto en el pipeline de visión artificial (CV):
- Backbone: Esta es la parte inicial de la red, a menudo una Red Neuronal Convolucional (CNN) como ResNet o CSPNet. Procesa la imagen de entrada sin procesar para crear mapas de características que representan patrones visuales.
- Neck: Situado entre el backbone y el cabezal, el neck refina y combina características de diferentes escalas. Arquitecturas como la Feature Pyramid Network (FPN) aseguran que el modelo pueda detectar objetos de tamaños variados mediante la agregación de contexto.
- Head: El componente final que consume las características refinadas del neck. Realiza la tarea real de clasificación (¿qué es?) y regresión (¿dónde está?).
Link to this sectionEvolución: Basado en anclas (Anchor-Based) vs. Sin anclas (Anchor-Free)#
El diseño de los cabezales de detección ha evolucionado significativamente para mejorar la velocidad y la precisión, particularmente con la transición de los métodos tradicionales a los modelos modernos de inferencia en tiempo real.
- Cabezales basados en anclas: Los detectores de objetos de una sola etapa tradicionales dependían de anchor boxes predefinidas, formas de referencia fijas de varios tamaños. El cabezal predecía cuánto estirar o desplazar estas anclas para ajustarlas al objeto. Este enfoque se detalla en la investigación fundamental sobre Faster R-CNN.
- Cabezales sin anclas: Los modelos de vanguardia, incluido el último YOLO26, utilizan detectores sin anclas. Estos cabezales predicen los centros y dimensiones de los objetos directamente a partir de los píxeles en los mapas de características, eliminando la necesidad de ajustar las anclas manualmente. Esto simplifica la arquitectura y mejora la capacidad del modelo para generalizar a formas de objetos nuevas, una técnica a menudo asociada con Fully Convolutional One-Stage Object Detection (FCOS).
Link to this sectionAplicaciones en el mundo real#
La precisión del cabezal de detección es crítica para desplegar inteligencia artificial (IA) en entornos industriales y de seguridad crítica. Puedes anotar datos fácilmente y entrenar estos cabezales especializados utilizando la Plataforma Ultralytics.
- Conducción autónoma: En IA para el sector automotriz, el cabezal de detección es responsable de distinguir entre peatones, semáforos y otros vehículos en tiempo real. Un cabezal altamente optimizado asegura que la latencia de inferencia permanezca lo suficientemente baja para que el vehículo reaccione al instante.
- Diagnóstico médico: En el análisis de imágenes médicas, los cabezales de detección se ajustan con precisión para localizar anomalías como tumores en escaneos de MRI. La rama de regresión debe ser extremadamente precisa para delinear los límites exactos de una lesión, ayudando a los médicos en soluciones de atención sanitaria.
Link to this sectionEjemplo de código#
El siguiente ejemplo demuestra cómo cargar un modelo YOLO26 e inspeccionar la salida de su cabezal de detección. Cuando se ejecuta la inferencia, el cabezal procesa la imagen y devuelve las boxes finales que contienen las coordenadas y los IDs de clase.
from ultralytics import YOLO
# Load the YOLO26n model (nano version)
model = YOLO("yolo26n.pt")
# Run inference on an image to utilize the detection head
results = model("https://ultralytics.com/images/bus.jpg")
# The detection head outputs are stored in results[0].boxes
for box in results[0].boxes:
# Print the bounding box coordinates and the predicted class
print(f"Class: {int(box.cls)}, Coordinates: {box.xywh.numpy()}")Esta interacción resalta cómo el cabezal de detección traduce activaciones complejas de redes neuronales en datos legibles que los desarrolladores pueden usar para tareas posteriores como el seguimiento de objetos o el conteo.






