Two-Stage Object Detectors
Explora la mecánica de los detectores de objetos de dos etapas, centrándote en las propuestas de regiones y la clasificación. Aprende por qué modelos modernos como Ultralytics YOLO26 ahora lideran.
Los detectores de objetos de dos etapas son una clase sofisticada de arquitecturas de deep learning (DL) utilizadas en visión artificial para identificar y localizar elementos dentro de una imagen. A diferencia de sus equivalentes de una etapa, que realizan la detección en una sola pasada, estos modelos dividen la tarea en dos fases distintas: propuesta de región y clasificación de objetos. Este enfoque bifurcado fue pionero para priorizar una alta precisión de localización, lo que hace que estos detectores sean históricamente significativos en la evolución de la inteligencia artificial (AI). Al separar el "dónde" del "qué", los detectores de dos etapas a menudo logran una precisión superior, particularmente en objetos pequeños u ocluidos, aunque esto generalmente tiene el costo de mayores recursos computacionales y una inference latency más lenta.
Link to this sectionEl proceso de dos etapas#
La arquitectura de un detector de dos etapas se basa en un flujo de trabajo secuencial que imita cómo un humano podría examinar cuidadosamente una escena.
-
Propuesta de región: En la primera etapa, el modelo escanea la imagen de entrada para identificar áreas potenciales donde podrían existir objetos. Un componente conocido como Region Proposal Network (RPN) genera un conjunto disperso de cajas candidatas, a menudo referidas como Regiones de Interés (RoIs). Esta etapa filtra la mayor parte del fondo, permitiendo que la red enfoque la potencia de procesamiento en las áreas relevantes.
-
Clasificación y refinamiento: En la segunda etapa, el modelo extrae características de estas regiones candidatas utilizando Convolutional Neural Networks (CNNs). Luego asigna una etiqueta de clase específica (p. ej., "persona", "vehículo") a cada región y refina las coordenadas del bounding box para encerrar estrechamente el objeto.
Ejemplos destacados de esta arquitectura incluyen la familia R-CNN, específicamente Faster R-CNN y Mask R-CNN, que establecieron el estándar para los puntos de referencia académicos durante varios años.
Link to this sectionComparación con los detectores de una etapa#
Es útil distinguir los modelos de dos etapas de los one-stage object detectors como el Single Shot MultiBox Detector (SSD) y la serie Ultralytics YOLO. Mientras que los modelos de dos etapas priorizan la accuracy procesando las regiones por separado, los modelos de una etapa plantean la detección como un único problema de regresión, mapeando los píxeles de la imagen directamente a las coordenadas del bounding box y a las probabilidades de clase.
Históricamente, esto creó un compromiso: los modelos de dos etapas eran más precisos pero más lentos, mientras que los modelos de una etapa eran más rápidos pero menos precisos. Sin embargo, los avances modernos han desdibujado esta línea. Los modelos de última generación como YOLO26 ahora utilizan arquitecturas de extremo a extremo que rivalizan con la precisión de los detectores de dos etapas mientras mantienen la velocidad necesaria para la real-time inference.
Link to this sectionAplicaciones en el mundo real#
Debido a su énfasis en la precision y el recall, los detectores de dos etapas a menudo son preferidos en escenarios donde la seguridad y el detalle son más críticos que la velocidad de procesamiento bruta.
- Diagnóstico por imagen médica: En el campo de la AI in healthcare, omitir un diagnóstico puede ser crítico. Las arquitecturas de dos etapas se utilizan con frecuencia en el medical image analysis para detectar anomalías como tumores en radiografías o escaneos de MRI. El proceso de varios pasos ayuda a garantizar que las lesiones pequeñas no se pasen por alto frente a fondos de tejido complejos, proporcionando a los radiólogos una asistencia automatizada de alta confianza.
- Inspección industrial de alta precisión: En la smart manufacturing, los sistemas de inspección visual automatizados utilizan estos modelos para identificar defectos microscópicos en las líneas de ensamblaje. Por ejemplo, detectar una fisura capilar en un álabe de turbina requiere la alta precisión de Intersection over Union (IoU) que proporcionan los detectores de dos etapas, asegurando que solo los componentes impecables pasen a la siguiente etapa de producción.
Link to this sectionImplementación de la detección moderna#
Aunque los detectores de dos etapas establecieron la base para una visión de alta precisión, los desarrolladores modernos a menudo utilizan modelos avanzados de una etapa que ofrecen un rendimiento comparable con flujos de trabajo de implementación significativamente más fáciles. La Ultralytics Platform simplifica el entrenamiento y la implementación de estos modelos, gestionando los conjuntos de datos y los recursos informáticos de manera eficiente.
El siguiente ejemplo de Python demuestra cómo cargar y ejecutar la inferencia utilizando un flujo de trabajo de detección de objetos moderno con ultralytics, logrando resultados de alta precisión similares a los enfoques tradicionales de dos etapas pero con mayor eficiencia:
from ultralytics import YOLO
# Load the YOLO26 model, a modern high-accuracy detector
model = YOLO("yolo26n.pt")
# Run inference on an image to detect objects
results = model("https://ultralytics.com/images/bus.jpg")
# Process results (bounding boxes, classes, and confidence scores)
for result in results:
result.show() # Display the detection outcomes
print(result.boxes.conf) # Print confidence scores





