¡Sintonice YOLO Vision 2025!
25 de septiembre de 2025
10:00 — 18:00 BST
Evento híbrido
Yolo Vision 2024
Glosario

Detectores de objetos de dos etapas

Descubra el poder de los detectores de objetos de dos etapas: soluciones centradas en la precisión para la detección precisa de objetos en tareas complejas de visión artificial.

Los detectores de objetos de dos etapas son una clase de modelos de visión artificial que identifican y localizan objetos en una imagen o video a través de un proceso secuencial de dos pasos. Esta metodología es conocida por su alta precisión, particularmente en la localización precisa de objetos, aunque a menudo tiene un coste mayor de latencia de inferencia. La idea fundamental es primero identificar áreas potenciales de interés y luego realizar una clasificación y localización detallada solo en aquellas regiones prometedoras.

El proceso de dos etapas

El funcionamiento de un detector de dos etapas se divide en fases distintas y secuenciales:

  1. Generación de propuestas de región: En la primera etapa, el modelo escanea la imagen para generar un conjunto de regiones candidatas, conocidas como "regiones de interés" (RoIs) o propuestas, que probablemente contengan un objeto. Esto se logra típicamente mediante un submódulo llamado Red de Propuesta de Región (RPN), como se introdujo famosamente en la arquitectura Faster R-CNN. El objetivo de esta etapa no es clasificar los objetos, sino simplemente reducir el número de ubicaciones que la segunda etapa necesita analizar.

  2. Clasificación de Objetos y Refinamiento de Cajas Delimitadoras: En la segunda etapa, cada región propuesta se pasa a un encabezado de clasificación y a un encabezado de regresión. El encabezado de clasificación determina la clase del objeto dentro del RoI (por ejemplo, "persona", "coche", "perro") o lo designa como fondo. Concurrentemente, el encabezado de regresión refina las coordenadas de la caja delimitadora para que se ajuste al objeto con mayor precisión. Este análisis enfocado de regiones preseleccionadas permite que el modelo logre una alta precisión de localización.

Detectores de dos etapas vs. Detectores de una etapa

La principal distinción radica en su pipeline operativo. Los detectores de dos etapas separan las tareas de localización y clasificación, mientras que los detectores de objetos de una sola etapa realizan ambas tareas simultáneamente en una sola pasada.

  • Detectores de dos etapas (por ejemplo, familia R-CNN): Priorizan la precisión. El proceso de dos pasos permite una extracción y un refinamiento de características más detallados para cada objeto potencial, lo que conduce a un mejor rendimiento en escenas complejas con muchos objetos pequeños o superpuestos. Su complejidad, sin embargo, los hace computacionalmente intensivos y más lentos.
  • Detectores de una etapa (por ejemplo, Ultralytics YOLO, SSD): Priorizan la velocidad y la eficiencia. Al tratar la detección de objetos como un único problema de regresión, logran velocidades de inferencia en tiempo real adecuadas para aplicaciones en dispositivos edge AI. Si bien los modelos modernos de una etapa como YOLO11 han cerrado significativamente la brecha de precisión, los detectores de dos etapas aún pueden ser preferibles para tareas que exigen la mayor precisión posible.

Arquitecturas destacadas

La evolución de los detectores de dos etapas ha estado marcada por varios modelos influyentes:

  • R-CNN (Red Neuronal Convolucional basada en Regiones): El modelo pionero que propuso por primera vez el uso de propuestas de región con una red neuronal convolucional (CNN). Utilizaba un algoritmo externo llamado Selective Search para generar propuestas.
  • Fast R-CNN: Una mejora que procesó toda la imagen a través de una CNN una vez, compartiendo la computación y acelerando significativamente el proceso.
  • Faster R-CNN: Introdujo la Red de Propuesta de Regiones (RPN), integrando el mecanismo de propuesta de regiones en la propia red neuronal para una solución de aprendizaje profundo de extremo a extremo.
  • Mask R-CNN: Extiende Faster R-CNN añadiendo una tercera rama que genera una máscara a nivel de píxel para cada objeto, lo que permite la segmentación de instancias.

Aplicaciones en el mundo real

La alta precisión de los detectores de dos etapas los hace valiosos en escenarios donde la precisión es primordial:

  • Análisis de imágenes médicas: La detección de anomalías sutiles como pequeños tumores, lesiones o pólipos en exploraciones médicas (TC, RM) requiere una alta precisión para ayudar al diagnóstico. La localización precisa es fundamental para la planificación del tratamiento. Vea más sobre la IA en la atención médica y la investigación en revistas como Radiology: Artificial Intelligence. Puede explorar conjuntos de datos como el conjunto de datos de tumores cerebrales para tareas relacionadas.
  • Conducción autónoma: Detectar y localizar con precisión a peatones, ciclistas, otros vehículos y señales de tráfico, especialmente los pequeños o parcialmente ocluidos, es crucial para los sistemas de seguridad de los coches autónomos. Empresas como Waymo dependen en gran medida de sistemas de percepción robustos.
  • Comprensión detallada de la escena: Las aplicaciones que requieren una comprensión detallada de las interacciones de los objetos o un conteo preciso se benefician de una mayor exactitud.
  • Control de Calidad en la Fabricación: La identificación de pequeños defectos o la verificación de la colocación de componentes en montajes complejos a menudo exige una alta precisión. Obtenga más información sobre la IA en la fabricación.

El entrenamiento de estos modelos suele implicar grandes conjuntos de datos etiquetados, como el conjunto de datos COCO, y un ajuste cuidadoso. Ultralytics proporciona recursos para el entrenamiento de modelos y la comprensión de las métricas de rendimiento. Si bien Ultralytics se centra en modelos eficientes de una sola etapa como Ultralytics YOLO, la comprensión de los detectores de dos etapas proporciona un contexto valioso dentro del campo más amplio de la detección de objetos.

Únete a la comunidad de Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora
Enlace copiado al portapapeles