Glosario

Detectores de objetos de dos etapas

Descubra el poder de los detectores de objetos de dos etapas: soluciones centradas en la precisión para la detección precisa de objetos en tareas complejas de visión artificial.

Los detectores de objetos de dos etapas son una clase de sofisticados modelos de aprendizaje profundo diseñados para identificar y localizar objetos en imágenes con gran precisión. A diferencia de sus homólogos más rápidos, estas arquitecturas dividen la la tarea de detección de objetos en dos fases distintas: la identificación de posibles regiones en las que podrían existir objetos y, a continuación, la clasificación de esas regiones mientras se refinan sus coordenadas. Este enfoque de proceso dividido ha convertido históricamente a los detectores de dos fases en el estándar de oro para tareas en las que la precisión es primordial, a menudo a expensas de la velocidad y los recursos informáticos.

El flujo de trabajo en dos fases

La arquitectura de un detector de dos etapas funciona como un embudo, reduciendo los datos de una imagen amplia a objetos específicos, específicos. En este proceso suele intervenir una red troncal, como ResNet, para extraer características, seguida de las dos etapas críticas:

Propuesta de región: En la primera etapa se utiliza un componente denominado a menudo Red de Propuesta de Regiones (RPN). Esta red escanea los mapas de características generados por la para identificar las "regiones de interés". En este punto, el modelo no categoriza el objeto. En este punto, el modelo no categoriza el objeto, sino que actúa esencialmente como un filtro de fondo, marcando las zonas que probablemente contengan algo frente a las zonas vacías. zonas vacías. Este concepto se consolidó en el artículo de investigación Faster R-CNN.
Clasificación y refinamiento: En la segunda etapa, las regiones propuestas se agrupan en un tamaño fijo y se introducen en un cabezal de detección específico. y se introducen en un cabezal de detección específico. Este cabezal Este cabezal realiza dos tareas simultáneas: asigna una etiqueta de clase específica (por ejemplo, "persona", "vehículo") al objeto y utiliza una etiqueta de clase específica para el objeto. "vehículo") al objeto y utiliza regresión de la caja delimitadora para ajustar las coordenadas, para ajustar las coordenadas y que la caja se ajuste al objeto.

Detectores de dos etapas vs. Detectores de una etapa

Comprender la diferencia entre los detectores de detectores de objetos de una etapa es fundamental para elegir el modelo adecuado para una aplicación.

Detectores de dos etapas (por ejemplo, R-CNN más rápido, R-CNN de máscara): Estos modelos dan prioridad a la precisión. Mediante separar la propuesta y la clasificación, manejan muy bien escenas complejas con objetos superpuestos o pequeños detalles. detalles. Sin embargo, este mecanismo de doble comprobación introduce una mayor latencia en la inferencia, lo que dificulta su uso. latencia de inferencia, lo que dificulta en entornos que requieren respuestas inmediatas.
Detectores de una etapa (por ejemplo, YOLO, SSD): Arquitecturas como la Ultralytics YOLO tratan la detección como un único regresión. Asignan píxeles de imagen directamente a coordenadas de cuadro delimitador y probabilidades de clase en una sola pasada. Aunque históricamente menos precisos que los modelos de dos etapas, las iteraciones modernas como YOLO11 han reducido de forma efectiva la diferencia de precisión manteniendo la velocidad de inferencia en tiempo real.

Arquitecturas clave en la historia

Varias arquitecturas han definido la evolución de la detección en dos etapas:

R-CNN (redes neuronales convolucionales basadas en regiones): La pionera de esta familia, que utilizaba la búsqueda selectiva para proponer regiones antes de introducirlas en una Red neuronal convolucional (CNN).
R-CNN rápido: Mejora del original compartiendo el cálculo en toda la imagen, lo que aumenta significativamente la eficacia del entrenamiento.
Máscara R-CNN: Una extensión de Faster R-CNN que añade una rama rama para predecir máscaras de segmentación, permitiendo segmentación de instancias junto con la estándar.

Aplicaciones en el mundo real

Dado que los detectores de dos etapas destacan en la localización de objetos pequeños y minimizan los falsos positivos, siguen siendo vitales en determinados sectores. falsos positivos, siguen siendo vitales en determinados sectores.

Análisis de imágenes médicas: En radiología, la identificación de pequeños nódulos o tumores en TC requiere la máxima sensibilidad posible. Los modelos para minimizar el riesgo de pasar por alto un diagnóstico crítico, como se detalla en varios estudios sobre la IA en la atención sanitaria. AI in healthcare studies.
Inspección de calidad automatizada: En la fabricación, la identificación de defectos microscópicos en placas de circuitos o piezas mecanizadas requiere un análisis de alta resolución. de alta resolución. La capacidad de localización precisa de los detectores de dos etapas ayuda a detectar defectos que podrían pasar desapercibidos con modelos más rápidos y menos granulares. con modelos más rápidos y menos granulares.

Detección de alta precisión

Si bien Ultralytics se especializa en modelos de una etapa de última generación, las versiones modernas como YOLO11 ofrecen la alta precisión asociada a los detectores de dos etapas, pero con un proceso de más rápidos.

A continuación se explica cómo implementar un modelo YOLO11 preentrenado utilizando la función ultralytics paquete para lograr resultados de detección de alta precisión:

from ultralytics import YOLO

# Load a high-accuracy pre-trained YOLO11 model (Large variant)
# 'yolo11l.pt' offers a balance of high accuracy comparable to older two-stage models
model = YOLO("yolo11l.pt")

# Run inference on a local image
results = model("path/to/image.jpg")

# Display the results with bounding boxes
results[0].show()

Conceptos Relacionados

Cajas de anclaje: Formas de caja predefinidas utilizadas por muchos detectores de dos etapas para estimar el tamaño y la relación de aspecto del objeto durante la etapa de propuesta.
Supresión no máxima (NMS): Técnica de postprocesamiento utilizada tanto en detectores de una etapa como de dos etapas para eliminar los recuadros superpuestos redundantes, lo que garantiza que sólo quede la detección más segura.
Intersección sobre Unión (IoU): Una métrica utilizada para medir el solapamiento entre la caja predicha y la verdad del terreno, esencial para el entrenamiento de la RPN y las cabezas de refinamiento.

Detectores de objetos de dos etapas

Entrene los modelosYOLO Ultralytics para agilizar los flujos de trabajo en todos los sectores

Solución de licencias empresariales flexible para impulsar su innovación

Entrene modelos de IA en segundos con Ultralytics YOLO

El flujo de trabajo en dos fases

Detectores de dos etapas vs. Detectores de una etapa

Arquitecturas clave en la historia

Aplicaciones en el mundo real

Detección de alta precisión

Conceptos Relacionados

Leer más en esta categoría

Comprender por qué la anotación con intervención humana es clave

¿Qué es la destilación de conjuntos de datos? Una breve descripción general

Las gafas Oakley Meta AI están redefiniendo el concepto de gafas con Vision AI.

Únase a la comunidad Ultralytics