Segmentación de instancias

Descubra cómo la segmentación por instancias refina la detección de objetos con precisión a nivel de píxel, lo que permite obtener máscaras de objetos detalladas para aplicaciones de IA.

La segmentación de instancias es una tarea avanzada de visión por ordenador (VC ) que identifica y delimita objetos individuales dentro de una imagen a nivel de píxel. A diferencia de otras tareas de visión, no se limita a clasificar una imagen o a dibujar un cuadro delimitador alrededor de los objetos, sino que genera una máscara precisa a nivel de píxel para cada instancia de objeto distinta. Esta técnica proporciona una comprensión mucho más profunda de una escena, ya que puede diferenciar entre objetos superpuestos de la misma clase.

Detección de instancias frente a detección semántica y de objetos

Es importante distinguir la segmentación de instancias de otras tareas relacionadas con la visión por ordenador.

Detección de objetos: Esta tarea identifica la presencia y ubicación de objetos, normalmente dibujando recuadros rectangulares a su alrededor y asignándoles una etiqueta de clase. Responde a la pregunta "¿Qué hay en la imagen y dónde está?", pero no proporciona información sobre la forma.
Segmentación semántica: Esta tarea clasifica cada píxel de una imagen en una categoría específica. Por ejemplo, etiquetaría todos los píxeles pertenecientes a coches como "coche", pero no distinguiría entre dos coches diferentes en la imagen. Responde a "¿A qué categoría pertenece cada píxel?".
Segmentación de instancias: Combina las funciones de detección de objetos y segmentación semántica. Detecta cada instancia de objeto y genera una máscara de segmentación única para ella. En una imagen con tres coches, la segmentación por instancias generaría tres máscaras distintas, cada una correspondiente a un coche concreto.
Segmentación panóptica: Es la más completa de las tareas de segmentación, ya que combina la segmentación semántica y la segmentación por instancias. Asigna a cada píxel una etiqueta de clase y un ID de instancia único, proporcionando una comprensión completa y unificada de la escena.

Cómo funciona la segmentación de instancias

Los modelos de segmentación de instancias suelen realizar dos funciones principales: en primer lugar, detectan todas las instancias de objetos en una imagen y, en segundo lugar, generan una máscara de segmentación para cada instancia detectada. Este proceso fue popularizado por arquitecturas como Mask R-CNN, que amplía detectores de objetos como Faster R-CNN añadiendo una rama paralela que predice una máscara binaria para cada región de interés. Los modelos modernos han refinado aún más este proceso para mejorar la velocidad y la precisión, lo que permite la inferencia en tiempo real en muchas aplicaciones. El desarrollo a menudo se basa en potentes marcos de aprendizaje profundo como PyTorch y TensorFlow.

Aplicaciones reales

Los contornos detallados de los objetos que proporciona la segmentación de instancias son valiosos en numerosos campos.

Vehículos autónomos: Los vehículos autónomos dependen de la segmentación de instancias para identificar con precisión la forma y la ubicación de peatones, vehículos y ciclistas individuales. Este nivel de detalle es fundamental para la seguridad de la navegación y la planificación de rutas, especialmente en entornos urbanos complejos con muchos objetos superpuestos. Conjuntos de datos como Cityscapes han contribuido decisivamente al avance en este campo.
Análisis de imágenes médicas: En radiología, la segmentación de instancias se utiliza para delinear tumores, lesiones y órganos a partir de tomografías computarizadas o resonancias magnéticas con gran precisión. Esto ayuda a los médicos a medir el tamaño de un tumor, planificar intervenciones quirúrgicas y controlar la eficacia del tratamiento. Puede obtener más información en nuestro blog sobre el uso de YOLO11 para la detección de tumores.
Robótica: Los robots utilizan la segmentación de instancias para comprender su entorno, identificar objetos específicos que agarrar y evitar obstáculos con mayor precisión. Esto es crucial para las tareas de fabricación y logística.
Análisis de imágenes por satélite: Esta técnica se utiliza para contar árboles individuales en un bosque, cartografiar edificios en una ciudad o rastrear cambios en el uso del suelo a lo largo del tiempo con datos de organizaciones como la NASA.
Agricultura: Puede utilizarse para identificar y contar frutos individuales para estimar el rendimiento o detectar malas hierbas específicas para la aplicación selectiva de herbicidas, una parte clave de la agricultura de precisión.