¿Qué es la segmentación por instancias? Guía rápida

Abirami Vina

6 min leer

6 de marzo de 2025

Acompáñenos en este repaso a lo que es la segmentación de instancias, cómo funciona, su uso en diversas aplicaciones de visión por ordenador y el impacto que puede tener.

Las aplicaciones de visión por ordenador son cada vez más comunes en nuestra vida cotidiana, desde las cámaras de tráfico que vigilan el estado de las carreteras hasta los sistemas de autopago en las tiendas. Al permitir que las máquinas comprendan los datos visuales de forma similar a los humanos, Vision AI está teniendo un impacto en toda una serie de sectores.

Muchas de estas aplicaciones se basan en la detección de objetos, una tarea de visión por ordenador que coloca recuadros delimitadores alrededor de los objetos clave de las imágenes. Aunque este método suele funcionar bien, algunas soluciones de análisis de imágenes necesitan una precisión aún mayor.

Por ejemplo, el diagnóstico médico por imagen requiere algo más que detectar un tumor: es crucial perfilar su forma exacta. Del mismo modo, en robótica, las máquinas necesitan reconocer los contornos exactos de un objeto para agarrarlo correctamente. Para afrontar estos retos, la segmentación de instancias ofrece una solución más precisa.

La segmentación de instancias es una tarea de visión por ordenador diseñada para dar soporte a casos de uso en los que detectar objetos no es suficiente: proporciona precisión a nivel de píxel. Los modelos de visión por ordenador como Ultralytics YOLO11 pueden utilizarse para aplicar fácilmente la segmentación de instancias a imágenes y vídeos. 

__wf_reserved_inherit
Fig. 1. Ejemplo de uso de YOLO11 para la segmentación de instancias.

En esta guía, explicaremos cómo funciona la segmentación de instancias, sus aplicaciones y cómo Ultralytics YOLO11 puede personalizarse para tareas de segmentación específicas.

¿Qué es la segmentación por instancias?

Supongamos que hay una foto de grupo de personas muy juntas. La detección de objetos puede ayudar a dibujar recuadros alrededor de cada persona, pero eso no indica su forma exacta. 

La segmentación de instancias, por su parte, es similar a trazar cuidadosamente alrededor de cada persona para poder ver su contorno completo, aunque se superpongan. En lugar de limitarse a marcar dónde está algo con un recuadro, identifica la forma exacta de cada objeto a nivel de píxel, lo que facilita la comprensión de imágenes complejas.

El resultado es una máscara detallada que rellena la forma de un objeto, señalando exactamente qué píxeles pertenecen a él. Este nivel de precisión es útil en muchas aplicaciones del mundo real en las que es importante conocer la forma y los límites exactos de los objetos.

__wf_reserved_inherit
Fig. 2. Muestra del soporte de YOLO11 para la segmentación de instancias.

Segmentación por instancias frente a segmentación semántica

Al explorar la segmentación por instancias, es posible que se encuentre con el concepto de segmentación semántica.

Ambas técnicas ayudan a los ordenadores a comprender las imágenes a nivel de píxel, pero tienen objetivos distintos. La segmentación semántica etiqueta cada píxel en función de su categoría, agrupando todos los objetos del mismo tipo. Por ejemplo, en una imagen con varios coches, la segmentación semántica los marcaría a todos como "coche" sin distinguir entre vehículos individuales.

La segmentación de instancias, por su parte, va un paso más allá al identificar cada objeto por separado. Asigna etiquetas únicas a las instancias individuales y crea máscaras precisas alrededor de sus formas. Así, en la misma imagen, la segmentación por instancias no se limitaría a etiquetar todo como "coche", sino que reconocería y contornearía cada coche por separado.

La principal diferencia entre ambas es que la segmentación semántica agrupa los objetos por categorías, mientras que la segmentación por instancias distingue cada objeto como una entidad única con límites claros. La elección de una u otra tarea depende de la aplicación concreta: si basta con saber qué hay en una imagen o si es importante diferenciar entre objetos individuales.

__wf_reserved_inherit
Fig. 3. Segmentación de instancias frente a segmentación semántica (derecha e izquierda, respectivamente).

Modelos populares de segmentación de instancias

Hoy en día, la comunidad de Vision AI dispone de varios modelos de segmentación de instancias. Algunos son más rápidos, otros más precisos y otros más fáciles de usar. 

Estas opciones, aunque útiles, pueden llevar a preguntarse cuál es la correcta para una tarea concreta. Entre las opciones, los modelos YOLO de Ultralytics son bastante populares porque se centran en la velocidad y la precisión. 

Además, estos modelos han evolucionado significativamente a lo largo de los años. Por ejemplo, Ultralytics YOLOv5 simplificó el despliegue utilizando marcos como PyTorch, haciendo que la IA avanzada de Vision fuera accesible a un público más amplio sin necesidad de profundos conocimientos técnicos.

Basándose en ese éxito, Ultralytics YOLOv8 introdujo un soporte mejorado para tareas de visión por ordenador como la segmentación de instancias, la estimación de poses y la clasificación de imágenes. 

Ahora, YOLO11 lleva el rendimiento a un nuevo nivel. Alcanza una mayor precisión media (mAP) en el conjunto de datos COCO con un 22 % menos de parámetros que YOLOv8m, lo que significa que puede reconocer objetos con mayor precisión utilizando menos recursos.

__wf_reserved_inherit
Fig. 4. Evaluación comparativa de YOLO11.

En pocas palabras, YOLO11 ofrece una precisión de vanguardia sin comprometer la eficacia, lo que lo convierte en una herramienta revolucionaria sobre el terreno.

Entender cómo funciona la segmentación de instancias

A continuación, veamos cómo funciona normalmente la segmentación de instancias. Los modelos de visión por ordenador más antiguos utilizan un enfoque de dos pasos. 

En primer lugar, detectan los objetos dibujando recuadros a su alrededor. A continuación, generan una máscara a nivel de píxel para delinear la forma exacta de cada objeto. Un ejemplo muy conocido es Mask R-CNN, que se basa en modelos de detección de objetos añadiendo un paso de predicción de máscaras. Aunque este método es eficaz, puede ser lento porque procesa la imagen en varias etapas, lo que dificulta las aplicaciones en tiempo real.

Mientras tanto, modelos como YOLO11 procesan las imágenes de una sola vez, prediciendo simultáneamente los cuadros delimitadores de los objetos y las máscaras de segmentación de instancias. Este enfoque simplificado lo hace mucho más rápido y, al mismo tiempo, mantiene una gran precisión. Como resultado, resulta especialmente útil para aplicaciones en tiempo real como la conducción autónoma, el análisis de vídeo y la robótica, donde tanto la velocidad como la precisión son cruciales.

Formación personalizada YOLO11 para la segmentación de casos

YOLO11 se presenta como un modelo preentrenado. Se ha entrenado en el conjunto de datos COCO-Seg, que abarca objetos cotidianos para la segmentación de ejemplos. Sin embargo, el paquete Python de Ultralytics admite el entrenamiento personalizado, que es esencial para aplicaciones especializadas en las que es necesario segmentar objetos únicos.

¿Por qué es importante el entrenamiento personalizado o el ajuste fino de un modelo? El entrenamiento personalizado aprovecha el aprendizaje por transferencia basándose en los conocimientos ya incorporados en los modelos preentrenados. En lugar de empezar de cero, adapta un modelo existente a nuevas tareas utilizando conjuntos de datos más pequeños y menos recursos informáticos, todo ello manteniendo una alta precisión.

Cómo entrenar a medida a YOLO11

A continuación se describen los pasos necesarios para ajustar YOLO11 a la segmentación por ejemplo: 

  • Preparación de datos: Recopile y anote imágenes basadas en su aplicación específica. Ultralytics es compatible con varios conjuntos de datos de imágenes, pero también puede entrenarse con su propio conjunto de datos preparando imágenes y anotaciones en el formato YOLO necesario.
  • Utilizar un modelo preentrenado: En lugar de empezar desde cero, utilice un modelo preentrenado de Ultralytics YOLO11.
  • Entrenamiento del modelo: Ajuste la configuración de entrenamiento vital como el tamaño del lote (imágenes procesadas por iteración), el tamaño de la imagen (resolución de entrada objetivo) y las épocas (ciclos de entrenamiento totales) y entrene el modelo.
  • Evaluación del rendimiento: Una vez completado el entrenamiento del modelo, puede comprobar su precisión utilizando métricas de rendimiento como mAP. El paquete Python de Ultralytics también proporciona funciones integradas para la evaluación de modelos.

Aplicaciones de segmentación de instancias habilitadas por YOLO11

La segmentación de instancias puede utilizarse para resolver retos del mundo real ayudando a las máquinas a ver y comprender los objetos con mayor precisión. Desde la mejora de la automatización hasta la protección del medio ambiente, desempeña un papel fundamental en muchos campos. Veamos algunos ejemplos de su impacto.

Seguridad y vigilancia en las obras con YOLO11

La segmentación de instancias puede ser un elemento fundamental para garantizar la seguridad y la eficacia en las obras. Por ejemplo, puede utilizarse para supervisar la maquinaria pesada. 

YOLO11 puede ajustarse para segmentar e identificar con precisión distintos tipos de equipos, como grúas, excavadoras y bulldozers, y seguir sus posiciones en tiempo real. Esto permite a los jefes de obra asegurarse de que la maquinaria funciona estrictamente dentro de las áreas designadas y no invade zonas en las que hay trabajadores o existen peligros. 

Además, la integración de estas soluciones con sistemas de alerta en tiempo real permite adoptar rápidamente medidas correctivas. Además, la información recopilada puede ayudar a optimizar la disposición de las instalaciones y el flujo de trabajo, reduciendo aún más los riesgos y aumentando la productividad.

__wf_reserved_inherit
Fig. 5. Control de maquinaria pesada con YOLO11.

Seguimiento de animales con segmentación y YOLO11

El seguimiento del comportamiento animal ayuda a investigadores, granjeros y conservacionistas a cuidar mejor de los animales en distintos entornos. La segmentación de instancias desempeña un papel útil en estos sistemas al identificar y segmentar animales individuales en granjas, zoológicos y hábitats naturales. A diferencia de la detección de objetos tradicional, que utiliza cuadros delimitadores, la segmentación de instancias proporciona una delineación de cada animal a nivel de píxel, lo que resulta especialmente útil cuando los animales están muy próximos.

La segmentación detallada facilita un seguimiento más preciso de los movimientos y comportamientos. Los animales superpuestos o agrupados pueden reconocerse claramente, lo que permite un análisis más preciso de las interacciones, las evaluaciones sanitarias y los patrones de actividad. En general, un conocimiento más profundo del comportamiento animal mejora las prácticas de cuidado y gestión de los animales.

__wf_reserved_inherit
Fig. 6. Vigilancia del ganado mediante segmentación de instancias.

YOLO11 en análisis deportivo y seguimiento de jugadores

El seguimiento preciso de jugadores y eventos es una parte importante del análisis deportivo. Los métodos de seguimiento tradicionales se basan en el etiquetado manual, que puede no captar interacciones detalladas. La visión por ordenador puede utilizarse para segmentar detalles como cada jugador, balón y evento clave a nivel de píxel para obtener información detallada.

Por ejemplo, la segmentación de instancias puede ayudar a detectar eventos como faltas o incidentes sin balón separando claramente a cada jugador y objeto. Este seguimiento granular que permiten modelos como YOLO11 ofrece a los analistas información más clara para estudiar los patrones de movimiento, el posicionamiento espacial y las interacciones con gran precisión. Una de las principales ventajas de esta información es que ayuda a los equipos a perfeccionar sus estrategias y mejorar su rendimiento general.

Ventajas e inconvenientes de la segmentación de instancias

Estas son algunas de las principales ventajas que la segmentación de instancias puede aportar a diversos sectores:

  • Mejora de la automatización: Al automatizar tareas como el control de calidad y la supervisión de la seguridad, la segmentación de instancias reduce la necesidad de intervención manual y minimiza los errores humanos.
  • Mejor comprensión de la escena: Al delinear con precisión cada objeto, la segmentación de instancias contribuye a una comprensión más profunda de las escenas complejas, apoyando una toma de decisiones más informada.
  • Posprocesamiento eficaz: El resultado a nivel de píxel simplifica tareas como la eliminación del fondo, el recuento de objetos y el análisis espacial, reduciendo la necesidad de pasos de procesamiento adicionales.

Si bien estas ventajas ponen de manifiesto el impacto de la segmentación de instancias en los distintos casos de uso, también es esencial tener en cuenta los retos que implica su aplicación. 

Estas son algunas de las principales limitaciones de la segmentación por instancias:

  • Problemas con la transparencia: Segmentar objetos transparentes o reflectantes, como el cristal y el agua, es difícil, lo que da lugar a límites imprecisos.
  • Gastos generales de mantenimiento: Para que los modelos sigan siendo precisos y pertinentes, es necesario actualizarlos y ajustarlos continuamente a medida que cambian las condiciones ambientales y los conjuntos de datos.
  • Elevado esfuerzo de anotación: El entrenamiento de los modelos de segmentación de instancias requiere anotaciones detalladas a nivel de píxel, lo que aumenta significativamente el tiempo y el coste de la preparación de los datos.

Principales conclusiones

La segmentación de instancias permite distinguir con precisión objetos individuales, incluso cuando se solapan. Al captar los límites de los objetos a nivel de píxel, proporciona una comprensión más profunda de los datos visuales en comparación con las tareas tradicionales de visión por ordenador, como la detección de objetos.

Los recientes avances en visión por ordenador han agilizado y facilitado la segmentación de instancias. En particular, los modelos de visión por ordenador como Ultralytics YOLO11 simplifican el proceso, permitiendo la segmentación en tiempo real con una configuración mínima, lo que lo hace más accesible para diversas industrias y aplicaciones.

¿Siente curiosidad por la IA? Visite nuestro repositorio de GitHub y conéctese con nuestra comunidad para seguir explorando. Infórmese sobre innovaciones como la IA en los coches autónomos y la IA de visión en la agricultura en nuestras páginas de soluciones. Consulte nuestras opciones de licencia y comience un proyecto de visión por ordenador.

¡Construyamos juntos el futuro
de la IA!

Comience su viaje con el futuro del aprendizaje automático

Empezar gratis
Enlace copiado en el portapapeles