Segmentación de instancias: Una guía rápida

Las aplicaciones de visión artificial son cada vez más comunes en nuestra vida diaria, desde las cámaras de tráfico que monitorean las condiciones de las carreteras hasta los sistemas de autopago en las tiendas. Al permitir que las máquinas comprendan los datos visuales de una manera similar a los humanos, la IA de visión está teniendo un impacto en una variedad de industrias.

Muchas de estas aplicaciones se basan en la detección de objetos, una tarea de visión artificial que coloca cuadros delimitadores alrededor de los objetos clave en las imágenes. Si bien este enfoque a menudo funciona bien, algunas soluciones de análisis de imágenes necesitan aún mayor precisión.

Por ejemplo, las imágenes médicas requieren algo más que la detección de un tumor: es crucial delinear su forma exacta. Del mismo modo, en robótica, las máquinas necesitan reconocer los contornos exactos de un objeto para agarrarlo correctamente. Para abordar estos desafíos, la segmentación de instancias ofrece una solución más precisa.

La segmentación de instancias es una tarea de visión artificial diseñada para admitir casos de uso en los que la detección de objetos no es suficiente: proporciona precisión a nivel de píxel. Los modelos de visión artificial como Ultralytics YOLO11 se pueden utilizar para aplicar fácilmente la segmentación de instancias a imágenes y vídeos.

__wf_reserved_inherit — Fig. 1. Ejemplo del uso de YOLO11 para la segmentación de instancias.

‍

En esta guía, analizaremos cómo funciona la segmentación de instancias, sus aplicaciones y cómo Ultralytics YOLO11 se puede entrenar de forma personalizada para tareas de segmentación específicas.

¿Qué es la segmentación de instancias?

Digamos que hay una foto de grupo de personas de pie muy juntas. La detección de objetos puede ayudar a dibujar cuadros alrededor de cada persona, pero eso no indica su forma exacta.

La segmentación de instancias, por otro lado, es similar a trazar cuidadosamente el contorno de cada persona para que pueda ver su silueta completa, incluso si se superponen. En lugar de simplemente marcar dónde está algo con un cuadro, identifica la forma exacta de cada objeto a nivel de píxel, lo que facilita la comprensión de imágenes complejas.

El resultado es una máscara detallada que rellena la forma de un objeto, señalando exactamente qué píxeles le pertenecen. Este nivel de precisión es útil en muchas aplicaciones del mundo real donde es importante comprender la forma y los límites exactos de los objetos.

‍

Segmentación de instancias vs segmentación semántica

Mientras exploras la segmentación de instancias, es posible que te encuentres con el concepto de segmentación semántica.

Ambas técnicas ayudan a las computadoras a entender las imágenes a nivel de píxel, pero tienen propósitos diferentes. La segmentación semántica etiqueta cada píxel según su categoría, agrupando todos los objetos del mismo tipo. Por ejemplo, en una imagen con varios coches, la segmentación semántica los marcaría a todos como "coche" sin distinguir entre vehículos individuales.

La segmentación de instancias, por otro lado, va un paso más allá al identificar cada objeto por separado. Asigna etiquetas únicas a instancias individuales y crea máscaras precisas alrededor de sus formas. Entonces, en la misma imagen, la segmentación de instancias no solo etiquetaría todo como "coche", sino que reconocería y delineararía cada coche individualmente.

La principal diferencia entre los dos es que la segmentación semántica agrupa los objetos por categoría, mientras que la segmentación de instancias distingue cada objeto como una entidad única con límites claros. La elección de la tarea a utilizar depende de la aplicación específica: si es suficiente saber qué hay en una imagen o si es importante diferenciar entre objetos individuales.

‍

Modelos populares de segmentación de instancias

Hoy en día, existen varios modelos de segmentación de instancias disponibles para la comunidad de Vision AI. Algunos son más rápidos, otros más precisos y otros más fáciles de usar.

Estas opciones, aunque útiles, pueden llevar a la pregunta de cuál es la adecuada para una tarea específica. Entre las opciones, los modelos Ultralytics YOLO son bastante populares porque se centran en la velocidad y la precisión.

Además, estos modelos han evolucionado significativamente a lo largo de los años. Por ejemplo, Ultralytics YOLOv5 simplificó la implementación utilizando frameworks como PyTorch, haciendo que la IA de visión avanzada sea accesible a un público más amplio sin necesidad de una profunda experiencia técnica.

Aprovechando ese éxito, Ultralytics YOLOv8 introdujo un soporte mejorado para tareas de visión artificial como la segmentación de instancias, la estimación de poses y la clasificación de imágenes.

Ahora, YOLO11 lleva el rendimiento a un nuevo nivel. Logra una mayor precisión media promedio (mAP) en el conjunto de datos COCO con un 22% menos de parámetros que YOLOv8m, lo que significa que puede reconocer objetos con mayor precisión utilizando menos recursos.

‍

En pocas palabras, YOLO11 ofrece una precisión de última generación sin comprometer la eficiencia, lo que lo convierte en un punto de inflexión en el campo.

Comprender cómo funciona la segmentación de instancias

A continuación, exploremos cómo funciona normalmente la segmentación de instancias. Los modelos de visión artificial más antiguos utilizan un enfoque de dos pasos.

En primer lugar, detectan objetos dibujando cuadros delimitadores a su alrededor. A continuación, generan una máscara a nivel de píxel para delinear la forma exacta de cada objeto. Un ejemplo muy conocido es Mask R-CNN, que se basa en modelos de detección de objetos añadiendo un paso de predicción de máscara. Aunque este método es eficaz, puede ser lento porque procesa la imagen en varias etapas, lo que dificulta las aplicaciones en tiempo real.

Mientras tanto, modelos como YOLO11 procesan imágenes de una sola vez, prediciendo simultáneamente los cuadros delimitadores de objetos y las máscaras de segmentación de instancias. Este enfoque optimizado lo hace mucho más rápido, manteniendo al mismo tiempo una alta precisión. Como resultado, es particularmente útil para aplicaciones en tiempo real como la conducción autónoma, el análisis de vídeo y la robótica, donde tanto la velocidad como la precisión son cruciales.

Entrenamiento personalizado de YOLO11 para la segmentación de instancias

YOLO11 viene de fábrica como un modelo pre-entrenado. Ha sido entrenado en el conjunto de datos COCO-Seg, que cubre objetos cotidianos para la segmentación de instancias. Sin embargo, el paquete de Python Ultralytics soporta el entrenamiento personalizado, que es esencial para aplicaciones especializadas donde se necesita segmentar objetos únicos.

¿Por qué es importante el entrenamiento personalizado o el ajuste fino de un modelo? El entrenamiento personalizado aprovecha el aprendizaje por transferencia al basarse en el conocimiento ya integrado en los modelos pre-entrenados. En lugar de empezar desde cero, adapta un modelo existente a nuevas tareas utilizando conjuntos de datos más pequeños y menos recursos informáticos, todo ello manteniendo una alta precisión.

Cómo entrenar YOLO11 de forma personalizada

Aquí hay una visión más detallada de los pasos involucrados en el ajuste fino de YOLO11 para la segmentación de instancias:

Preparación de datos: Recopile y anote imágenes según su aplicación específica. Ultralytics ofrece soporte para múltiples conjuntos de datos de imágenes, pero también puede entrenar utilizando su propio conjunto de datos preparando imágenes y anotaciones en el formato YOLO requerido.
‍
Usar un modelo pre-entrenado: En lugar de empezar desde cero, utilice un modelo Ultralytics YOLO11 pre-entrenado.
‍
Entrenamiento del modelo: Ajuste la configuración vital del entrenamiento, como el tamaño del lote (imágenes procesadas por iteración), el tamaño de la imagen (resolución de entrada objetivo) y las épocas (ciclos de entrenamiento totales) y entrene el modelo.
‍
Evaluación del rendimiento: Una vez completado el entrenamiento del modelo, puede probar la precisión del modelo utilizando métricas de rendimiento como mAP. El paquete Ultralytics Python también proporciona funciones integradas para la evaluación del modelo.

Aplicaciones de segmentación de instancias habilitadas por YOLO11

La segmentación de instancias se puede utilizar para resolver desafíos del mundo real, ayudando a las máquinas a ver y comprender los objetos con mayor precisión. Desde la mejora de la automatización hasta la protección del medio ambiente, desempeña un papel clave en muchos campos. Veamos algunos ejemplos de dónde está teniendo un impacto.

Seguridad y supervisión de obras de construcción mediante YOLO11

La segmentación de instancias puede ser fundamental para garantizar la seguridad y la eficiencia en las obras de construcción. Por ejemplo, se puede utilizar para supervisar maquinaria pesada.

YOLO11 se puede ajustar para segmentar e identificar con precisión diferentes tipos de equipos, como grúas, excavadoras y bulldozers, y rastrear sus posiciones en tiempo real. Esto permite a los responsables de la obra asegurarse de que la maquinaria funciona estrictamente dentro de las zonas designadas y no invade zonas donde hay trabajadores presentes o existen peligros.

Además, la integración de estas soluciones con sistemas de alerta en tiempo real permite tomar medidas correctivas rápidas. Más allá de esto, la información recopilada puede ayudar a optimizar la distribución y el flujo de trabajo del sitio, reduciendo aún más los riesgos y aumentando la productividad.

‍

Monitorización de animales con segmentación y YOLO11

La monitorización del comportamiento animal ayuda a los investigadores, agricultores y conservacionistas a cuidar mejor de los animales en diferentes entornos. La segmentación de instancias juega un papel útil en estos sistemas al identificar y segmentar animales individuales en granjas, zoológicos y hábitats naturales. A diferencia de la detección de objetos tradicional que utiliza bounding boxes, la segmentación de instancias proporciona una delineación a nivel de píxel de cada animal, lo cual es particularmente útil cuando los animales están muy cerca.

La segmentación detallada facilita un seguimiento más preciso de los movimientos y comportamientos. Los animales solapados o muy agrupados pueden reconocerse claramente, lo que proporciona un análisis más preciso de las interacciones, las evaluaciones de salud y los patrones de actividad. En general, una mayor comprensión del comportamiento animal mejora las prácticas de cuidado y gestión de los animales.

‍

YOLO11 en el análisis deportivo y el seguimiento de jugadores

El seguimiento preciso de jugadores y eventos es una parte fundamental del análisis deportivo. Los métodos de seguimiento tradicionales se basan en el etiquetado manual, que puede no capturar interacciones detalladas. La visión artificial puede utilizarse para segmentar detalles como cada jugador, el balón y los eventos clave a nivel de píxel para obtener información detallada.

Por ejemplo, la segmentación de instancias puede ayudar a detectar eventos como faltas o incidentes fuera de la jugada al separar claramente a cada jugador y objeto. Este monitoreo granular habilitado por modelos como YOLO11 ofrece a los analistas información más clara para estudiar patrones de movimiento, posicionamiento espacial e interacciones con alta precisión. Un beneficio clave de estos conocimientos es que ayudan a los equipos a refinar sus estrategias y mejorar el rendimiento general.

Pros y contras de la segmentación de instancias

Estos son algunos de los beneficios clave que la segmentación de instancias puede aportar a diversas industrias:

Automatización mejorada: Al automatizar tareas como el control de calidad y la supervisión de la seguridad, la segmentación de instancias reduce la necesidad de intervención manual y minimiza el error humano.
‍
Mejor comprensión de la escena: Al delinear con precisión cada objeto, la segmentación de instancias contribuye a una comprensión más profunda de escenas complejas, lo que respalda una toma de decisiones más informada.
‍
Post-procesamiento eficiente: La salida a nivel de píxel simplifica tareas como la eliminación de fondos, el conteo de objetos y el análisis espacial, reduciendo la necesidad de pasos de procesamiento adicionales.

Si bien estos beneficios resaltan cómo la segmentación de instancias impacta en diferentes casos de uso, también es esencial considerar los desafíos involucrados en su implementación.

Estas son algunas de las limitaciones clave de la segmentación de instancias:

Dificultades con la transparencia: La segmentación de objetos transparentes o reflectantes, como el vidrio y el agua, es difícil, lo que genera límites inexactos.
‍
Sobrecarga de mantenimiento: Para mantener la precisión y la relevancia de los modelos, es necesario realizar actualizaciones y ajustes continuos a medida que cambian las condiciones ambientales y los conjuntos de datos.
‍
Alto esfuerzo de anotación: El entrenamiento de modelos de segmentación de instancias requiere anotaciones detalladas a nivel de píxel, lo que aumenta significativamente el tiempo y el coste que implica la preparación de los datos.

Conclusiones clave

La segmentación de instancias permite distinguir objetos individuales con precisión, incluso cuando se superponen. Al capturar los límites de los objetos a nivel de píxel, proporciona una comprensión más profunda de los datos visuales en comparación con las tareas tradicionales de visión artificial, como la detección de objetos.

Los recientes avances en visión artificial han hecho que la segmentación de instancias sea más rápida y fácil de usar. En particular, los modelos de visión artificial como Ultralytics YOLO11 simplifican el proceso, permitiendo la segmentación en tiempo real con una configuración mínima, haciéndola más accesible para diversas industrias y aplicaciones.

¿Tienes curiosidad por la IA? Visita nuestro repositorio de GitHub y conéctate con nuestra comunidad para seguir explorando. Obtén información sobre innovaciones como la IA en coches autónomos y la visión artificial en la agricultura en nuestras páginas de soluciones. Consulta nuestras opciones de licencia y ¡comienza con un proyecto de visión artificial!

¿Qué es la segmentación de instancias? Una guía rápida

¿Qué es la segmentación de instancias?

Segmentación de instancias vs segmentación semántica

Modelos populares de segmentación de instancias

Comprender cómo funciona la segmentación de instancias

Entrenamiento personalizado de YOLO11 para la segmentación de instancias

Cómo entrenar YOLO11 de forma personalizada

Aplicaciones de segmentación de instancias habilitadas por YOLO11

Seguridad y supervisión de obras de construcción mediante YOLO11

Monitorización de animales con segmentación y YOLO11

YOLO11 en el análisis deportivo y el seguimiento de jugadores

Pros y contras de la segmentación de instancias

Conclusiones clave

Leer más en esta categoría

De los bits a los qubits: Cómo la optimización cuántica está cambiando la IA

Guía rápida para principiantes sobre cómo entrenar un modelo de IA

Explorando el aprendizaje ensamblado y su papel en la IA y el ML

¡Construyamos juntos el futuro
de la IA!

¿Qué es la segmentación de instancias? Una guía rápida

¿Qué es la segmentación de instancias?

Segmentación de instancias vs segmentación semántica

Modelos populares de segmentación de instancias

Comprender cómo funciona la segmentación de instancias

Entrenamiento personalizado de YOLO11 para la segmentación de instancias

Cómo entrenar YOLO11 de forma personalizada

Aplicaciones de segmentación de instancias habilitadas por YOLO11

Seguridad y supervisión de obras de construcción mediante YOLO11

Monitorización de animales con segmentación y YOLO11

YOLO11 en el análisis deportivo y el seguimiento de jugadores

Pros y contras de la segmentación de instancias

Conclusiones clave

Leer más en esta categoría

De los bits a los qubits: Cómo la optimización cuántica está cambiando la IA

Guía rápida para principiantes sobre cómo entrenar un modelo de IA

Explorando el aprendizaje ensamblado y su papel en la IA y el ML

¡Construyamos juntos el futuro de la IA!

¡Construyamos juntos el futuro
de la IA!