Glosario

Segmentación de instancias

Descubra cómo la segmentación por instancias refina la detección de objetos con precisión a nivel de píxel, lo que permite obtener máscaras de objetos detalladas para aplicaciones de IA.

La segmentación de instancias es una sofisticada técnica de visión por ordenador (VC ) que identifica objetos dentro de una imagen y delinea los límites precisos de cada instancia individual a nivel de píxel. A diferencia de los métodos que sólo colocan recuadros alrededor de los objetos, la segmentación de instancias proporciona una comprensión mucho más detallada de una escena al crear una máscara única para cada objeto detectado, aunque pertenezcan a la misma clase. Esta capacidad es crucial para las aplicaciones avanzadas de inteligencia artificial (IA), en las que es esencial conocer la forma, el tamaño y la extensión espacial exacta de los distintos objetos, sobre todo cuando éstos se solapan.

Cómo funciona la segmentación de instancias

Los modelos de segmentación de instancias analizan una imagen para, en primer lugar, localizar posibles objetos y, a continuación, para cada objeto detectado, predecir qué píxeles pertenecen a esa instancia específica. Los enfoques tradicionales, como la influyente arquitectura R-CNN de máscara, suelen emplear un proceso de dos fases: en primer lugar, realizan la detección de objetos para generar propuestas de recuadros delimitadores y, en segundo lugar, generan una máscara de segmentación dentro de cada recuadro propuesto. Aunque eficaces, estos métodos pueden ser muy exigentes desde el punto de vista computacional.

Los enfoques más recientes, incluidos modelos como Ultralytics YOLO, suelen utilizar canales de una sola etapa. Estos modelos predicen simultáneamente los recuadros delimitadores, las etiquetas de clase y las máscaras de instancia en una sola pasada por la red neuronal (NN), lo que mejora significativamente la velocidad y los hace adecuados para la inferencia en tiempo real. El entrenamiento de estos modelos requiere grandes conjuntos de datos con anotaciones a nivel de píxel, como el ampliamente utilizado conjunto de datos COCO, específicamente sus anotaciones de segmentación. El proceso suele implicar técnicas de aprendizaje profundo (deep learning, DL), que aprovechan las redes neuronales convolucionales (Convolutional Neural Networks, CNN) para aprender características visuales complejas.

Segmentación de instancias frente a tareas relacionadas

Es importante diferenciar la segmentación de instancias de otras tareas de segmentación de imágenes:

  • Detección de objetos: Identifica la presencia y ubicación de objetos mediante cuadros delimitadores, pero no proporciona información sobre la forma. La segmentación de instancias va más allá al delinear los píxeles exactos de cada objeto.
  • Segmentación semántica: Asigna una etiqueta de clase a cada píxel de una imagen (por ejemplo, "coche", "persona", "carretera"). Sin embargo, no distingue entre diferentes instancias de la misma clase. Todos los coches, por ejemplo, formarían parte del mismo segmento "coche". Puede obtener más información en esta guía sobre segmentación por instancias frente a segmentación semántica.
  • Segmentación panóptica: Combina la segmentación semántica y la segmentación por instancias. Asigna una etiqueta de clase a cada píxel (como la segmentación semántica) y también identifica de forma única cada instancia de objeto (como la segmentación por instancias).

La segmentación de instancias se centra específicamente en detectar y delinear instancias de objetos individuales, proporcionando una gran precisión en cuanto a los límites y la separación de los objetos.

Aplicaciones de la segmentación de instancias

La capacidad de identificar y aislar con precisión objetos individuales hace que la segmentación de instancias tenga un valor incalculable en numerosos campos:

  • Conducción autónoma: Los coches autónomos dependen de la segmentación de instancias para percibir con precisión su entorno. Diferenciar entre vehículos individuales, peatones, ciclistas y obstáculos, incluso en escenas desordenadas o superpuestas, es fundamental para una navegación y una toma de decisiones seguras. Empresas como Waymo utilizan ampliamente estas técnicas.
  • Análisis de imágenes médicas: En radiología y patología, la segmentación de instancias ayuda a delinear estructuras específicas como tumores, órganos o células en exploraciones(TC, RM, etc.). Esta precisión a nivel de píxel ayuda en el diagnóstico, la medición del tamaño del tumor, la planificación de cirugías y el seguimiento de la progresión de la enfermedad. Por ejemplo, el uso de YOLO11 para la detección de tumores muestra esta aplicación en el contexto más amplio de la IA en la atención sanitaria.
  • Robótica: Los robots que realizan tareas como agarrar o manipular en entornos desestructurados necesitan identificar y localizar objetos individuales con precisión. La segmentación de instancias permite a los robots comprender la forma exacta y los límites de los objetos para interactuar con éxito, algo que se analiza con más detalle en AI in Robotics.
  • Análisis de imágenes por satélite: Se utiliza para cartografiar detalladamente la cubierta terrestre, controlar la expansión urbana identificando edificios individuales o rastrear objetos específicos como barcos o vehículos. Este nivel de detalle contribuye a la vigilancia del medio ambiente, la gestión de recursos y la recopilación de información. Explore las técnicas generales de análisis de imágenes de satélite.
  • Supervisión agrícola: Ayuda a contar plantas o frutos individuales, evaluar la salud de los cultivos por planta o identificar tipos específicos de malas hierbas para una intervención específica, contribuyendo a la agricultura de precisión.

Segmentación de instancias con Ultralytics YOLO

Ultralytics proporciona modelos de última generación capaces de realizar una segmentación de instancias eficiente. Modelos como YOLOv8 y YOLO11 están diseñados para ofrecer un alto rendimiento en diversas tareas de visión por ordenador, incluida la segmentación de instancias(véanse los detalles de la tarea de segmentación). Los usuarios pueden aprovechar los modelos preentrenados o realizar ajustes finos en conjuntos de datos personalizados utilizando herramientas como la plataforma Ultralytics HUB, que simplifica el flujo de trabajo de aprendizaje automático (ML) desde la gestión de datos hasta la implementación de modelos. Para la implementación práctica, están disponibles recursos como tutoriales sobre segmentación con modelos Ultralytics YOLOv8 preentrenados o guías sobre aislamiento de objetos de segmentación. También puede aprender a utilizar Ultralytics YOLO11 para la segmentación de instancias. Frameworks populares como PyTorch y TensorFlow se utilizan comúnmente para desarrollar y desplegar estos modelos.

Únase a la comunidad Ultralytics

Únase al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo.

Únete ahora
Enlace copiado en el portapapeles