Glosario

Segmentación semántica

Descubra el poder de la segmentación semántica: clasifique cada píxel de las imágenes para comprender con precisión la escena. Explore ahora las aplicaciones y herramientas.

La segmentación semántica es una tarea fundamental de la visión por ordenador (VC ) que consiste en asignar una etiqueta de clase específica a cada píxel de una imagen. A diferencia de otras tareas de visión que pueden identificar objetos o clasificar toda la imagen, la segmentación semántica proporciona una comprensión densa, a nivel de píxel, del contenido de la escena. Esto significa que no se limita a detectar que hay un coche, sino que determina con precisión qué píxeles pertenecen a la categoría de coches, diferenciándolos de los píxeles que pertenecen a la carretera, el cielo o los peatones. Su objetivo es dividir una imagen en regiones significativas que correspondan a distintas categorías de objetos, proporcionando una comprensión global del entorno visual.

Cómo funciona la segmentación semántica

El objetivo principal de la segmentación semántica es clasificar cada píxel de una imagen en un conjunto predefinido de categorías. Por ejemplo, en una imagen que contenga varios coches, peatones y árboles, un modelo de segmentación semántica etiquetaría todos los píxeles de un coche como "coche", todos los píxeles de un peatón como "peatón" y todos los píxeles de un árbol como "árbol". Trata todas las instancias de la misma clase de objeto de forma idéntica.

La segmentación semántica moderna depende en gran medida del aprendizaje profundo, en particular de las redes neuronales convolucionales (CNN). Estos modelos suelen entrenarse mediante técnicas de aprendizaje supervisado, lo que requiere grandes conjuntos de datos con anotaciones detalladas a nivel de píxel. El proceso consiste en introducir una imagen en la red, que a continuación genera un mapa de segmentación. Este mapa es esencialmente una imagen en la que el valor de cada píxel (a menudo representado por el color) corresponde a su etiqueta de clase prevista, separando visualmente diferentes categorías como "carretera", "edificio", "persona", etc. La calidad del etiquetado de los datos es crucial para entrenar modelos precisos.

Principales diferencias con otras tareas de segmentación

Es importante distinguir la segmentación semántica de las tareas de visión por ordenador relacionadas:

Aplicaciones reales

La comprensión detallada de la escena que proporciona la segmentación semántica es crucial para muchas aplicaciones del mundo real:

Modelos y herramientas

La segmentación semántica emplea a menudo modelos de aprendizaje profundo, en particular arquitecturas derivadas de CNN.

Únase a la comunidad Ultralytics

Únase al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo.

Únete ahora
Enlace copiado en el portapapeles