Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

Segmentación Semántica

Descubra el poder de la classify semántica: clasifique cada píxel de las imágenes para comprender la escena con precisión. Explore ahora las aplicaciones y herramientas.

La segmentación semántica es una técnica fundamental en visión por ordenador (CV) que consiste en asignar una una etiqueta de clase específica a cada píxel de una imagen. A diferencia de otras tareas más sencillas que pueden categorizar una imagen entera o colocar un cuadro delimitador alrededor de un objeto, la segmentación semántica proporciona un mapa de la escena perfecto para cada píxel. Este Este nivel granular de detalle permite a las máquinas comprender los límites y formas precisas de los objetos, clasificando regiones distintas como "carretera", "persona", "cielo" o "tumor". Al tratar una imagen como una colección de píxeles clasificados y no como una simple suma de objetos, este método ofrece una del contexto visual, esencial para los sistemas avanzados de sistemas avanzados de inteligencia artificial que interactúan con entornos complejos.

Mecánica básica de la clasificación por píxeles

El proceso de segmentación semántica se basa en gran medida en modelos de aprendizaje profundo (deep learning, DL), en concreto arquitecturas basadas en redes neuronales convolucionales (CNN). Estos modelos se entrenan en grandes conjuntos de datos anotados en los que expertos anotadores humanos han etiquetado cada píxel. Durante el entrenamiento, la red aprende a asociar características de bajo nivel, como texturas y bordes, con conceptos semánticos de alto nivel. con conceptos semánticos de alto nivel.

Un patrón arquitectónico común implica una estructura codificador-decodificador:

  • Codificador: Desmuestrea la imagen de entrada para captar el contexto semántico y reducir las dimensiones espaciales.
  • Decodificador: Submuestrea las características codificadas a la resolución de la imagen original para generar un mapa de predicción. mapa de predicción.

Arquitecturas pioneras como las redes totalmente convolucionales (FCN) sentaron (FCN) sentaron las bases al sustituir las capas totalmente conectadas por otras convolucionales para producir mapas espaciales. Otros diseños especializados, como U-Net, utilizan conexiones de salto para para preservar los detalles, lo que las hace muy eficaces para tareas que requieren gran precisión.

distinguir la segmentación semántica de las tareas relacionadas

Para seleccionar la herramienta adecuada para un proyecto, es crucial distinguir la segmentación semántica de otras tareas de visión por ordenador. tareas de visión por ordenador:

  • Detección de objetos: Identifica objetos y los localiza con cajas rectangulares. Responde a la pregunta "¿dónde está el objeto? pero ignora la forma exacta del objeto.
  • Segmentación por instancias: Similar a la segmentación semántica, pero distingue entre instancias individuales de la misma clase. Por ejemplo mientras que la segmentación semántica etiqueta todos los píxeles de "coche" con el mismo color, la segmentación por instancias asigna un ID único a "coche 1", "coche 2", etc. ID único a "coche 1", "coche 2", etc.
  • Clasificación de imágenes: Asigna una única etiqueta a toda la imagen (por ejemplo, "escena de playa") sin identificar la ubicación de elementos concretos.

Aplicaciones en el mundo real

La capacidad de analizar escenas a nivel de píxel ha impulsado la innovación en múltiples sectores:

  • Vehículos autónomos: Los coches autónomos utilizan la segmentación semántica para identificar superficies transitables (carreteras), señales de tráfico, peatones y peatones y obstáculos. Los conjuntos de datos como Cityscapes se utilizan modelos para navegar por entornos urbanos con seguridad.
  • Análisis de imágenes médicas: En sanidad, la precisión es vital. Los modelos segment órganos, lesiones y tumores en exploraciones de IRM o TC TAC. Esto ayuda a los radiólogos a cuantificar el volumen de los tejidos y planificar las intervenciones quirúrgicas.
  • Análisis de imágenes de satélite: La segmentación semántica ayuda en la clasificación de la cubierta terrestre, el seguimiento de la deforestación y la planificación urbana. Las organizaciones como la NASA utilizan estas técnicas para controlar los cambios medioambientales a escala mundial. global.
  • Agricultura de precisión: Los agricultores utilizan la segmentación para distinguir los cultivos de las malas hierbas, lo que permite una aplicación selectiva de herbicidas que reduce el uso de productos químicos y los costes. el uso de productos químicos y los costes.

Aplicación de la segmentación semántica

Frameworks modernos como PyTorch y TensorFlow proporcionan las herramientas para construir modelos de segmentación. Sin embargo, las bibliotecas de alto nivel simplifican el proceso significativamente. El sitio Ultralytics YOLO11 admiten tareas de segmentación, ofreciendo un equilibrio de velocidad y precisión adecuadas para inferencia en tiempo real.

El siguiente ejemplo muestra cómo cargar un modelo de segmentación YOLO11 preentrenado y realizar una inferencia sobre una imagen utilizando el ultralytics paquete python .

from ultralytics import YOLO

# Load a pre-trained YOLO11 segmentation model
model = YOLO("yolo11n-seg.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Visualize the segmentation mask results
results[0].show()

Para los desarrolladores que deseen crear soluciones personalizadas, herramientas de anotación como LabelMe o CVAT son esenciales para preparar los datos de entrenamiento. Una vez entrenados estos modelos pueden desplegarse en dispositivos periféricos mediante OpenCV o formatos optimizados como ONNX para un rendimiento eficiente en entornos de producción.

Únase a la comunidad Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora