Descubra el poder de la classify semántica: clasifique cada píxel de las imágenes para comprender la escena con precisión. Explore ahora las aplicaciones y herramientas.
La segmentación semántica es una técnica fundamental en visión por ordenador (CV) que consiste en asignar una una etiqueta de clase específica a cada píxel de una imagen. A diferencia de otras tareas más sencillas que pueden categorizar una imagen entera o colocar un cuadro delimitador alrededor de un objeto, la segmentación semántica proporciona un mapa de la escena perfecto para cada píxel. Este Este nivel granular de detalle permite a las máquinas comprender los límites y formas precisas de los objetos, clasificando regiones distintas como "carretera", "persona", "cielo" o "tumor". Al tratar una imagen como una colección de píxeles clasificados y no como una simple suma de objetos, este método ofrece una del contexto visual, esencial para los sistemas avanzados de sistemas avanzados de inteligencia artificial que interactúan con entornos complejos.
El proceso de segmentación semántica se basa en gran medida en modelos de aprendizaje profundo (deep learning, DL), en concreto arquitecturas basadas en redes neuronales convolucionales (CNN). Estos modelos se entrenan en grandes conjuntos de datos anotados en los que expertos anotadores humanos han etiquetado cada píxel. Durante el entrenamiento, la red aprende a asociar características de bajo nivel, como texturas y bordes, con conceptos semánticos de alto nivel. con conceptos semánticos de alto nivel.
Un patrón arquitectónico común implica una estructura codificador-decodificador:
Arquitecturas pioneras como las redes totalmente convolucionales (FCN) sentaron (FCN) sentaron las bases al sustituir las capas totalmente conectadas por otras convolucionales para producir mapas espaciales. Otros diseños especializados, como U-Net, utilizan conexiones de salto para para preservar los detalles, lo que las hace muy eficaces para tareas que requieren gran precisión.
Para seleccionar la herramienta adecuada para un proyecto, es crucial distinguir la segmentación semántica de otras tareas de visión por ordenador. tareas de visión por ordenador:
La capacidad de analizar escenas a nivel de píxel ha impulsado la innovación en múltiples sectores:
Frameworks modernos como PyTorch y TensorFlow proporcionan las herramientas para construir modelos de segmentación. Sin embargo, las bibliotecas de alto nivel simplifican el proceso significativamente. El sitio Ultralytics YOLO11 admiten tareas de segmentación, ofreciendo un equilibrio de velocidad y precisión adecuadas para inferencia en tiempo real.
El siguiente ejemplo muestra cómo cargar un modelo de segmentación YOLO11 preentrenado y realizar una inferencia sobre una
imagen utilizando el ultralytics paquete python .
from ultralytics import YOLO
# Load a pre-trained YOLO11 segmentation model
model = YOLO("yolo11n-seg.pt")
# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Visualize the segmentation mask results
results[0].show()
Para los desarrolladores que deseen crear soluciones personalizadas, herramientas de anotación como LabelMe o CVAT son esenciales para preparar los datos de entrenamiento. Una vez entrenados estos modelos pueden desplegarse en dispositivos periféricos mediante OpenCV o formatos optimizados como ONNX para un rendimiento eficiente en entornos de producción.