Explora la segmentación semántica para comprender las imágenes a nivel de píxeles. Aprende hoy mismo a entrenar e implementar modelos de segmentación precisos con Ultralytics .
La segmentación semántica es una tarea de visión artificial que consiste en dividir una imagen en regiones distintas asignando una etiqueta de clase específica a cada píxel individual. A diferencia de tareas más sencillas como la clasificación de imágenes, que asigna una única etiqueta a toda la imagen, o la detección de objetos, que dibuja cuadros delimitadores alrededor de los objetos, la segmentación semántica proporciona una comprensión de la escena a nivel de píxel. Este análisis granular es crucial para aplicaciones en las que la forma y los límites precisos de un objeto son tan importantes como su identidad. Permite a las máquinas «ver» el mundo de forma más parecida a los humanos, distinguiendo los píxeles exactos que componen una carretera, un peatón o un tumor en una exploración médica.
En esencia, la segmentación semántica trata una imagen como una cuadrícula de píxeles que deben clasificarse. Los modelos de aprendizaje profundo , en particular las redes neuronales convolucionales (CNN), son la arquitectura estándar para esta tarea. Una arquitectura típica, como la ampliamente utilizada U-Net, emplea una estructura codificador-decodificador. El codificador comprime la imagen de entrada para extraer características de alto nivel (como texturas y formas), mientras que el decodificador vuelve a muestrear estas características a la resolución original de la imagen para generar una máscara de segmentación precisa .
Para lograrlo, los modelos se entrenan con grandes conjuntos de datos anotados en los que los anotadores humanos han coloreado cuidadosamente cada píxel según su clase. Herramientas como la Ultralytics facilitan este proceso al ofrecer funciones de anotación automática que aceleran la creación de datos de referencia de alta calidad. Una vez entrenado, el modelo genera una máscara en la que cada valor de píxel corresponde a un ID de clase, «pintando» eficazmente la imagen con significado.
Es habitual confundir la segmentación semántica con otras tareas a nivel de píxeles. Comprender las diferencias es fundamental para seleccionar el enfoque adecuado para un proyecto:
La capacidad de analizar datos visuales con una precisión milimétrica impulsa la innovación en muchos sectores de alto riesgo:
Los modelos de segmentación modernos deben equilibrar la precisión con la velocidad, especialmente para
inferencia en tiempo real en dispositivos periféricos. El
Ultralytics YOLO26 La familia de modelos incluye modelos de segmentación especializados
(denotados con un -seg sufijo) que son nativamente de extremo a extremo, ofreciendo un rendimiento superior
respecto a arquitecturas más antiguas como YOLO11.
El siguiente ejemplo muestra cómo realizar la segmentación de una imagen utilizando el ultralytics Python
. Esto produce máscaras binarias que delinean los límites de los objetos.
from ultralytics import YOLO
# Load a pre-trained YOLO26 segmentation model
model = YOLO("yolo26n-seg.pt")
# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Visualize the results
# This will display the image with the segmentation masks overlaid
results[0].show()
A pesar de los importantes avances, la segmentación semántica sigue requiriendo un gran esfuerzo computacional. Generar una clasificación para cada píxel requiere una cantidad considerable de GPU y memoria. Los investigadores están trabajando activamente en la optimización de estos modelos para mejorar su eficiencia, explorando técnicas como la cuantificación de modelos para ejecutar redes pesadas en teléfonos móviles y dispositivos integrados.
Además, la necesidad de conjuntos de datos etiquetados masivos es un cuello de botella. Para solucionar esto, la industria está avanzando hacia la generación de datos sintéticos y el aprendizaje auto-supervisado, lo que permite a los modelos aprender a partir de imágenes sin procesar sin necesidad de millones de etiquetas de píxeles manuales. A medida que estas tecnologías maduren, podemos esperar que la segmentación se vuelva aún más omnipresente en cámaras inteligentes, robótica y aplicaciones de realidad aumentada.