Image Segmentation
Explora la segmentación de imágenes en visión artificial. Aprende cómo Ultralytics YOLO26 proporciona máscaras precisas a nivel de píxel para segmentación de instancias, semántica y panóptica.
La segmentación de imágenes es una técnica sofisticada en visión artificial (CV) que consiste en dividir una imagen digital en varios subgrupos de píxeles, a menudo denominados segmentos o regiones de imagen. A diferencia de la clasificación de imágenes estándar, que asigna una etiqueta única a toda la imagen, la segmentación analiza los datos visuales a un nivel mucho más granular asignando una etiqueta de clase específica a cada píxel individual. Este proceso crea un mapa preciso a nivel de píxel, lo que permite a los modelos de inteligencia artificial (IA) entender no solo qué objetos están presentes, sino dónde se encuentran exactamente y cuáles son sus límites específicos.
Link to this sectionLa mecánica del análisis a nivel de píxel#
Para lograr esta comprensión de alta fidelidad, los modelos de segmentación suelen aprovechar arquitecturas de aprendizaje profundo (DL), especialmente redes neuronales convolucionales (CNN). Estas redes actúan como potentes extractores de características, identificando patrones como bordes, texturas y formas complejas. Las arquitecturas de segmentación tradicionales, como la clásica U-Net, suelen emplear una estructura de codificador-decodificador. El codificador comprime la imagen de entrada para capturar el contexto semántico, mientras que el decodificador reconstruye los detalles espaciales para generar una máscara de segmentación final.
Los avances modernos han dado lugar a arquitecturas en tiempo real como YOLO26, lanzada en enero de 2026. Estos modelos integran capacidades de segmentación directamente en una canalización integral, lo que permite un procesamiento de alta velocidad en diversos tipos de hardware, desde GPU en la nube hasta dispositivos periféricos.
Link to this sectionTipos principales de segmentación#
Dependiendo del objetivo específico de un proyecto, los desarrolladores suelen elegir entre tres técnicas principales de segmentación:
- Segmentación semántica: Este método clasifica los píxeles según su categoría, pero no distingue entre objetos separados de la misma clase. Por ejemplo, en un análisis de imágenes satelitales, todos los píxeles que representan "bosque" se colorearían de verde, tratando a todo el bosque como una única entidad.
- Segmentación de instancias: Esta técnica identifica y separa objetos individuales de interés. En una escena de calle con mucho tráfico, la segmentación de instancias generaría una máscara única para "Coche A", "Coche B" y "Peatón A", lo que permitiría a los sistemas contar y rastrear entidades específicas. Esta es una característica fundamental de la familia de modelos Ultralytics YOLO26.
- Segmentación panóptica: Un enfoque híbrido que combina la cobertura de la segmentación semántica con la precisión de la segmentación de instancias. Asigna una etiqueta a cada píxel, distinguiendo elementos de fondo amorfos (como el cielo y la carretera) mientras identifica de forma única los objetos contables en primer plano.
Link to this sectionDistinción con la detección de objetos#
Es crucial diferenciar la segmentación de la detección de objetos. Si bien los algoritmos de detección localizan elementos mediante un cuadro delimitador rectangular, inevitablemente incluyen píxeles de fondo dentro de ese cuadro. La segmentación proporciona una representación más ajustada y precisa al trazar el contorno o polígono exacto del objeto. Esta diferencia es vital para aplicaciones como el agarre robótico, donde un brazo robótico debe conocer la geometría precisa de un elemento para manipularlo sin colisiones.
Link to this sectionAplicaciones en el mundo real#
La precisión que ofrece la segmentación de imágenes impulsa la innovación en diversos sectores:
- Diagnóstico médico: En el campo del análisis de imágenes médicas, la segmentación es esencial para delinear estructuras anatómicas. Los algoritmos analizan escáneres de RM para delimitar tumores o bordes de órganos, lo que permite a los cirujanos calcular volúmenes exactos y planificar procedimientos con una precisión que puede salvar vidas.
- Conducción autónoma: Los vehículos autónomos dependen de la segmentación para navegar de forma segura. Al procesar secuencias de vídeo, el ordenador del vehículo puede diferenciar los carriles transitables de las aceras y los obstáculos. Organizaciones de normalización como SAE International definen niveles de autonomía que requieren esta percepción del entorno de alta fidelidad.
- Agricultura de precisión: En la IA aplicada a la agricultura, la segmentación ayuda a los sistemas robóticos a identificar las malas hierbas entre los cultivos. Al generar máscaras para hojas de plantas específicas, los pulverizadores automatizados pueden atacar solo a las especies invasoras, reduciendo significativamente el uso de herbicidas.
Link to this sectionImplementación de la segmentación con YOLO26#
Los desarrolladores pueden implementar la segmentación de instancias de forma eficiente utilizando el paquete de Python ultralytics. El siguiente ejemplo utiliza el modelo YOLO26 de vanguardia, que está optimizado tanto para la velocidad como para la precisión.
from ultralytics import YOLO
# Load a pre-trained YOLO26 segmentation model
# 'n' denotes the nano version, optimized for speed
model = YOLO("yolo26n-seg.pt")
# Run inference on an image to generate masks
# The model identifies objects and outlines their shape
results = model("https://ultralytics.com/images/bus.jpg")
# Display the image with segmentation overlays
results[0].show()Para lograr un alto rendimiento en tareas personalizadas, los equipos a menudo necesitan gestionar datos de entrenamiento de alta calidad. La Plataforma Ultralytics simplifica este proceso proporcionando herramientas para anotar imágenes con máscaras de polígonos, gestionar conjuntos de datos y entrenar modelos en la nube, agilizando todo el ciclo de vida de las operaciones de aprendizaje automático (MLOps). Bibliotecas como OpenCV también se utilizan con frecuencia junto con estos modelos para el preprocesamiento de imágenes y el posprocesamiento de las máscaras resultantes.






