Explora la segmentación de imágenes en la visión artificial. Descubre cómo Ultralytics proporciona máscaras precisas a nivel de píxel para la segmentación de instancias, semántica y panóptica.
La segmentación de imágenes es una técnica sofisticada de visión artificial (CV) que consiste en dividir una imagen digital en múltiples subgrupos de píxeles, a menudo denominados segmentos o regiones de imagen. A diferencia de la clasificación de imágenes estándar, que asigna una única etiqueta a toda la imagen, la segmentación analiza los datos visuales a un nivel mucho más granular, asignando una etiqueta de clase específica a cada píxel individual. Este proceso crea un mapa preciso a nivel de píxel, lo que permite a los modelos de inteligencia artificial (IA) comprender no solo qué objetos están presentes, sino también dónde se encuentran exactamente y cuáles son sus límites específicos .
Para lograr esta comprensión de alta fidelidad, los modelos de segmentación suelen aprovechar las arquitecturas de aprendizaje profundo (DL), en particular las redes neuronales convolucionales (CNN). Estas redes actúan como potentes extractores de características, identificando patrones como bordes, texturas y formas complejas . Las arquitecturas de segmentación tradicionales, como la clásica U-Net, suelen emplear una estructura codificador-decodificador. El codificador comprime la imagen de entrada para capturar el contexto semántico, mientras que el decodificador reconstruye los detalles espaciales para generar una máscara de segmentación final.
Los avances modernos han dado lugar a arquitecturas en tiempo real como YOLO26, lanzada en enero de 2026. Estos modelos integran capacidades de segmentación directamente en un proceso integral, lo que permite un procesamiento de alta velocidad en diversos hardware, desde GPU en la nube hasta dispositivos periféricos .
Dependiendo del objetivo específico de un proyecto, los desarrolladores suelen elegir entre tres técnicas principales de segmentación:
Es fundamental diferenciar la segmentación de la detección de objetos. Mientras que los algoritmos de detección localizan elementos utilizando un cuadro delimitador rectangular, inevitablemente incluyen píxeles de fondo dentro de ese cuadro. La segmentación proporciona una representación más precisa y exacta al trazar el contorno o polígono exacto del objeto. Esta diferencia es vital para aplicaciones como la manipulación robótica, en la que el brazo de un robot debe conocer la geometría precisa de un objeto para manipularlo sin colisiones.
La precisión que ofrece la segmentación de imágenes impulsa la innovación en diversos sectores:
Los desarrolladores pueden implementar la segmentación de instancias de manera eficiente utilizando el ultralytics Python . El
siguiente ejemplo utiliza la última tecnología Modelo YOLO26,
que está optimizado tanto para la velocidad como para la precisión.
from ultralytics import YOLO
# Load a pre-trained YOLO26 segmentation model
# 'n' denotes the nano version, optimized for speed
model = YOLO("yolo26n-seg.pt")
# Run inference on an image to generate masks
# The model identifies objects and outlines their shape
results = model("https://ultralytics.com/images/bus.jpg")
# Display the image with segmentation overlays
results[0].show()
Para lograr un alto rendimiento en tareas personalizadas, los equipos a menudo necesitan seleccionar datos de entrenamiento de alta calidad . Ultralytics simplifica este proceso al proporcionar herramientas para anotar imágenes con máscaras poligonales, gestionar conjuntos de datos y entrenar modelos en la nube, lo que agiliza todo el ciclo de vida de las operaciones de aprendizaje automático (MLOps) . Bibliotecas como OpenCV también se utilizan con frecuencia junto con estos modelos para el preprocesamiento de imágenes y el posprocesamiento de las máscaras resultantes.