Descubra el poder de la segmentación de imágenes con Ultralytics YOLO. Explore la precisión a nivel de píxel, los tipos, las aplicaciones y los casos de uso de IA en el mundo real.
La segmentación de imágenes es una técnica visión por ordenador (VC) que consiste en dividir una imagen digital en múltiples subgrupos de píxeles, comúnmente denominados segmentos de imagen. El objetivo principal es simplificar la representación de una imagen en algo más significativo y fácil de analizar. A diferencia de detección de objetos, que los localiza en un rectangular, la segmentación de imágenes proporciona un mapa preciso, a nivel de píxel, de la forma de un objeto. Este proceso asigna una etiqueta a cada píxel de una imagen, lo que permite modelos de inteligencia artificial (IA) comprender los límites y contornos exactos de las entidades de una escena.
En muchos flujos de trabajo modernos de aprendizaje automático (ML), conocer la ubicación aproximada de un objeto es insuficiente. Las aplicaciones que requieren una interacción con el mundo físico, como un robot que agarra un paquete o un coche que circula por una carretera sinuosa, exigen un conocimiento detallado de la geometría. de la geometría. La segmentación de imágenes salva esta distancia convirtiendo los datos visuales brutos en un conjunto de regiones clasificadas. Esta capacidad de capacidad se basa en arquitecturas arquitecturas de aprendizaje profundo (AD), en particular Redes neuronales convolucionales (CNN), que extraen características espaciales para diferenciar entre los objetos en primer plano y el fondo.
Comprender la tarea específica de segmentación es crucial para seleccionar la arquitectura de modelo adecuada. Las tres categorías principales son:
La capacidad de delimitar fronteras precisas hace que la segmentación sea indispensable en diversos sectores:
Los marcos modernos han simplificado la ejecución de las tareas de segmentación. Mientras que los antiguos detectores de dos etapas, como R-CNN de máscara eran precisos pero lentos, los modelos de una sola etapa han revolucionado este campo al ofrecer inferencia en tiempo real. El sitio Ultralytics YOLO11 por ejemplo, admite la segmentación de instancias de forma nativa. De cara al futuro, YOLO26 se está desarrollando para optimizar aún más estas capacidades con procesamiento de extremo a extremo.
Los desarrolladores pueden utilizar bibliotecas estándar como OpenCV para el preprocesamiento y visualización, mientras que con PyTorch para el trabajo pesado de inferencia del modelo.
He aquí un ejemplo conciso de cómo realizar la segmentación de instancias utilizando un modelo YOLO11 preentrenado en Python:
from ultralytics import YOLO
# Load a pre-trained YOLO11 segmentation model
model = YOLO("yolo11n-seg.pt")
# Run inference on an image (can be a local path or URL)
results = model("https://ultralytics.com/images/bus.jpg")
# Display the resulting image with segmentation masks overlaid
results[0].show()
Este fragmento de código se encarga automáticamente de las complejas tareas de extracción de características, regresión de cuadros delimitadores y generación de máscaras. permitiendo a los desarrolladores centrarse en integrar los resultados de la segmentación en aplicaciones más grandes.