Descubra U-Net, la potente arquitectura CNN para la segmentación semántica. Conozca sus aplicaciones en imágenes médicas, de satélite y autónomas.
U-Net es una arquitectura especializada para redes neuronales convolucionales (CNN) diseñadas para realizar una clasificación precisa a nivel de píxel conocida como segmentación semántica. A diferencia de los modelos de clasificación tradicionales, que asignan una única etiqueta a toda la imagen, U-Net predice una clase para cada píxel, creando un mapa detallado que describe la forma y la ubicación exactas de los objetos. cada píxel, creando un mapa detallado que describe la forma y la ubicación exactas de los objetos. Desarrollado originalmente para para el análisis de imágenes biomédicas, se ha convertido en una estructura fundamental en el campo de la segmentación. visión por ordenador (VC) debido a su capacidad de trabajar eficazmente con datos de entrenamiento con resultados resultados de alta resolución.
El nombre "U-Net" procede de su diagrama simétrico en forma de U, que modifica un diagrama estándar. autoencoder estándar. La arquitectura se compone de tres secciones principales que colaboran para extraer características y reconstruir la imagen con máscaras de segmentación detalladas. máscaras de segmentación.
U-Net se introdujo en el artículo seminal "U-Net: Redes convolucionales para segmentación de imágenes biomédicas" y desde entonces se ha adaptado a numerosos sectores que requieren localización.
En sanidad, la precisión es fundamental. U-Net se utiliza ampliamente en análisis de imágenes médicas para automatizar la detección de anomalías. Por ejemplo, ayuda a los radiólogos a segmentar tumores en resonancias magnéticas o a contar células individuales en imágenes de microscopía. o el recuento de células individuales en imágenes de microscopía. IA en sanidad.
La arquitectura también es vital para analizar imágenes por satélite. Los modelos U-Net pueden segment los tipos de cubierta terrestre -distinguiendo entre agua, bosques y zonas urbanas- para track la deforestación o track la salud de los cultivos para la track de los recursos hídricos. deforestación o vigilar la salud de los cultivos para agricultura inteligente.
Para entender la U-Net hay que distinguirla de otras tareas de visión:
Mientras que la implementación de una U-Net en bruto a menudo implica escribir código prolijo en frameworks como PyTorch o TensorFlowlas bibliotecas modernas simplifican este proceso. El ecosistema Ultralytics ofrece modelos de segmentación optimizados que aprovechan principios arquitectónicos similares para un rendimiento en tiempo real.
En el siguiente ejemplo se muestra cómo utilizar un programa preentrenado modelo de segmentaciónYOLO11 para generar máscaras a nivel de píxel:
from ultralytics import YOLO
# Load a pre-trained YOLO11 segmentation model
model = YOLO("yolo11n-seg.pt")
# Run inference on an image to detect and segment objects
results = model("path/to/image.jpg")
# Display the results with segmentation masks overlaid
results[0].show()
Este flujo de trabajo simplificado permite a los desarrolladores integrar complejas funciones de segmentación en aplicaciones para despliegue de modelos en dispositivos periféricos. Al entrenar estos modelos en conjuntos de datos personalizados, el empleo de aumento de datos de datos para evitar el el sobreajusteun problema habitual cuando se trabaja con anotaciones precisas a nivel de píxel.