¡Sintonice YOLO Vision 2025!
25 de septiembre de 2025
10:00 — 18:00 BST
Evento híbrido
Yolo Vision 2024

Una guía sobre la arquitectura U-Net y sus aplicaciones

Abirami Vina

5 minutos de lectura

15 de julio de 2025

Aprenda sobre la arquitectura U-Net, cómo apoya la segmentación de imágenes, sus aplicaciones y por qué es significativa en la evolución de la visión artificial.

La visión artificial es una rama de la inteligencia artificial (IA) que se centra en el análisis de datos visuales. Ha allanado el camino para muchos sistemas de vanguardia, como la automatización del proceso de inspección de productos en fábricas y la ayuda a los vehículos autónomos a navegar por las carreteras. 

Una de las tareas más conocidas de la visión artificial es la detección de objetos. Esta tarea permite a los modelos localizar e identificar objetos dentro de una imagen utilizando cuadros delimitadores. Si bien los cuadros delimitadores son útiles para diversas aplicaciones, solo proporcionan una estimación aproximada de la ubicación de un objeto.

Sin embargo, en campos como la atención médica, donde la precisión es crucial, los casos de uso de la IA visual dependen de algo más que la simple identificación de un objeto. A menudo, también requieren información relacionada con la forma y la posición exactas de los objetos.

Eso es exactamente para lo que está diseñada la tarea de visión artificial, la segmentación. En lugar de utilizar cuadros delimitadores, los modelos de segmentación detectan objetos a nivel de píxel. A lo largo de los años, los investigadores han desarrollado modelos de visión artificial especializados para la segmentación.

Uno de estos modelos es U-Net. Aunque modelos más nuevos y avanzados han superado su rendimiento, U-Net ocupa un lugar importante en la historia de la visión artificial. En este artículo, analizaremos más de cerca la arquitectura de U-Net, cómo funciona, dónde se ha utilizado y cómo se compara con los modelos de segmentación más modernos disponibles en la actualidad.

Fig. 1. Ejemplo de segmentación utilizando el modelo de aprendizaje profundo U-Net. (Fuente)

La historia de la segmentación de imágenes

Antes de profundizar en qué es U-Net, primero comprendamos mejor cómo evolucionaron los modelos de segmentación de imágenes.

Inicialmente, la visión artificial se basaba en técnicas tradicionales como la detección de bordes, la umbralización o el crecimiento de regiones para separar objetos en una imagen. Estas técnicas se utilizaban para detectar los límites de los objetos utilizando bordes, separar regiones por intensidad de píxeles y agrupar píxeles similares. Funcionaban para casos simples, pero a menudo fallaban cuando las imágenes tenían ruido, formas superpuestas o límites poco claros.

Tras el auge del aprendizaje profundo en 2012, los investigadores introdujeron el concepto de redes totalmente convolucionales (FCN) en 2014 para tareas como la segmentación semántica. Estos modelos reemplazaron ciertas partes de una red convolucional para permitir que la computadora observe una imagen completa a la vez, en lugar de dividirla en partes más pequeñas. Esto hizo posible que el modelo creara mapas detallados que muestran lo que hay en una imagen de manera más clara.

Fig. 2. La evolución de los algoritmos de segmentación basados en aprendizaje profundo. (Fuente)

Basándose en las FCN, U-Net fue introducido por investigadores de la Universidad de Friburgo en 2015. Originalmente fue diseñado para la segmentación de imágenes biomédicas. En particular, U-Net fue diseñado para funcionar bien en situaciones donde los datos anotados son limitados. 

Mientras tanto, versiones posteriores como UNet++ y TransUNet añadieron mejoras como capas de atención y una mejor extracción de características. Las capas de atención ayudan al modelo a centrarse en las regiones clave, mientras que la extracción de características mejorada captura información más detallada.

¿Qué es U-Net y cómo fluyen las características a través del modelo?

U-Net es un modelo de aprendizaje profundo construido específicamente para la segmentación de imágenes. Toma una imagen como entrada y produce una máscara de segmentación que clasifica cada píxel según el objeto o la región a la que pertenece.

El modelo recibe su nombre de su arquitectura en forma de U. Consta de dos partes principales: un codificador que comprime la imagen y aprende sus características, y un decodificador que la expande de nuevo al tamaño original. Este diseño crea una forma de U simétrica, que ayuda al modelo a comprender tanto la estructura general de una imagen como sus detalles más finos.

Una característica crucial de U-Net es el uso de conexiones de salto, que permiten que la información del codificador se transmita directamente al decodificador. Esto significa que el modelo puede preservar detalles importantes que podrían perderse al comprimir la imagen. 

Una visión general de la arquitectura de U-Net

Aquí tienes un vistazo de cómo funciona la arquitectura de U-Net:

  • Imagen de entrada: U-Net comienza con una imagen 2D, como un escaneo médico o una foto de satélite. El objetivo es asignar una etiqueta de clase a cada píxel de la imagen.

  • Submuestreo: La imagen pasa a través de capas convolucionales que aprenden características visuales importantes. A medida que la imagen se mueve a través de diferentes capas, su resolución disminuye y el modelo identifica patrones más amplios.

  • Capa de cuello de botella: En el centro de la red, los mapas de características alcanzan su resolución espacial más pequeña mientras capturan características semánticas de alto nivel. En pocas palabras, esta representación comprimida de los mapas de características es el contexto general de la entrada.

  • Muestreo ascendente: La red reconstruye entonces la imagen aumentando gradualmente la resolución. Las convoluciones transpuestas ayudan a expandir los mapas de características de vuelta al tamaño original.

  • Conexiones de salto: Los mapas de características de la ruta de submuestreo se concatenan con los de la ruta de sobremuestreo. Esto ayuda a preservar los detalles espaciales finos al tiempo que integra información contextual de alto nivel.
  • La salida es un mapa de segmentación: La salida final es una máscara de segmentación a nivel de píxel que coincide con el tamaño de la entrada. Cada píxel se clasifica en una categoría como objeto, fondo o región de interés.
Fig. 3. Diagrama de la arquitectura U-Net. (Fuente)

Entendiendo la diferencia entre ViT y U-Net

Al explorar U-Net, puede que se pregunte en qué se diferencia de otros modelos de aprendizaje profundo, como el Vision Transformer (ViT), que también puede realizar tareas de segmentación. Si bien ambos modelos pueden realizar tareas similares, difieren en cómo están construidos y cómo gestionan la segmentación.

U-Net funciona procesando imágenes a nivel de píxel a través de capas convolucionales en una estructura de codificador-decodificador. Se utiliza a menudo para tareas que requieren una segmentación precisa, como escaneos médicos o escenas de coches autónomos. 

Por otro lado, el Vision Transformer (ViT) divide las imágenes en parches y los procesa simultáneamente mediante mecanismos de atención. Utiliza la autoatención (un mecanismo que permite al modelo ponderar la importancia de las diferentes partes de la imagen en relación con las demás) para capturar cómo se relacionan las diferentes partes de la imagen entre sí, a diferencia del enfoque convolucional de U-Net.

Otra diferencia importante es que ViT generalmente necesita más datos para funcionar bien, pero es excelente para detectar patrones complejos. U-Net, por otro lado, funciona bien con conjuntos de datos más pequeños, es más rápido de entrenar y, a menudo, requiere menos tiempo de entrenamiento.

Aplicaciones del modelo U-Net

Ahora que comprendemos mejor qué es U-Net y cómo funciona, exploremos cómo se ha aplicado U-Net en diferentes dominios.

Segmentación de hemorragias cerebrales en imágenes médicas

U-Net se convirtió en un método fiable para la segmentación a nivel de píxel de imágenes médicas complejas, particularmente durante su auge en la investigación. Los investigadores lo utilizaron para resaltar áreas clave en escáneres médicos, como tumores y signos de hemorragias internas en imágenes de TC y RM. Este enfoque avanzó significativamente la precisión de los diagnósticos y agilizó el análisis de datos médicos complejos en entornos de investigación.

Un ejemplo del impacto de U-Net en la investigación sanitaria es su uso en la identificación de accidentes cerebrovasculares y hemorragias cerebrales en exploraciones médicas. Los investigadores podrían utilizar U-Net para analizar exploraciones de la cabeza y resaltar las áreas de preocupación, lo que permitiría identificar más rápidamente los casos que requieren atención inmediata.

Fig. 4. Segmentación de lesiones por accidente cerebrovascular hemorrágico mediante 3D U-Net. (Fuente)

Segmentación de cultivos en agricultura

Otra área donde los investigadores han utilizado U-Net es en la agricultura, particularmente para segmentar cultivos, malezas y suelo. Ayuda a los agricultores a monitorear la salud de las plantas, estimar los rendimientos y tomar mejores decisiones en grandes explotaciones. Por ejemplo, U-Net puede separar los cultivos de las malezas, lo que hace que la aplicación de herbicidas sea más eficiente y reduce el desperdicio.

Para abordar desafíos como el desenfoque de movimiento en las imágenes de drones, los investigadores han mejorado U-Net con técnicas de desenfoque de imágenes. Esto garantiza una segmentación más clara, incluso cuando los datos se recopilan en movimiento, como durante los estudios aéreos.

Fig. 5. Separación de cultivos y maleza en campos agrícolas con U-Net. (Fuente)

Conducción autónoma

Antes de que se introdujeran modelos de IA más avanzados, U-Net desempeñó un papel vital en la exploración de cómo la segmentación podía mejorar la conducción autónoma. En vehículos autónomos, la segmentación semántica de U-Net se puede utilizar para clasificar cada píxel de una imagen en categorías como carretera, vehículo, peatón y marcas de carril. Esto proporciona al coche una visión clara de su entorno, lo que ayuda a una navegación segura y a una toma de decisiones eficaz.

Fig. 6. Una escena de carretera donde el área transitable se segmenta utilizando U-Net. (Fuente)

Pros y contras de U-Net

Incluso hoy en día, U-Net sigue siendo una buena opción para la segmentación de imágenes entre los investigadores debido a su equilibrio entre simplicidad, precisión y adaptabilidad. Estas son algunas de las ventajas clave que la hacen destacar:

  • Adaptable para diferentes modalidades: U-Net se ha adaptado a diferentes tipos de datos, incluyendo escaneos médicos 3D, imágenes de satélite e incluso fotogramas de vídeo.

  • Inferencia rápida cuando se optimiza: Cuando se ajusta correctamente, U-Net puede ejecutarse de manera eficiente, lo que la hace adecuada para aplicaciones en tiempo real o casi en tiempo real.

  • Código abierto y comunidad:  U-Net está disponible en las principales bibliotecas de aprendizaje profundo y cuenta con el respaldo de una gran comunidad de desarrolladores e investigadores.

Si bien U-Net tiene muchas fortalezas, también hay algunas limitaciones a tener en cuenta. Aquí hay algunos factores a considerar: 

  • Sensible a la calidad de los datos: El rendimiento de U-Net puede verse afectado negativamente por datos de baja calidad, como imágenes ruidosas o de baja resolución.

  • Propenso al sobreajuste con conjuntos de datos pequeños: Aunque U-Net funciona bien con datos limitados, todavía corre el riesgo de sobreajuste si no se regulariza adecuadamente, sobre todo cuando el conjunto de datos es demasiado pequeño o carece de diversidad.

  • Recursos computacionales: U-Net puede ser computacionalmente costoso, especialmente cuando se trabaja con grandes conjuntos de datos, lo que requiere importantes recursos de hardware para el entrenamiento.

Conclusiones clave

U-Net ha sido un hito clave en la evolución de la segmentación de imágenes. Demostró que los modelos de aprendizaje profundo pueden ofrecer resultados precisos utilizando conjuntos de datos más pequeños, especialmente en áreas como la imagen médica. 

Este avance ha allanado el camino para aplicaciones más avanzadas en diversos campos. A medida que la visión artificial continúa evolucionando, los modelos de segmentación como U-Net siguen siendo fundamentales para permitir que las máquinas comprendan e interpreten los datos visuales con alta precisión.

¿Está buscando crear sus propios proyectos de visión artificial? Explore nuestro repositorio de GitHub para profundizar en la IA y consulte nuestras opciones de licencia. ¡Descubra cómo la visión artificial en la atención médica está mejorando la eficiencia y explore el impacto de la IA en el comercio minorista visitando nuestras páginas de soluciones! ¡Únase a nuestra creciente comunidad ahora!

¡Construyamos juntos el futuro
de la IA!

Comience su viaje con el futuro del aprendizaje automático

Comienza gratis
Enlace copiado al portapapeles