Guía sobre la arquitectura U-Net y sus aplicaciones

Abirami Vina

5 minutos de lectura

15 de julio de 2025

Conozca la arquitectura de U-Net, cómo soporta la segmentación de imágenes, sus aplicaciones y por qué es importante en la evolución de la visión por ordenador.

La visión por ordenador es una rama de la inteligencia artificial (IA) que se centra en el análisis de datos visuales. Ha allanado el camino a muchos sistemas de vanguardia, como la automatización del proceso de inspección de productos en fábricas y la ayuda a vehículos autónomos a circular por carreteras. 

Una de las tareas de visión por ordenador más conocidas es la detección de objetos. Esta tarea permite a los modelos localizar e identificar objetos dentro de una imagen utilizando cuadros delimitadores. Aunque los recuadros delimitadores son útiles para diversas aplicaciones, sólo proporcionan una estimación aproximada de la ubicación de un objeto.

Sin embargo, en campos como la sanidad, donde la precisión es crucial, los casos de uso de Vision AI dependen de algo más que la simple identificación de un objeto. A menudo, también requieren información relacionada con la forma y la posición exactas de los objetos.

Eso es exactamente para lo que está diseñada la tarea de visión por ordenador, la segmentación. En lugar de utilizar cuadros delimitadores, los modelos de segmentación detectan objetos a nivel de píxel. A lo largo de los años, los investigadores han desarrollado modelos de visión por ordenador especializados en segmentación.

Uno de estos modelos es U-Net. Aunque modelos más nuevos y avanzados han superado su rendimiento, U-Net ocupa un lugar importante en la historia de la visión por ordenador. En este artículo analizaremos la arquitectura de U-Net, cómo funciona, dónde se ha utilizado y cómo se compara con los modelos de segmentación más modernos disponibles en la actualidad.

Fig. 1. Un ejemplo de segmentación utilizando el modelo de aprendizaje profundo U-Net.(Fuente.)

Historia de la segmentación de imágenes

Antes de adentrarnos en lo que es U-Net, veamos cómo han evolucionado los modelos de segmentación de imágenes.

Inicialmente, la visión por ordenador se basaba en técnicas tradicionales como la detección de bordes, el umbral o el crecimiento de regiones para separar objetos en una imagen. Estas técnicas se utilizaban para detectar los límites de los objetos mediante bordes, separar regiones por la intensidad de los píxeles y agrupar píxeles similares. Funcionaban en casos sencillos, pero solían fallar cuando las imágenes tenían ruido, formas superpuestas o límites poco claros.

Tras el auge del aprendizaje profundo en 2012, los investigadores introdujeron el concepto de redes totalmente convolucionales (FCN) en 2014 para tareas como la segmentación semántica. Estos modelos sustituyeron ciertas partes de una red convolucional para permitir al ordenador ver una imagen completa de una vez, en lugar de dividirla en trozos más pequeños. Esto permitió al modelo crear mapas detallados que muestran con mayor claridad lo que hay en una imagen.

Fig 2. Evolución de los algoritmos de segmentación basados en el aprendizaje profundo.(Fuente.)

Basada en las FCN, la U-Net fue introducida por investigadores de la Universidad de Friburgo en 2015. Se diseñó originalmente para la segmentación de imágenes biomédicas. En concreto, U-Net se diseñó para obtener buenos resultados en situaciones en las que los datos anotados son limitados. 

Mientras tanto, versiones posteriores como UNet++ y TransUNet añadieron mejoras como las capas de atención y una mejor extracción de características. Las capas de atención ayudan al modelo a centrarse en las regiones clave, mientras que la extracción de rasgos mejorada captura información más detallada.

¿Qué es U-Net y cómo fluyen las características a través del modelo?

U-Net es un modelo de aprendizaje profundo construido específicamente para la segmentación de imágenes. Toma una imagen como entrada y produce una máscara de segmentación que clasifica cada píxel según el objeto o la región a la que pertenece.

El modelo recibe su nombre de su arquitectura en forma de U. Consta de dos partes principales: un codificador que comprime la imagen y aprende sus características, y un descodificador que la vuelve a expandir a su tamaño original. Este diseño crea una forma de U simétrica, que ayuda al modelo a comprender tanto la estructura general de una imagen como sus detalles más sutiles.

Una característica crucial de U-Net es el uso de conexiones de salto, que permiten pasar información del codificador directamente al descodificador. Esto significa que el modelo puede conservar detalles importantes que podrían perderse al comprimir la imagen. 

Arquitectura de U-Net

He aquí una idea de cómo funciona la arquitectura de U-Net:

  • Imagen de entrada: U-Net parte de una imagen 2D, como un escáner médico o una foto de satélite. El objetivo es asignar una etiqueta de clase a cada píxel de la imagen.

  • Muestreo descendente: La imagen pasa por capas convolucionales que aprenden características visuales importantes. A medida que la imagen avanza por las distintas capas, su resolución disminuye y el modelo identifica patrones más amplios.

  • Capa cuello de botella: En el centro de la red, los mapas de características alcanzan su mínima resolución espacial al tiempo que capturan características semánticas de alto nivel. En pocas palabras, esta representación comprimida de los mapas de características es el contexto general de la entrada.

  • Submuestreo: La red reconstruye la imagen aumentando gradualmente la resolución. Las convoluciones transpuestas ayudan a expandir los mapas de características hacia el tamaño original.

  • Omitir conexiones: Los mapas de características de la ruta de muestreo descendente se concatenan con los de la ruta de muestreo ascendente. De este modo se conservan los detalles espaciales más precisos y se integra la información contextual de alto nivel.
  • La salida es un mapa de segmentación: El resultado final es una máscara de segmentación por píxeles que coincide con el tamaño de entrada. Cada píxel se clasifica en una categoría como objeto, fondo o región de interés.
Fig. 3. Diagrama de arquitectura de U-Net.(Fuente)

Diferencias entre ViT y U-Net

Mientras exploras U-Net, puede que te preguntes en qué se diferencia de otros modelos de aprendizaje profundo, como Vision Transformer (ViT), que también puede realizar tareas de segmentación. Aunque ambos modelos pueden realizar tareas similares, se diferencian en cómo están construidos y cómo gestionan la segmentación.

U-Net funciona procesando imágenes a nivel de píxel mediante capas convolucionales en una estructura de codificador-decodificador. Suele utilizarse para tareas que requieren una segmentación precisa, como exploraciones médicas o escenas de coches autoconducidos. 

Por otro lado, el Transformador de Visión (ViT) divide las imágenes en parches y los procesa simultáneamente mediante mecanismos de atención. Utiliza la autoatención (un mecanismo que permite al modelo sopesar la importancia de las distintas partes de la imagen en relación con las demás) para captar cómo se relacionan entre sí las distintas partes de la imagen, a diferencia del enfoque convolucional de U-Net.

Otra diferencia importante es que ViT suele necesitar más datos para funcionar bien, pero es excelente para detectar patrones complejos. U-Net, en cambio, funciona bien con conjuntos de datos más pequeños y es más rápido de entrenar y suele requerir menos tiempo de entrenamiento.

Aplicaciones del modelo U-Net

Ahora que entendemos mejor qué es U-Net y cómo funciona, vamos a estudiar cómo se ha aplicado U-Net en distintos ámbitos.

Segmentación de hemorragias cerebrales en imágenes médicas

U-Net se convirtió en un método fiable para la segmentación a nivel de píxel de imágenes médicas complejas, sobre todo durante su apogeo en la investigación. Los investigadores la utilizaron para resaltar áreas clave en exploraciones médicas, como tumores y signos de hemorragias internas en imágenes de TC y RM. Este método mejoró notablemente la precisión de los diagnósticos y agilizó el análisis de datos médicos complejos en entornos de investigación.

Un ejemplo del impacto de U-Net en la investigación sanitaria es su uso en la identificación de ictus y hemorragias cerebrales en exploraciones médicas. Los investigadores podrían utilizar U-Net para analizar los escáneres de la cabeza y resaltar las zonas preocupantes, lo que permitiría identificar más rápidamente los casos que requieren atención inmediata.

Fig. 4. Segmentación de lesiones de ictus hemorrágico mediante U-Net 3D.(Fuente)

Segmentación de cultivos en la agricultura

Otro campo en el que los investigadores han utilizado U-Net es la agricultura, sobre todo para segmentar los cultivos, las malas hierbas y el suelo. Ayuda a los agricultores a controlar la salud de las plantas, calcular el rendimiento y tomar mejores decisiones en grandes explotaciones. Por ejemplo, U-Net puede separar los cultivos de las malas hierbas, lo que hace más eficaz la aplicación de herbicidas y reduce los residuos.

Para hacer frente a problemas como el desenfoque por movimiento en las imágenes de drones, los investigadores han mejorado U-Net con técnicas de desenfoque de imágenes. Esto garantiza una segmentación más nítida, incluso cuando los datos se recogen en movimiento, como durante los reconocimientos aéreos.

Fig. 5. Separación de cultivos y malas hierbas en campos agrícolas con U-Net.(Fuente)

Conducción autónoma

Antes de que se introdujeran modelos de IA más avanzados, U-Net desempeñó un papel fundamental en la exploración de cómo la segmentación podía mejorar la conducción autónoma. En los vehículos autónomos, la segmentación semántica de U-Net puede utilizarse para clasificar cada píxel de una imagen en categorías como carretera, vehículo, peatón y marcas de carril. Esto proporciona al coche una visión clara de su entorno y contribuye a una navegación segura y a una toma de decisiones eficaz.

Fig. 6. Una escena de carretera en la que la zona transitable se segmenta mediante U-Net.(Fuente)

Ventajas e inconvenientes de U-Net

Aún hoy, U-Net sigue siendo una buena opción para la segmentación de imágenes entre los investigadores debido a su equilibrio entre sencillez, precisión y adaptabilidad. Estas son algunas de las principales ventajas por las que destaca:

  • Adaptable a distintas modalidades: U-Net se ha adaptado a distintos tipos de datos, como escáneres médicos 3D, imágenes por satélite e incluso fotogramas de vídeo.

  • Inferencia rápida cuando está optimizado: Cuando se ajusta correctamente, U-Net puede funcionar con eficiencia, lo que la hace adecuada para aplicaciones en tiempo real o casi real.

  • Código abierto y comunidad: U-Net está disponible en las principales bibliotecas de aprendizaje profundo y cuenta con el respaldo de una gran comunidad de desarrolladores e investigadores.

Aunque U-Net tiene muchos puntos fuertes, también hay que tener en cuenta algunas limitaciones. He aquí algunos factores a tener en cuenta: 

  • Sensible a la calidad de los datos: El rendimiento de U-Net puede verse afectado negativamente por datos de baja calidad, como imágenes ruidosas o de baja resolución.

  • Propenso a sobreajustarse con conjuntos de datos pequeños: Aunque U-Net funciona bien con datos limitados, corre el riesgo de sobreajustarse si no se regulariza adecuadamente, sobre todo cuando el conjunto de datos es demasiado pequeño o carece de diversidad.

  • Recursos informáticos: U-Net puede ser costoso desde el punto de vista computacional, especialmente cuando se trabaja con grandes conjuntos de datos, lo que requiere importantes recursos de hardware para el entrenamiento.

Principales conclusiones

U-Net ha sido un hito clave en la evolución de la segmentación de imágenes. Demostró que los modelos de aprendizaje profundo pueden ofrecer resultados precisos utilizando conjuntos de datos más pequeños, especialmente en áreas como las imágenes médicas. 

Este avance ha allanado el camino para aplicaciones más avanzadas en diversos campos. A medida que la visión por ordenador sigue evolucionando, los modelos de segmentación como U-Net siguen siendo fundamentales para que las máquinas comprendan e interpreten los datos visuales con gran precisión.

¿Quiere crear sus propios proyectos de visión por ordenador? Explore nuestro repositorio de GitHub para profundizar en la IA y consulte nuestras opciones de licencia. Descubra cómo la visión por ordenador está mejorando la eficiencia en la sanidad y explore el impacto de la IA en el comercio minorista visitando nuestras páginas de soluciones. Únase ya a nuestra creciente comunidad.

¡Construyamos juntos el futuro
de la IA!

Comience su viaje con el futuro del aprendizaje automático

Empezar gratis
Enlace copiado en el portapapeles