Conozca la arquitectura de U-Net, cómo soporta la segmentación de imágenes, sus aplicaciones y por qué es importante en la evolución de la visión por ordenador.

Conozca la arquitectura de U-Net, cómo soporta la segmentación de imágenes, sus aplicaciones y por qué es importante en la evolución de la visión por ordenador.
La visión por ordenador es una rama de la inteligencia artificial (IA) que se centra en el análisis de datos visuales. Ha allanado el camino a muchos sistemas de vanguardia, como la automatización del proceso de inspección de productos en fábricas y la ayuda a vehículos autónomos a circular por carreteras.
Una de las tareas de visión por ordenador más conocidas es la detección de objetos. Esta tarea permite a los modelos localizar e identificar objetos dentro de una imagen utilizando cuadros delimitadores. Aunque los recuadros delimitadores son útiles para diversas aplicaciones, sólo proporcionan una estimación aproximada de la ubicación de un objeto.
Sin embargo, en campos como la sanidad, donde la precisión es crucial, los casos de uso de Vision AI dependen de algo más que la simple identificación de un objeto. A menudo, también requieren información relacionada con la forma y la posición exactas de los objetos.
Eso es exactamente para lo que está diseñada la tarea de visión por ordenador, la segmentación. En lugar de utilizar cuadros delimitadores, los modelos de segmentación detectan objetos a nivel de píxel. A lo largo de los años, los investigadores han desarrollado modelos de visión por ordenador especializados en segmentación.
Uno de estos modelos es U-Net. Aunque modelos más nuevos y avanzados han superado su rendimiento, U-Net ocupa un lugar importante en la historia de la visión por ordenador. En este artículo analizaremos la arquitectura de U-Net, cómo funciona, dónde se ha utilizado y cómo se compara con los modelos de segmentación más modernos disponibles en la actualidad.
Antes de adentrarnos en lo que es U-Net, veamos cómo han evolucionado los modelos de segmentación de imágenes.
Inicialmente, la visión por ordenador se basaba en técnicas tradicionales como la detección de bordes, el umbral o el crecimiento de regiones para separar objetos en una imagen. Estas técnicas se utilizaban para detectar los límites de los objetos mediante bordes, separar regiones por la intensidad de los píxeles y agrupar píxeles similares. Funcionaban en casos sencillos, pero solían fallar cuando las imágenes tenían ruido, formas superpuestas o límites poco claros.
Tras el auge del aprendizaje profundo en 2012, los investigadores introdujeron el concepto de redes totalmente convolucionales (FCN) en 2014 para tareas como la segmentación semántica. Estos modelos sustituyeron ciertas partes de una red convolucional para permitir al ordenador ver una imagen completa de una vez, en lugar de dividirla en trozos más pequeños. Esto permitió al modelo crear mapas detallados que muestran con mayor claridad lo que hay en una imagen.
Basada en las FCN, la U-Net fue introducida por investigadores de la Universidad de Friburgo en 2015. Se diseñó originalmente para la segmentación de imágenes biomédicas. En concreto, U-Net se diseñó para obtener buenos resultados en situaciones en las que los datos anotados son limitados.
Mientras tanto, versiones posteriores como UNet++ y TransUNet añadieron mejoras como las capas de atención y una mejor extracción de características. Las capas de atención ayudan al modelo a centrarse en las regiones clave, mientras que la extracción de rasgos mejorada captura información más detallada.
U-Net es un modelo de aprendizaje profundo construido específicamente para la segmentación de imágenes. Toma una imagen como entrada y produce una máscara de segmentación que clasifica cada píxel según el objeto o la región a la que pertenece.
El modelo recibe su nombre de su arquitectura en forma de U. Consta de dos partes principales: un codificador que comprime la imagen y aprende sus características, y un descodificador que la vuelve a expandir a su tamaño original. Este diseño crea una forma de U simétrica, que ayuda al modelo a comprender tanto la estructura general de una imagen como sus detalles más sutiles.
Una característica crucial de U-Net es el uso de conexiones de salto, que permiten pasar información del codificador directamente al descodificador. Esto significa que el modelo puede conservar detalles importantes que podrían perderse al comprimir la imagen.
He aquí una idea de cómo funciona la arquitectura de U-Net:
Mientras exploras U-Net, puede que te preguntes en qué se diferencia de otros modelos de aprendizaje profundo, como Vision Transformer (ViT), que también puede realizar tareas de segmentación. Aunque ambos modelos pueden realizar tareas similares, se diferencian en cómo están construidos y cómo gestionan la segmentación.
U-Net funciona procesando imágenes a nivel de píxel mediante capas convolucionales en una estructura de codificador-decodificador. Suele utilizarse para tareas que requieren una segmentación precisa, como exploraciones médicas o escenas de coches autoconducidos.
Por otro lado, el Transformador de Visión (ViT) divide las imágenes en parches y los procesa simultáneamente mediante mecanismos de atención. Utiliza la autoatención (un mecanismo que permite al modelo sopesar la importancia de las distintas partes de la imagen en relación con las demás) para captar cómo se relacionan entre sí las distintas partes de la imagen, a diferencia del enfoque convolucional de U-Net.
Otra diferencia importante es que ViT suele necesitar más datos para funcionar bien, pero es excelente para detectar patrones complejos. U-Net, en cambio, funciona bien con conjuntos de datos más pequeños y es más rápido de entrenar y suele requerir menos tiempo de entrenamiento.
Ahora que entendemos mejor qué es U-Net y cómo funciona, vamos a estudiar cómo se ha aplicado U-Net en distintos ámbitos.
U-Net se convirtió en un método fiable para la segmentación a nivel de píxel de imágenes médicas complejas, sobre todo durante su apogeo en la investigación. Los investigadores la utilizaron para resaltar áreas clave en exploraciones médicas, como tumores y signos de hemorragias internas en imágenes de TC y RM. Este método mejoró notablemente la precisión de los diagnósticos y agilizó el análisis de datos médicos complejos en entornos de investigación.
Un ejemplo del impacto de U-Net en la investigación sanitaria es su uso en la identificación de ictus y hemorragias cerebrales en exploraciones médicas. Los investigadores podrían utilizar U-Net para analizar los escáneres de la cabeza y resaltar las zonas preocupantes, lo que permitiría identificar más rápidamente los casos que requieren atención inmediata.
Otro campo en el que los investigadores han utilizado U-Net es la agricultura, sobre todo para segmentar los cultivos, las malas hierbas y el suelo. Ayuda a los agricultores a controlar la salud de las plantas, calcular el rendimiento y tomar mejores decisiones en grandes explotaciones. Por ejemplo, U-Net puede separar los cultivos de las malas hierbas, lo que hace más eficaz la aplicación de herbicidas y reduce los residuos.
Para hacer frente a problemas como el desenfoque por movimiento en las imágenes de drones, los investigadores han mejorado U-Net con técnicas de desenfoque de imágenes. Esto garantiza una segmentación más nítida, incluso cuando los datos se recogen en movimiento, como durante los reconocimientos aéreos.
Antes de que se introdujeran modelos de IA más avanzados, U-Net desempeñó un papel fundamental en la exploración de cómo la segmentación podía mejorar la conducción autónoma. En los vehículos autónomos, la segmentación semántica de U-Net puede utilizarse para clasificar cada píxel de una imagen en categorías como carretera, vehículo, peatón y marcas de carril. Esto proporciona al coche una visión clara de su entorno y contribuye a una navegación segura y a una toma de decisiones eficaz.
Aún hoy, U-Net sigue siendo una buena opción para la segmentación de imágenes entre los investigadores debido a su equilibrio entre sencillez, precisión y adaptabilidad. Estas son algunas de las principales ventajas por las que destaca:
Aunque U-Net tiene muchos puntos fuertes, también hay que tener en cuenta algunas limitaciones. He aquí algunos factores a tener en cuenta:
U-Net ha sido un hito clave en la evolución de la segmentación de imágenes. Demostró que los modelos de aprendizaje profundo pueden ofrecer resultados precisos utilizando conjuntos de datos más pequeños, especialmente en áreas como las imágenes médicas.
Este avance ha allanado el camino para aplicaciones más avanzadas en diversos campos. A medida que la visión por ordenador sigue evolucionando, los modelos de segmentación como U-Net siguen siendo fundamentales para que las máquinas comprendan e interpreten los datos visuales con gran precisión.
¿Quiere crear sus propios proyectos de visión por ordenador? Explore nuestro repositorio de GitHub para profundizar en la IA y consulte nuestras opciones de licencia. Descubra cómo la visión por ordenador está mejorando la eficiencia en la sanidad y explore el impacto de la IA en el comercio minorista visitando nuestras páginas de soluciones. Únase ya a nuestra creciente comunidad.