Explicación del umbralizado en el procesamiento de imágenes

Como humanos, vemos las imágenes como representaciones coherentes y significativas, mientras que los ordenadores las ven como rejillas de pequeños píxeles, los componentes más pequeños de una imagen digital. En un proceso llamado procesamiento de imágenes, estos píxeles se pueden ajustar o analizar para mejorar la imagen y extraer información útil.

Una técnica común de procesamiento de imágenes se denomina umbralización de imágenes. Este método convierte las imágenes en escala de grises (donde cada píxel representa un tono de gris) en imágenes en blanco y negro comparando cada píxel con un valor establecido. Crea una separación clara entre las regiones importantes y el fondo.

El umbralizado se utiliza a menudo en la segmentación de imágenes, una técnica que divide una imagen en regiones significativas para facilitar su análisis. Normalmente, es uno de los primeros pasos para ayudar a las máquinas a interpretar los datos visuales. En este artículo, veremos qué es el umbralizado, cómo funciona y dónde se aplica en escenarios del mundo real. ¡Empecemos!

Terminología básica en el umbralizado de imágenes

Antes de profundizar en cómo funciona la umbralización, primero analicemos más de cerca las ideas básicas detrás de ella y cómo se utiliza en el procesamiento de imágenes.

Umbral de imagen binaria

Digamos que estás trabajando con una imagen y quieres separar los objetos que hay en ella del fondo. Una forma de hacerlo es mediante la umbralización. Simplifica la imagen de forma que cada píxel sea completamente negro o completamente blanco. El resultado es una imagen binaria, donde cada píxel tiene un valor de 0 (negro) o 255 (blanco). Este paso suele ser útil en el procesamiento de imágenes porque hace que las partes importantes de la imagen destaquen claramente.

Fig 1. Una imagen en escala de grises y su salida binaria después de la umbralización. (Fuente)

‍

Histograma

Del mismo modo, si quieres entender cómo se distribuyen los valores de brillo a través de una imagen, un histograma puede ayudarte. Es un gráfico que muestra la frecuencia con la que aparece cada intensidad de píxel, desde el negro (0) hasta el blanco (255).

Al observar el histograma, se puede determinar si la imagen es oscura, brillante o un punto intermedio. Esto facilita la elección de un buen valor umbral al convertir la imagen en blanco y negro, ya que se pueden identificar patrones y niveles de contraste de un vistazo.

Primer plano y fondo

Una vez que una imagen ha sido umbralizada, se divide en dos partes: el primer plano y el fondo. El primer plano, que normalmente se muestra en blanco, destaca los elementos importantes, como el texto, las formas o los objetos que se desean detectar. El fondo, que se muestra en negro, es todo lo demás. Esta separación ayuda a las máquinas a centrarse en lo que importa de la imagen.

Segmentación

Como se mencionó anteriormente, la segmentación divide una imagen en regiones significativas basadas en características como el brillo o la textura. La umbralización es una forma sencilla de hacer esto y, a menudo, es uno de los primeros pasos en un pipeline de visión artificial.

La visión artificial es una rama de la IA que permite a las máquinas procesar e interpretar datos visuales, de forma muy parecida a como lo hacen los humanos. Al utilizar la segmentación (thresholding) al principio del proceso, los sistemas de visión artificial pueden separar los objetos de su fondo, lo que facilita que los pasos posteriores, como la detección o el reconocimiento, funcionen con precisión.

Umbralización global

Ahora que comprendemos mejor qué es la umbralización, veamos cómo umbralizar una imagen y los diferentes tipos de umbralización en el procesamiento de imágenes.

Por ejemplo, la umbralización global es una de las formas más fáciles de crear una imagen binaria. Aplica un único valor de intensidad en toda la imagen. Los píxeles más brillantes que este umbral se vuelven blancos, mientras que los más oscuros se vuelven negros. Esto ayuda a separar el objeto del fondo.

Funciona mejor cuando la imagen tiene una iluminación uniforme y un contraste fuerte. Pero en áreas con iluminación desigual o de bajo contraste, un solo umbral puede pasar por alto detalles o difuminar los bordes.

Para manejar esto, se utilizan métodos como el umbralizado de Otsu. En lugar de establecer un valor manualmente, el método de Otsu para el umbralizado analiza el histograma de la imagen y elige un umbral que mejor separa las intensidades de los píxeles en primer plano y fondo.

Fig. 2. Una imagen de Saturno antes y después de aplicar la umbralización de Otsu. (Fuente)

‍

Umbralización local (adaptativa)

A diferencia del umbralizado global, el umbralizado adaptativo o local calcula el valor del umbral por separado para diferentes partes de la imagen. Esto lo hace más eficaz para imágenes con iluminación desigual, como documentos escaneados con sombras o superficies texturizadas.

Funciona dividiendo la imagen en pequeñas regiones y calculando un umbral local para cada bloque, lo que ayuda a mantener el contraste entre el primer plano y el fondo. Este enfoque se utiliza ampliamente en tareas como el reconocimiento de texto, las imágenes médicas y la inspección de superficies, donde la iluminación varía en toda la imagen.

Algunos enfoques comunes para la umbralización adaptativa en el procesamiento de imágenes incluyen la umbralización adaptativa de la media y la umbralización adaptativa gaussiana. En la umbralización adaptativa de la media, la intensidad media de los píxeles en un vecindario local se utiliza como umbral para el píxel central. La umbralización adaptativa gaussiana, por otro lado, utiliza una media ponderada con una ventana gaussiana, dando más importancia a los píxeles más cercanos al centro.

Aplicaciones reales del umbralizado en el procesamiento de imágenes

A continuación, exploremos dónde se utiliza la segmentación por umbral de imágenes en aplicaciones del mundo real.

Umbralización de imágenes para la binarización de documentos y el OCR

Los libros antiguos y las cartas manuscritas se escanean a menudo para preservarlos o convertirlos en texto digital mediante OCR (reconocimiento óptico de caracteres), una tecnología que lee caracteres impresos o manuscritos. Antes de extraer el texto, normalmente es necesario limpiar o preprocesar el documento. Las imágenes escaneadas suelen tener sombras, tinta descolorida o una iluminación desigual, lo que puede dificultar el reconocimiento de caracteres.

Para mejorar la claridad, el umbralizado se utiliza para convertir imágenes en escala de grises a formato binario, lo que ayuda a aislar el texto del fondo. Las áreas más oscuras, como las letras, se vuelven negras, mientras que el fondo más claro se vuelve blanco, lo que facilita mucho la lectura del texto para los sistemas OCR.

Fig 3. Un ejemplo de un documento histórico y su imagen umbralizada. (Source)

‍

Uso de la umbralización en el procesamiento de imágenes médicas

Del mismo modo, en las imágenes médicas, el umbralado se utiliza comúnmente para aislar estructuras específicas en los escaneos, como huesos o pulmones en las imágenes de rayos X. Al convertir las imágenes en escala de grises en formato binario, resulta más fácil separar las regiones de interés del tejido circundante y preparar la imagen para su posterior análisis. En casos más complejos, se puede aplicar un umbralado multinivel para dividir la imagen en varias regiones distintas, lo que permite identificar diferentes tipos de tejido o estructuras al mismo tiempo.

Fig. 4. Uso de métodos de umbralización multinivel en radiografías de tórax. (Source)

‍

Pros y contras de la umbralización en el procesamiento de imágenes

Estos son algunos de los principales beneficios de utilizar la umbralización en el procesamiento de imágenes:

Poco exigente con los recursos: El umbral funciona bien en dispositivos de baja potencia y no necesita acceso a la nube ni hardware de gama alta, lo que lo hace adecuado para sistemas integrados y configuraciones fuera de línea.
‍
Fácil de interpretar: Su lógica simple hace que los resultados de la umbralización sean fáciles de entender y depurar, lo cual es crucial en campos como la atención médica o el procesamiento de documentos, donde la transparencia importa.
‍
Pruebas rápidas: El establecimiento de umbrales permite a los equipos explorar rápidamente ideas de segmentación en proyectos en fase inicial antes de pasar a modelos más complejos.

Si bien el umbral de imagen es útil en muchos escenarios, también viene con ciertas limitaciones. Estos son algunos de los desafíos relacionados con el umbral a tener en cuenta:

Falta de adaptabilidad: El umbral sigue reglas fijas y no se ajusta a nuevas condiciones de iluminación o variaciones en los datos sin ajustes manuales.
‍
Sensible al ruido: Pequeños cambios en el brillo debido a sombras o reflejos pueden alterar los resultados, especialmente cuando se trabaja con imágenes detalladas o texturizadas.
‍
Estático y basado en reglas: A diferencia de los modelos de IA, el umbral no aprende de los datos ni mejora con el tiempo. Solo funciona dentro de las estrechas condiciones para las que fue diseñado.

Más allá de la segmentación de imágenes: Cuándo la visión artificial es la herramienta adecuada

El umbralizado funciona bien para tareas sencillas de segmentación en entornos controlados. Sin embargo, a menudo tiene dificultades para manejar imágenes complejas que tienen múltiples objetos o ruido de fondo. Dado que se basa en reglas fijas, el umbralizado carece de la flexibilidad necesaria para la mayoría de las aplicaciones del mundo real.

Para superar estos límites, muchos sistemas de vanguardia ahora utilizan visión artificial. A diferencia del umbralizado, los modelos de Vision AI están entrenados para detectar patrones y características complejas, lo que los hace mucho más precisos y adaptables.

Por ejemplo, los modelos de visión artificial como Ultralytics YOLO11 pueden detectar objetos y segmentar imágenes en tiempo real. Esto los hace ideales para tareas como la detección de señales de tráfico en vehículos autónomos o la identificación de problemas de cultivos en la agricultura.

En particular, YOLO11 admite una variedad de tareas de visión artificial, como la segmentación de instancias, donde cada objeto en una imagen se segmenta por separado. También puede realizar otras tareas basadas en la visión, incluida la estimación de la pose (determinar la posición o postura de un objeto) y el seguimiento de objetos (seguir un objeto a medida que se mueve a través de los fotogramas de video).

Fig. 5. YOLO11 facilita la detección y segmentación de objetos. (Fuente)

Si bien el umbral funciona bien para tareas sencillas o para probar ideas iniciales, las aplicaciones que necesitan velocidad, precisión y flexibilidad suelen gestionarse mejor con la visión artificial.

Conclusiones clave

El umbralizado es una herramienta crucial en el procesamiento de imágenes porque es rápida y fácil de usar para separar objetos del fondo. Funciona bien con documentos escaneados, imágenes médicas y la comprobación de defectos de productos en fábricas.

Sin embargo, a medida que las imágenes y los vídeos se vuelven más complejos, los métodos básicos de procesamiento de imágenes, como la segmentación por umbral, pueden tener dificultades. Es ahí donde los modelos avanzados de visión artificial pueden intervenir. Los modelos como YOLO11 pueden comprender y realizar más tareas, detectar muchos objetos a la vez y funcionar en tiempo real, lo que los hace útiles para muchos casos de uso.

¿Quiere saber más sobre la IA? Consulte nuestra comunidad y nuestro repositorio de GitHub. Explore nuestras páginas de soluciones para obtener más información sobre la IA en robótica y la visión artificial en la agricultura. Descubra nuestras opciones de licencia y comience a construir con visión artificial hoy mismo.

¿Qué es la umbralización en el procesamiento de imágenes?

Terminología básica en el umbralizado de imágenes

Umbral de imagen binaria

Histograma

Primer plano y fondo

Segmentación

Umbralización global

Umbralización local (adaptativa)

Aplicaciones reales del umbralizado en el procesamiento de imágenes

Umbralización de imágenes para la binarización de documentos y el OCR

Uso de la umbralización en el procesamiento de imágenes médicas

Pros y contras de la umbralización en el procesamiento de imágenes

Más allá de la segmentación de imágenes: Cuándo la visión artificial es la herramienta adecuada

Conclusiones clave

Leer más en esta categoría

De los bits a los qubits: Cómo la optimización cuántica está cambiando la IA

Guía rápida para principiantes sobre cómo entrenar un modelo de IA

Explorando el aprendizaje ensamblado y su papel en la IA y el ML

¡Construyamos juntos el futuro
de la IA!

¿Qué es la umbralización en el procesamiento de imágenes?

Terminología básica en el umbralizado de imágenes

Umbral de imagen binaria

Histograma

Primer plano y fondo

Segmentación

Umbralización global

Umbralización local (adaptativa)

Aplicaciones reales del umbralizado en el procesamiento de imágenes

Umbralización de imágenes para la binarización de documentos y el OCR

Uso de la umbralización en el procesamiento de imágenes médicas

Pros y contras de la umbralización en el procesamiento de imágenes

Más allá de la segmentación de imágenes: Cuándo la visión artificial es la herramienta adecuada

Conclusiones clave

Leer más en esta categoría

De los bits a los qubits: Cómo la optimización cuántica está cambiando la IA

Guía rápida para principiantes sobre cómo entrenar un modelo de IA

Explorando el aprendizaje ensamblado y su papel en la IA y el ML

¡Construyamos juntos el futuro de la IA!

¡Construyamos juntos el futuro
de la IA!