Uso de aumentos de Albumentations para diversificar sus datos

Abirami Vina

5 minutos de lectura

17 de febrero de 2025

Aprenda a utilizar Albumentations para aumentar el entrenamiento personalizado de Ultralytics YOLO11 y mejorar el rendimiento del modelo con datos de entrenamiento diversos.

Cuando se crea una solución de visión por ordenador, la recopilación de un conjunto variado de imágenes para el entrenamiento de los modelos de IA de visión puede ser una parte crucial del proceso. Suele requerir mucho tiempo y dinero y, a veces, las imágenes recopiladas siguen sin ser lo suficientemente variadas como para que los modelos aprendan con eficacia.

Por ejemplo, los modelos de visión computerizada como Ultralytics YOLO11 pueden entrenarse a medida en conjuntos de datos de imágenes para diversas tareas de visión computerizada relacionadas con diferentes aplicaciones. La diversidad de datos es clave porque ayuda al modelo a generalizar mejor, lo que le permite reconocer objetos y patrones en una amplia gama de escenarios del mundo real.

Si tiene problemas con la falta de datos diversos, las técnicas de aumento de datos de imagen pueden ser una gran solución. Métodos como girar, voltear y ajustar el brillo pueden ayudar a aumentar la variedad de su conjunto de datos, mejorando la capacidad del modelo para manejar una gama más amplia de condiciones.

Por eso Ultralytics soporta una integración para el aumento de datos de imágenes. Utilizando Albumentations, una popular herramienta que ofrece una colección de transformaciones, se pueden crear diversos datos visuales. Esta integración simplifica el proceso de formación de YOLO11 aumentando automáticamente las imágenes de formación, lo que mejora el rendimiento del modelo. 

En este artículo, exploraremos cómo puede utilizar la integración de Albumentations, sus ventajas y su impacto en la formación de modelos.

¿Qué es Albumentations?

Los modelos de visión por ordenador pueden aprender de un amplio conjunto de imágenes de alta calidad para reconocer objetos en distintos entornos. Recopilar grandes conjuntos de datos de fuentes del mundo real puede resultar lento, costoso e ineficaz. Para agilizar esta tarea, puede utilizar el aumento de datos de imagen para crear nuevas variaciones de imágenes existentes, ayudando a los modelos a aprender de diferentes escenarios sin necesidad de recopilar más datos.

En concreto, puede aprovechar Albumentations, una biblioteca de código abierto introducida para el aumento eficiente de los datos de imagen en 2018. Admite diversas operaciones, desde cambios geométricos sencillos, como rotaciones y giros, hasta ajustes más complejos, como brillo, contraste y adición de ruido.

__wf_reserved_inherit
Fig. 1. Ejemplos de distintos tipos de aumentos de datos de imagen.

Principales características de Albumentations

Albumentations es conocido por su alto rendimiento, lo que significa que puede procesar imágenes de forma rápida y eficiente. Basado en bibliotecas optimizadas como OpenCV y NumPy, maneja grandes conjuntos de datos con un tiempo de procesamiento mínimo, lo que lo hace ideal para aumentar rápidamente los datos durante el entrenamiento del modelo.

He aquí otras características clave de Albumentations:

  • Amplia gama de transformaciones: Albumentations proporciona más de 70 tipos de aumentos. Estas variaciones ayudan a los modelos a aprender a detectar objetos a pesar de los cambios de iluminación, ángulos o fondos.
  • Optimizado para la velocidad: Utiliza técnicas de optimización avanzadas como SIMD (Single Instruction, Multiple Data), que procesa múltiples puntos de datos a la vez para acelerar el aumento de imágenes y manejar grandes conjuntos de datos de forma eficiente.
  • Tres niveles de aumentos: Aumenta los datos de tres maneras. Por ejemplo, los aumentos a nivel de píxel ajustan el brillo y el color sin alterar los objetos. Por otro lado, los aumentos espaciales modifican la posición de los objetos conservando los detalles clave, y los aumentos de mezcla combinan partes de distintas imágenes para crear nuevas muestras.

¿Por qué utilizar la integración de Albumentations?

Puede que te preguntes: hay muchas formas de aplicar aumentos a un conjunto de datos, e incluso podrías crear los tuyos propios utilizando herramientas como OpenCV. Entonces, ¿por qué elegir una integración compatible con una biblioteca como Albumentations?

La creación manual de aumentos con herramientas como OpenCV puede llevar mucho tiempo y requiere cierta experiencia. También puede ser complicado ajustar las transformaciones para obtener los mejores resultados. La integración de Albumentations facilita este proceso. Ofrece muchas transformaciones listas para usar que pueden ahorrarle tiempo y esfuerzo a la hora de preparar su conjunto de datos.

Otra razón para elegir la integración de Albumentations es que funciona sin problemas con el proceso de formación de modelos de Ultralytics. Facilita enormemente el entrenamiento personalizado de YOLO11, ya que los aumentos se aplican automáticamente durante el entrenamiento. Simplifica el proceso, por lo que puede centrarse más en mejorar su modelo en lugar de ocuparse de la preparación de los datos. 

Introducción a la integración de Albumentations

Curiosamente, utilizar las integraciones de Albumentations para entrenar YOLO11 es más sencillo de lo que podría parecer. Una vez configuradas las bibliotecas adecuadas, la integración aplica automáticamente aumentos de datos de imagen durante el entrenamiento. Esto ayuda al modelo a aprender de diferentes variaciones de imágenes utilizando el mismo conjunto de datos.

A continuación, vamos a ver cómo instalar y utilizar la integración de Albumentations en el entrenamiento personalizado de YOLO11.

Instalación del paquete Python de Ultralytics y Albumentations

Antes de aplicar aumentos, es necesario instalar tanto el paquete Python de Ultralytics como Albumentations. La integración se ha creado para que ambas bibliotecas funcionen juntas a la perfección de forma predeterminada, por lo que no tendrás que preocuparte por configuraciones complejas.

Todo el proceso de instalación puede completarse en un par de minutos con un solo comando pip, que es una herramienta de gestión de paquetes para instalar bibliotecas de Python, como se muestra en la imagen siguiente. 

__wf_reserved_inherit
Fig 2. Instalación de Ultralytics y Albumentations.

Una vez instalado Albumentations, el modo de entrenamiento del modelo de Ultralytics aplica automáticamente aumentos de imagen durante el entrenamiento. Si Albumentations no está instalado, estos aumentos no se aplicarán. Para más detalles, puede consultar la documentación oficial de Ultralytics.

Formación de YOLO11 con ayuda de la integración de Albumentations

Conozcamos mejor lo que ocurre bajo el capó de la integración de Albumentations. 

Aquí tienes un vistazo más de cerca a los aumentos que se aplican durante el entrenamiento de YOLO11:

  • Desenfoque: Esta transformación añade un ligero desenfoque a una imagen. Ayuda al modelo a detectar objetos incluso cuando están desenfocados.
  • Desenfoque mediano: Reduce el ruido aleatorio a la vez que preserva los bordes de los objetos en una imagen. Esto facilita al modelo la detección de objetos en entornos complejos.
  • Escala de grises: Al convertir una imagen a blanco y negro, este aumento puede ayudar al modelo a centrarse en las formas y texturas en lugar de en los colores.
  • CLAHE (ecualización adaptativa del histograma con limitación de contraste): Este aumento potencia el contraste en las imágenes, sobre todo en las zonas demasiado oscuras o difíciles de ver, como en condiciones de poca luz o niebla. De este modo, los objetos de esas zonas resultan más claros y fáciles de identificar para el modelo.
__wf_reserved_inherit
Fig. 3. Ejemplo de aumento de escala de grises aplicado a la imagen de un gato.

Aplicaciones de YOLO11 y de la integración de Albumentations

Si está entrenando a YOLO11 a medida para una aplicación específica, la integración de Albumentations puede ayudarle a mejorar el rendimiento del modelo adaptándose a diversas condiciones. Analicemos algunas aplicaciones reales y los retos que puede resolver esta integración.

Mejora de la imagen médica

La IA visual en la atención sanitaria ayuda a los médicos a analizar las imágenes médicas con mayor precisión para facilitar el diagnóstico y mejorar la atención al paciente. De hecho, alrededor de una quinta parte de las organizaciones sanitarias ya utilizan soluciones de IA. 

Sin embargo, la creación de estas soluciones de visión por ordenador conlleva sus propios retos. Las exploraciones médicas pueden variar mucho de un hospital a otro, debido a factores como los distintos equipos, configuraciones e incluso la experiencia de los técnicos. Las variaciones en el brillo, el contraste y la exposición pueden afectar a la coherencia y la precisión de los modelos de Vision AI, lo que dificulta su rendimiento fiable en distintos entornos.

Aquí es donde la integración de herramientas como Albumentations resulta esencial. Al generar múltiples versiones aumentadas de la misma exploración, Albumentations permite al modelo aprender de una variedad de calidades de imagen. Esto ayuda a que el modelo sea más robusto, permitiéndole detectar enfermedades con precisión tanto en imágenes de alta como de baja calidad. 

__wf_reserved_inherit
Fig. 4. Imágenes de rayos X aumentadas.

Mejora de la seguridad y la vigilancia

Otra aplicación interesante de Vision AI es la seguridad y la vigilancia. La detección de objetos en tiempo real puede ayudar a los equipos de seguridad a identificar rápidamente posibles amenazas. 

Una de las principales preocupaciones relacionadas con esta aplicación es que las cámaras de seguridad captan imágenes en diversas condiciones de iluminación a lo largo del día, y estas condiciones pueden afectar drásticamente a la forma en que un modelo entiende dichas imágenes. Factores como la escasa iluminación, los reflejos o la mala visibilidad pueden dificultar que los modelos de visión por ordenador detecten objetos o reconozcan posibles amenazas de forma coherente.

La integración de Albumentations ayuda aplicando transformaciones para imitar diferentes condiciones de iluminación. De este modo, el modelo aprende a detectar objetos tanto en entornos iluminados como con poca luz, lo que aumenta su fiabilidad y mejora los tiempos de respuesta en condiciones difíciles.

Redefinir los flujos de trabajo y la experiencia del cliente en el comercio minorista

Un derrame en el pasillo de un supermercado, un perro corriendo por la tienda o un niño tirando un expositor de productos son sólo algunos ejemplos de sucesos cotidianos que pueden constituir casos extremos para la IA de visión en entornos minoristas . La visión por ordenador se utiliza cada vez más para mejorar la experiencia del cliente mediante el seguimiento del comportamiento de los compradores, el control del tráfico peatonal y la identificación de productos en las estanterías. Sin embargo, estas situaciones del mundo real pueden resultar difíciles de comprender y procesar con precisión para los sistemas de IA.

Aunque no todos los escenarios pueden representarse en un conjunto de datos de visión por ordenador, la integración de Albumentations ayuda aumentando los datos para cubrir muchas situaciones posibles, como iluminación inesperada, ángulos inusuales u obstrucciones. Esto ayuda a los modelos de visión por ordenador a adaptarse a diversas condiciones, mejorando su capacidad para gestionar casos extremos y realizar predicciones precisas en entornos comerciales dinámicos.

Principales conclusiones

Recopilar datos diversos del mundo real para el entrenamiento de modelos puede ser complicado, pero Albumentations lo facilita creando variaciones de imágenes que ayudan a los modelos a adaptarse a diferentes condiciones. 

La integración de Albumentations con Ultralytics simplifica el proceso de aplicación de estos aumentos durante el entrenamiento personalizado de YOLO11. Esto se traduce en una mejor calidad de los conjuntos de datos, lo que beneficia a una amplia gama de industrias al producir modelos de IA de visión más precisos y fiables.

Únase a nuestra comunidad y explore nuestro repositorio de GitHub para obtener más información sobre la IA, y consulte nuestras opciones de licencia para poner en marcha sus proyectos de Vision AI. ¿Le interesan innovaciones como la IA en la fabricación o la visión por ordenador en la conducción autónoma? Visite nuestras páginas de soluciones para obtener más información. 

¡Construyamos juntos el futuro
de la IA!

Comience su viaje con el futuro del aprendizaje automático

Empezar gratis
Enlace copiado en el portapapeles