Aumento de datos de Ultralytics YOLO con albumentaciones

Al construir una solución de visión artificial, la recopilación de un conjunto diverso de imágenes para entrenar modelos de IA visual puede ser una parte crucial del proceso. A menudo requiere mucho tiempo y dinero, y a veces, las imágenes recogidas siguen sin ser lo suficientemente variadas para que los modelos aprendan eficazmente.

Por ejemplo, modelos de visión por ordenador como Ultralytics YOLO11 pueden entrenarse a medida en conjuntos de datos de imágenes para diversas tareas de visión computerizada relacionadas con diferentes aplicaciones. La diversidad de datos es clave porque ayuda al modelo a generalizar mejor, lo que le permite reconocer objetos y patrones en una amplia gama de escenarios del mundo real.

Si tiene dificultades con la falta de diversidad de datos, las técnicas de aumento de datos de imagen pueden ser una gran solución. Métodos como la rotación, el volteo y el ajuste del brillo pueden ayudar a aumentar la variedad de su conjunto de datos, mejorando la capacidad del modelo para manejar una gama más amplia de condiciones.

Por eso Ultralytics soporta una integración para el aumento de datos de imagen. Utilizando Albumentations, una popular herramienta que ofrece una colección de transformaciones, se pueden crear diversos datos visuales. Esta integración simplifica el proceso de formación de YOLO11 aumentando automáticamente las imágenes de formación, lo que mejora el rendimiento del modelo.

En este artículo, exploraremos cómo puede utilizar la integración de Albumentations, sus beneficios y su impacto en el entrenamiento de modelos.

¿Qué es Albumentations?

Los modelos de visión artificial pueden aprender de un amplio conjunto de imágenes de alta calidad para reconocer objetos en diferentes entornos. La recopilación de grandes conjuntos de datos de fuentes del mundo real puede ser lenta, costosa e ineficiente. Para agilizar esta tarea, puede utilizar la aumentación de datos de imagen para crear nuevas variaciones de las imágenes existentes, lo que ayuda a los modelos a aprender de diferentes escenarios sin recopilar más datos.

Específicamente, puede aprovechar Albumentations, una biblioteca de código abierto introducida para el aumento eficiente de datos de imágenes en 2018. Admite una variedad de operaciones, desde cambios geométricos simples como rotaciones e inversiones hasta ajustes más complejos como brillo, contraste y adición de ruido.

__wf_reserved_inherit — Fig 1. Ejemplos de diferentes tipos de aumentación de datos de imagen.

‍

Características clave de Albumentations

Albumentations es conocido por su alto rendimiento, lo que significa que puede procesar imágenes de forma rápida y eficaz. Se basa en bibliotecas optimizadas como OpenCV y NumPy, maneja grandes conjuntos de datos con un tiempo de procesamiento mínimo, por lo que es ideal para el aumento rápido de datos durante el entrenamiento del modelo.

Estas son algunas otras características clave de Albumentations:

Amplia gama de transformaciones: Albumentations proporciona más de 70 tipos de aumentos. Estas variaciones ayudan a los modelos a aprender a detect objetos a pesar de los cambios de iluminación, ángulos o fondos.
‍
Optimizado para la velocidad: Utiliza técnicas de optimización avanzadas como SIMD (Single Instruction, Multiple Data), que procesa múltiples puntos de datos a la vez para acelerar el aumento de imágenes y manejar grandes conjuntos de datos de forma eficiente.
‍
Tres niveles de aumentos: Mejora los datos de tres maneras. Por ejemplo, los aumentos a nivel de píxel ajustan el brillo y el color sin alterar los objetos. Mientras tanto, los aumentos a nivel espacial modifican el posicionamiento de los objetos preservando los detalles clave, y los aumentos a nivel de mezcla combinan partes de diferentes imágenes para crear nuevas muestras.

¿Por qué deberías usar la integración de Albumentations?

Puede que te preguntes: hay muchas formas de aplicar aumentos a un conjunto de datos, e incluso podrías crear los tuyos propios utilizando herramientas como OpenCV. Entonces, ¿por qué elegir una integración compatible con una biblioteca como Albumentations?

La creación manual de aumentos con herramientas como OpenCV puede llevar mucho tiempo y requiere cierta experiencia. También puede ser complicado ajustar las transformaciones para obtener los mejores resultados. La integración de Albumentations facilita este proceso. Ofrece muchas transformaciones listas para usar que pueden ahorrarle tiempo y esfuerzo a la hora de preparar su conjunto de datos.

Otra razón para elegir la integración de Albumentations es que funciona sin problemas con el procesode formación de modelos Ultralytics . Facilita enormemente el entrenamiento personalizado de YOLO11, ya que los aumentos se aplican automáticamente durante el entrenamiento. Simplifica el proceso, por lo que puede centrarse más en mejorar su modelo en lugar de ocuparse de la preparación de los datos.

Primeros pasos con la integración de Albumentations

Curiosamente, utilizar las integraciones de Albumentations para entrenar YOLO11 es más sencillo de lo que podría parecer. Una vez configuradas las bibliotecas adecuadas, la integración aplica automáticamente aumentos de datos de imagen durante el entrenamiento. Esto ayuda al modelo a aprender de diferentes variaciones de imágenes utilizando el mismo conjunto de datos.

A continuación, vamos a ver cómo instalar y utilizar la integración de Albumentations en el entrenamiento personalizado de YOLO11.

Instalación del paquetePython Ultralytics y Albumentations

Antes de aplicar aumentos, es necesario instalar tanto el paquetePython Ultralytics como Albumentations. La integración se ha creado para que ambas bibliotecas funcionen juntas a la perfección de forma predeterminada, por lo que no tendrás que preocuparte por configuraciones complejas.

Todo el proceso de instalación puede completarse en un par de minutos con un solo comando pip, que es una herramienta de gestión de paquetes para instalar bibliotecas Python , como se muestra en la imagen siguiente.

Una vez instalado Albumentations, el modo de entrenamiento del modelo de Ultralytics aplica automáticamente aumentos de imagen durante el entrenamiento. Si Albumentations no está instalado, estos aumentos no se aplicarán. Para más detalles, puede consultar la documentación oficial Ultralytics .

Formación de YOLO11 con ayuda de la integración de Albumentations

Entendamos mejor lo que está sucediendo bajo el capó de la integración de Albumentations.

Aquí tienes un vistazo más de cerca a los aumentos que se aplican durante el entrenamiento de YOLO11 :

Desenfoque: Esta transformación añade un ligero desenfoque a una imagen. Ayuda al modelo a detect objetos incluso cuando están desenfocados.
‍
Desenfoque mediano: Reduce el ruido aleatorio a la vez que preserva los bordes de los objetos en una imagen. Esto facilita al modelo la detect objetos en entornos complejos.
‍
Escala de grises: Al convertir una imagen a blanco y negro, esta aumentación puede ayudar al modelo a centrarse en las formas y texturas en lugar de los colores.
‍
CLAHE (Ecualización adaptativa del histograma con límite de contraste): Esta ampliación aumenta el contraste en las imágenes, particularmente en áreas que son demasiado oscuras o difíciles de ver, como en condiciones de poca luz o neblina. Esto hace que los objetos en esas áreas sean más claros y fáciles de identificar para el modelo.

‍

Aplicaciones de YOLO11 y de la integración de Albumentations

Si está entrenando a YOLO11 a medida para una aplicación específica, la integración de Albumentations puede ayudarle a mejorar el rendimiento del modelo adaptándose a diversas condiciones. Analicemos algunas aplicaciones reales y los retos que puede resolver esta integración.

Mejora de las imágenes médicas

La visión artificial en la atención sanitaria está ayudando a los médicos a analizar las imágenes médicas con mayor precisión para ayudar con los diagnósticos y mejorar la atención al paciente. De hecho, alrededor de una quinta parte de las organizaciones sanitarias ya están utilizando soluciones de IA.

Sin embargo, la creación de estas soluciones de visión artificial conlleva su propio conjunto de desafíos. Los escaneos médicos pueden variar mucho entre hospitales, influenciados por factores como diferentes equipos, configuraciones e incluso la experiencia de los técnicos. Las variaciones en el brillo, el contraste y la exposición pueden afectar la consistencia y la precisión de los modelos de Visión Artificial, lo que dificulta su rendimiento fiable en diferentes entornos.

Aquí es donde la integración de herramientas como Albumentations resulta esencial. Al generar múltiples versiones aumentadas de la misma exploración, Albumentations permite al modelo aprender de una variedad de calidades de imagen. Esto ayuda a que el modelo sea más robusto, permitiéndole detect enfermedades con precisión tanto en imágenes de alta como de baja calidad.

‍

Mejora de la seguridad y la vigilancia

Otra aplicación interesante de la visión artificial es en la seguridad y la vigilancia. La detección de objetos en tiempo real puede ayudar a los equipos de seguridad a identificar posibles amenazas rápidamente.

Una de las principales preocupaciones relacionadas con esta aplicación es que las cámaras de seguridad captan imágenes en distintas condiciones de iluminación a lo largo del día, y estas condiciones pueden afectar drásticamente a la forma en que un modelo entiende dichas imágenes. Factores como la escasa iluminación, los reflejos o la mala visibilidad pueden dificultar que los modelos de visión por ordenador detect objetos o reconozcan posibles amenazas de forma coherente.

La integración de Albumentations ayuda aplicando transformaciones para imitar diferentes condiciones de iluminación. De este modo, el modelo aprende a detect objetos tanto en entornos iluminados como con poca luz, lo que aumenta su fiabilidad y mejora los tiempos de respuesta en condiciones difíciles.

Redefiniendo los flujos de trabajo minoristas y la experiencia del cliente

Un derrame en el pasillo de un supermercado, un perro corriendo por una tienda o un niño derribando una exhibición de productos son solo algunos ejemplos de eventos cotidianos que pueden ser casos límite para la IA de visión en entornos minoristas. La visión artificial se utiliza cada vez más para mejorar la experiencia del cliente mediante el seguimiento del comportamiento de los compradores, la supervisión del tráfico peatonal y la identificación de productos en los estantes. Sin embargo, estas situaciones del mundo real pueden ser difíciles de entender y procesar con precisión para los sistemas de IA.

Si bien no todos los escenarios pueden representarse en un conjunto de datos de visión artificial, la integración de Albumentations ayuda al aumentar los datos para cubrir muchas situaciones posibles, como iluminación inesperada, ángulos inusuales u obstrucciones. Esto ayuda a los modelos de visión artificial a adaptarse a diversas condiciones, mejorando su capacidad para manejar casos extremos y realizar predicciones precisas en entornos minoristas dinámicos.

Conclusiones clave

La recopilación de datos diversos del mundo real para el entrenamiento de modelos puede ser complicada, pero Albumentations lo facilita mediante la creación de variaciones de imagen que ayudan a los modelos a adaptarse a diferentes condiciones.

La integración de Albumentations con Ultralytics simplifica el proceso de aplicación de estos aumentos durante el entrenamiento personalizado de YOLO11. Esto se traduce en una mejor calidad de los conjuntos de datos, lo que beneficia a una amplia gama de industrias al producir modelos de IA de visión más precisos y fiables.

Únete a nuestra comunidad y explora nuestro repositorio en GitHub para obtener más información sobre la IA, y consulta nuestras opciones de licencia para impulsar tus proyectos de Visión Artificial. ¿Te interesan innovaciones como la IA en la fabricación o la visión artificial en la conducción autónoma? Visita nuestras páginas de soluciones para descubrir más.

Uso de las aumentaciones de Albumentations para diversificar sus datos