Yolo Vision Shenzhen
Shenzhen
Únete ahora

Mejora la solidez del modelo de IA con el aumento de datos.

Descubra cómo añadir variaciones realistas a los datos de entrenamiento mediante el aumento de datos ayuda a mejorar la solidez de los modelos de IA y su rendimiento en el mundo real.

Las pruebas son una parte fundamental del desarrollo de cualquier solución tecnológica. Permiten a los equipos conocer el funcionamiento real de un sistema antes de su puesta en marcha y solucionar los problemas con antelación. Esto es así en muchos campos, incluida la IA, donde se espera que los modelos sean capaces de gestionar condiciones impredecibles del mundo real una vez implementados.

Por ejemplo, la visión artificial es una rama de la IA que enseña a las máquinas a comprender imágenes y vídeos. Los modelos de visión artificial, como Ultralytics , admiten tareas como la detección de objetos, la segmentación de instancias y la clasificación de imágenes.

Se pueden utilizar en muchos sectores para aplicaciones como la monitorización de pacientes, el análisis del tráfico, el pago automático y el control de calidad en la fabricación. Sin embargo, incluso con modelos avanzados y datos de entrenamiento de alta calidad, las soluciones de IA visual pueden seguir teniendo dificultades cuando se enfrentan a variaciones del mundo real, como cambios de iluminación, movimiento u objetos parcialmente obstruidos.

Esto ocurre porque los modelos aprenden de los ejemplos que se les proporcionan durante el entrenamiento. Si no han visto antes condiciones como el deslumbramiento, el desenfoque por movimiento o la visibilidad parcial, es menos probable que reconozcan correctamente los objetos en esos escenarios.

Una forma de mejorar la solidez del modelo es mediante el aumento de datos. En lugar de recopilar grandes cantidades de datos nuevos, los ingenieros pueden realizar pequeños cambios significativos en las imágenes existentes, como ajustar la iluminación, recortarlas o mezclarlas. Esto ayuda al modelo a aprender a reconocer los mismos objetos en una gama más amplia de situaciones.

En este artículo, exploraremos cómo el aumento de datos mejora la solidez de los modelos y la fiabilidad de los sistemas de IA visual cuando se implementan fuera de entornos controlados. ¡Empecemos!

Cómo comprobar la solidez de un modelo

Antes de profundizar en el aumento de datos, veamos cómo saber si un modelo de visión artificial está realmente listo para su uso en el mundo real. 

Un modelo robusto sigue funcionando bien incluso cuando cambian las condiciones, en lugar de funcionar solo con imágenes limpias y perfectamente etiquetadas. A continuación se indican algunos factores prácticos que deben tenerse en cuenta a la hora de evaluar la robustez de un modelo de IA:

  • Cambios en la iluminación: los modelos pueden comportarse de manera diferente cuando se exponen a luz brillante, luz tenue, reflejos o sombras, lo que puede afectar la precisión con la que se detectan los objetos.
  • Oclusión parcial: en situaciones cotidianas, los objetos suelen quedar bloqueados por otros elementos o solo son parcialmente visibles. Un modelo más robusto es capaz de reconocerlos incluso cuando falta información visual.
  • Escenas con mucha gente: los entornos con muchos objetos superpuestos pueden dificultar la detección. Los modelos que funcionan bien en estos casos suelen ser más fiables en entornos complejos.

Los buenos resultados en imágenes limpias y perfectamente capturadas no siempre se traducen en un buen rendimiento en el mundo real. Las pruebas periódicas en condiciones variadas ayudan a demostrar el buen funcionamiento de un modelo una vez implementado.

¿Qué es el aumento de datos?

La forma en que aparece un objeto en una foto puede cambiar dependiendo de la iluminación, el ángulo, la distancia o el fondo. Cuando se entrena un modelo de visión artificial, el conjunto de datos del que aprende debe incluir este tipo de variaciones para que pueda funcionar bien en entornos impredecibles.

El aumento de datos amplía un conjunto de datos de entrenamiento mediante la creación de ejemplos adicionales a partir de las imágenes que ya tienes. Esto se hace aplicando cambios intencionados, como girar o voltear una imagen, ajustar el brillo o recortar parte de ella. 

Por ejemplo, imagina que solo tienes una foto de un gato. Si giras la imagen o cambias su brillo, puedes crear varias versiones nuevas a partir de esa única imagen. Cada versión tiene un aspecto ligeramente diferente, pero sigue siendo una foto del mismo gato. Estas variaciones ayudan a enseñar al modelo que un objeto puede tener un aspecto diferente sin dejar de ser lo mismo.

Fig. 1. Ejemplo de aumento de una imagen de un gato (Fuente)

Cómo mejora el aumento de datos el rendimiento del modelo

Durante el entrenamiento del modelo, el aumento de datos se puede integrar directamente en el proceso de entrenamiento. En lugar de crear y almacenar manualmente nuevas copias de las imágenes, se pueden aplicar transformaciones aleatorias a medida que se carga cada imagen. 

Esto significa que el modelo ve una versión ligeramente diferente de la imagen cada vez, ya sea más brillante, invertida o parcialmente oculta. Técnicas como el borrado aleatorio pueden incluso eliminar pequeñas regiones de la imagen para simular situaciones del mundo real en las que un objeto está bloqueado o solo parcialmente visible.

Fig. 2. Ejemplos de aumento basado en borrado aleatorio (Fuente)

Ver muchas versiones diferentes de la misma imagen permite al modelo aprender qué características son importantes, en lugar de depender de un único ejemplo perfecto. Esta variedad refuerza la solidez del modelo de IA, de modo que puede funcionar de forma más fiable en condiciones reales.

Técnicas comunes de aumento de datos

A continuación se presentan algunas técnicas de aumento de datos utilizadas para introducir variaciones en las imágenes de entrenamiento:

  • Transformaciones geométricas: estas técnicas cambian la forma en que un objeto aparece espacialmente dentro de una imagen. Girar, voltear, cambiar el tamaño, recortar o desplazar una imagen permite al modelo comprender cómo se puede ver un objeto desde diferentes ángulos o distancias.
  • Ajustes de color e iluminación: la iluminación del mundo real rara vez es constante. Las imágenes pueden ser demasiado brillantes, demasiado oscuras o tener un color ligeramente diferente, dependiendo del entorno o de la cámara utilizada. El ajuste del brillo, el contraste, el tono y la saturación permite a los modelos manejar estos cambios visuales y funcionar bien en diferentes escenas.
  • Variaciones en la calidad de la imagen: el desenfoque o el ruido visual pueden hacer que las imágenes se vean poco nítidas. Añadir desenfoque o ruido durante el entrenamiento ayuda al modelo a aprender a lidiar con el desenfoque por movimiento, las imágenes con poca luz o los resultados de cámaras de menor calidad, por lo que se vuelve menos sensible a las imágenes imperfectas.
  • Aumentos basados en oclusiones: en entornos reales, los objetos suelen estar parcialmente bloqueados por otros objetos. Esto se conoce como oclusiones de imagen. Ocultar o enmascarar pequeñas áreas de una imagen durante el entrenamiento ayuda al modelo a aprender a detect incluso cuando solo una parte de ellos es visible.
  • Aumentos de múltiples imágenes: estas técnicas combinan partes de varias imágenes en un único ejemplo de entrenamiento, lo que puede aumentar el número de objetos visibles y mejorar la capacidad del modelo para manejar escenas complejas o con mucha gente.
Fig. 3. Ejemplo de aumento de imágenes múltiples (Fuente)

El aumento de datos se simplifica con elPython Ultralytics

La gestión de conjuntos de datos, la creación de variaciones de imágenes y la escritura de código de transformación pueden añadir pasos adicionales a la creación de una aplicación de visión artificial. El Python Ultralytics Python ayuda a simplificar este proceso al proporcionar una única interfaz para entrenar, ejecutar e implementarYOLO Ultralytics YOLO como YOLO26. Como parte de este esfuerzo por optimizar los flujos de trabajo de entrenamiento, el paquete incluye un aumento de datos integrado y Ultralytics, optimizado para YOLO .

También admite integraciones útiles que eliminan la necesidad de herramientas independientes o código personalizado. En concreto, para el aumento de datos, el paquete se integra con Albumentations, una biblioteca de aumento de imágenes muy utilizada. Esta integración permite aplicar aumentos automáticamente durante el entrenamiento, sin necesidad de scripts adicionales ni código personalizado.

Gestión de anotaciones y conjuntos de datos aumentados

Otro factor que influye en la solidez del modelo es la calidad de las anotaciones. Las etiquetas claras y precisas, creadas y gestionadas con herramientas de anotación como Roboflow, ayudan al modelo a comprender dónde se encuentran los objetos y qué aspecto tienen.

Durante el entrenamiento, se aplican dinámicamente aumentos de datos, como volteos, recortes y rotaciones, y las anotaciones se ajustan automáticamente para adaptarse a estos cambios. Cuando las etiquetas son precisas, este proceso funciona sin problemas y proporciona al modelo muchos ejemplos realistas de la misma escena.

Si las anotaciones son inexactas o inconsistentes, esos errores pueden acabar repitiéndose en las imágenes aumentadas, lo que puede reducir la eficacia del entrenamiento. Empezar con anotaciones precisas evita que estos errores se propaguen y contribuye a una mayor solidez del modelo.

Mejorar las aplicaciones de IA para la visión con el aumento de datos

A continuación, veamos algunos ejemplos de cómo el aumento de datos contribuye a la solidez de los modelos de IA en aplicaciones del mundo real.

Aumento de la precisión de la detección de objetos en entornos reales

Las imágenes sintéticas se utilizan a menudo para entrenar sistemas de detección de objetos cuando los datos reales son limitados, sensibles o difíciles de recopilar. Permiten a los equipos generar rápidamente ejemplos de productos, entornos y ángulos de cámara sin necesidad de capturar todos los escenarios en la vida real. 

Sin embargo, los conjuntos de datos sintéticos pueden parecer a veces demasiado limpios en comparación con las imágenes del mundo real, en las que la iluminación cambia, los objetos se superponen y las escenas incluyen elementos de fondo que distraen la atención. El aumento de datos ayuda a salvar esta diferencia introduciendo variaciones realistas, como diferentes tipos de iluminación, ruido o colocación de objetos, de modo que el modelo aprende a manejar los tipos de condiciones que encontrará cuando se implemente.

Por ejemplo, en un estudio reciente, se entrenó un YOLO11 íntegramente con imágenes sintéticas y se añadió un aumento de datos para introducir una variación adicional. Esto contribuyó a que el modelo aprendiera a reconocer objetos de forma más amplia. Obtuvo buenos resultados cuando se probó con imágenes reales, a pesar de que nunca había visto datos del mundo real durante el entrenamiento.

Hacer que las soluciones de imágenes médicas sean más fiables

Los conjuntos de datos de imágenes médicas suelen ser limitados, y las exploraciones en sí mismas pueden variar en función del tipo de equipo, la configuración de las imágenes o el entorno clínico. Las diferencias en la anatomía de los pacientes, los ángulos, la iluminación o el ruido visual pueden dificultar que los modelos de visión artificial aprendan patrones que se puedan generalizar bien entre pacientes y hospitales.

El aumento de datos ayuda a solucionar este problema creando múltiples variaciones del mismo escaneo durante el entrenamiento, como añadir ruido, desplazar ligeramente la imagen o aplicar pequeñas distorsiones. Estos cambios hacen que los datos de entrenamiento sean más representativos de las condiciones clínicas reales.

Por ejemplo, en un estudio de imágenes pediátricas, los investigadores utilizaron YOLO11 la segmentación anatómica y lo entrenaron con datos médicos aumentados. Introdujeron variaciones como ruido añadido, ligeros cambios de posición y pequeñas distorsiones para que las imágenes fueran más realistas.

Fig. 4. Imágenes médicas pediátricas originales y aumentadas (Fuente)

Al aprender de estas variaciones, el modelo se centró en características anatómicas significativas en lugar de diferencias superficiales. Esto hizo que sus resultados de segmentación fueran más estables en diferentes exploraciones y casos de pacientes.

Conclusiones clave

Recopilar datos diversos es difícil, pero el aumento de datos permite a los modelos aprender de una gama más amplia de condiciones visuales. Esto da como resultado una mayor solidez del modelo a la hora de lidiar con oclusiones, cambios de iluminación y escenas concurridas. En general, esto les ayuda a funcionar de forma más fiable fuera de entornos de entrenamiento controlados. 

Únase a nuestra comunidad y explore lo último en Vision AI en nuestro repositorio de GitHub. Visite nuestras páginas de soluciones para descubrir cómo aplicaciones como la IA en fabricación y la visión por ordenador en sanidad están impulsando el progreso, y consulte nuestras opciones de licencia para impulsar su próxima solución de IA.

¡Construyamos juntos el futuro
de la IA!

Comience su viaje con el futuro del aprendizaje automático

Comienza gratis