¡Sintonice YOLO Vision 2025!
25 de septiembre de 2025
10:00 — 18:00 BST
Evento híbrido
Yolo Vision 2024

La guía definitiva para el aumento de datos en 2025

Abirami Vina

6 minutos de lectura

14 de febrero de 2025

Descubra cómo el aumento de datos de imagen ayuda a los modelos de Vision AI a aprender mejor, mejorar la precisión y rendir de forma más eficaz en situaciones del mundo real.

Debido al auge de la IA, fenómenos como los robots que trabajan en las fábricas y los coches autónomos que circulan por las calles son cada vez más noticia. La IA está cambiando la forma en que las máquinas interactúan con el mundo, desde la mejora de las imágenes médicas hasta la asistencia en el control de calidad en las líneas de producción.

Gran parte de este progreso proviene de la visión artificial, una rama de la IA que hace posible que las máquinas comprendan e interpreten imágenes. Al igual que los humanos aprenden a reconocer objetos y patrones con el tiempo, los modelos de Visión Artificial como Ultralytics YOLO11 necesitan ser entrenados con grandes cantidades de datos de imagen para desarrollar su comprensión visual.

Sin embargo, recopilar una cantidad tan vasta de datos visuales no siempre es fácil. Aunque la comunidad de visión artificial ha creado muchos conjuntos de datos grandes, aún pueden faltar ciertas variaciones, como imágenes con objetos con poca luz, elementos parcialmente ocultos o cosas vistas desde diferentes ángulos. Estas diferencias pueden ser confusas para los modelos de visión artificial que solo han sido entrenados en condiciones específicas.

La aumentación de datos de imágenes es una técnica que resuelve este problema introduciendo nuevas variaciones en los datos existentes. Al realizar cambios en las imágenes, como ajustar los colores, rotar o cambiar la perspectiva, el conjunto de datos se vuelve más diverso, lo que ayuda a los modelos de Vision AI a reconocer mejor los objetos en situaciones del mundo real.

En este artículo, exploraremos cómo funciona el aumento de datos de imagen y el impacto que puede tener en las aplicaciones de visión artificial.

¿Qué es el aumento de datos de imagen?

Supongamos que está intentando reconocer a un amigo entre la multitud, pero lleva gafas de sol o está de pie en un lugar sombrío. Incluso con estos pequeños cambios en la apariencia, todavía sabe quién es. Por otro lado, un modelo de IA visual puede tener dificultades con tales variaciones a menos que haya sido entrenado para reconocer objetos en diferentes entornos.

La aumentación de datos de imágenes mejora el rendimiento del modelo de visión artificial al añadir versiones modificadas de las imágenes existentes a los datos de entrenamiento, en lugar de recopilar miles de imágenes nuevas. 

Las modificaciones en las imágenes, como voltear, rotar, ajustar el brillo o añadir pequeñas distorsiones, exponen a los modelos de Visión Artificial a una gama más amplia de condiciones. En lugar de depender de conjuntos de datos masivos, los modelos pueden aprender eficientemente a partir de conjuntos de datos de entrenamiento más pequeños con imágenes aumentadas. 

__wf_reserved_inherit
Fig. 1. Ejemplos de imágenes aumentadas de un coche.

La importancia del aumento de datos en la visión artificial

Estas son algunas de las razones clave por las que la ampliación es esencial para la visión artificial:

  • Reduce los requisitos de datos: La recopilación de grandes conjuntos de datos de imágenes requiere tiempo y recursos. La ampliación puede utilizarse para entrenar modelos eficazmente sin necesidad de conjuntos de datos masivos.
  • Evita el sobreajuste: Un modelo entrenado con muy pocos ejemplos puede memorizar detalles en lugar de reconocer patrones generales. Añadir variedad a través del aumento de datos asegura que los modelos de Visión Artificial aprendan de una manera que se aplique a datos nuevos y no vistos.
  • Imita imágenes imperfectas: Las imágenes en los conjuntos de datos a menudo son demasiado perfectas, pero las fotos del mundo real pueden ser borrosas, estar ocultas o distorsionadas. Aumentar las imágenes con ruido, oclusiones u otras variaciones las hace más realistas.
  • Mejora la robustez del modelo: El entrenamiento con una variedad de imágenes ayuda a la IA a manejar los cambios del mundo real, haciéndola más fiable en diferentes entornos, condiciones de iluminación y situaciones.

¿Cuándo se debe utilizar el aumento de datos de imagen?

La aumentación de datos de imágenes es particularmente útil cuando un modelo de visión artificial necesita reconocer objetos en diferentes situaciones, pero no tiene suficientes imágenes variadas. 

Por ejemplo, si los investigadores están entrenando un modelo de IA visual para identificar especies submarinas raras que rara vez se fotografían, el conjunto de datos puede ser pequeño o carecer de variación. Al aumentar las imágenes (ajustando los colores para simular diferentes profundidades de agua, añadiendo ruido para imitar condiciones turbias o alterando ligeramente las formas para tener en cuenta el movimiento natural), el modelo puede aprender a detectar objetos submarinos con mayor precisión.

Aquí hay algunas otras situaciones en las que la aumentación marca una gran diferencia:

  • Equilibrar el conjunto de datos: Algunos objetos pueden aparecer con menos frecuencia en los datos de entrenamiento, lo que hace que los modelos de Vision AI estén sesgados. El aumento de datos ayuda a crear más ejemplos de objetos raros para que el modelo pueda reconocer todas las categorías de manera justa.
  • Adaptación a diferentes cámaras: Las imágenes pueden verse diferentes según el dispositivo. La aumentación ayuda a los modelos de Visión Artificial a funcionar bien en fotos con diferentes resoluciones, iluminación y calidad.
  • Corrección de errores de etiquetado menores: Los ligeros desplazamientos, recortes o rotaciones ayudan a los modelos de visión artificial a reconocer los objetos correctamente, incluso si las etiquetas originales no están perfectamente alineadas.

Cómo funciona el aumento de datos de imagen

En los inicios de la visión artificial, el aumento de datos de imagen implicaba principalmente técnicas básicas de procesamiento de imágenes, como voltear, rotar y recortar para aumentar la diversidad del conjunto de datos. A medida que la IA mejoró, se introdujeron métodos más avanzados, como el ajuste de colores (transformaciones del espacio de color), el enfoque o el desenfoque de imágenes (filtros de kernel) y la combinación de múltiples imágenes (mezcla de imágenes) para mejorar el aprendizaje.

La aumentación puede ocurrir antes y durante el entrenamiento del modelo. Antes del entrenamiento, se pueden añadir imágenes modificadas al conjunto de datos para proporcionar más variedad. Durante el entrenamiento, las imágenes pueden alterarse aleatoriamente en tiempo real, lo que ayuda a los modelos de Visión Artificial a adaptarse a diferentes condiciones.

Estos cambios se realizan mediante transformaciones matemáticas. Por ejemplo, la rotación inclina una imagen, el recorte elimina partes para imitar diferentes vistas y los cambios de brillo simulan variaciones de iluminación. El desenfoque suaviza las imágenes, el enfoque hace que los detalles sean más claros y la mezcla de imágenes combina partes de diferentes imágenes. Los frameworks de Vision AI y herramientas como OpenCV, TensorFlow y PyTorch pueden automatizar estos procesos, lo que hace que el aumento sea rápido y eficaz.

Técnicas clave de aumento de datos de imagen

Ahora que hemos analizado qué es el aumento de datos de imagen, echemos un vistazo más de cerca a algunas técnicas fundamentales de aumento de datos de imagen que se utilizan para mejorar los datos de entrenamiento.

Ajuste de la orientación y la posición

Los modelos de visión artificial como YOLO11 a menudo necesitan reconocer objetos desde varios ángulos y puntos de vista. Para ayudar con esto, las imágenes se pueden voltear horizontal o verticalmente para que el modelo de IA aprenda a reconocer objetos desde diferentes puntos de vista. 

De manera similar, rotar las imágenes ligeramente cambia su ángulo, lo que permite al modelo identificar objetos desde múltiples perspectivas. Además, desplazar las imágenes en diferentes direcciones (traslación) ayuda a los modelos a adaptarse a pequeños cambios posicionales. Estas transformaciones aseguran que los modelos generalicen mejor a las condiciones del mundo real donde la colocación de objetos en una imagen es impredecible.

__wf_reserved_inherit
Fig 2. Diferentes métodos de aumento de datos relacionados con la orientación y la posición.

Cambio de tamaño y recorte

Con respecto a las soluciones de visión artificial del mundo real, los objetos en las imágenes pueden aparecer a diferentes distancias y tamaños. Los modelos de Vision AI deben ser lo suficientemente robustos para detectarlos independientemente de estas diferencias. 

Para mejorar la adaptabilidad, se pueden utilizar los siguientes métodos de aumento:

  • Escalado: El cambio de tamaño modifica el tamaño de la imagen manteniendo sus proporciones, lo que permite a los modelos de IA detectar objetos a diferentes distancias.
  • Recorte: Elimina las partes innecesarias de una imagen, lo que ayuda al modelo a centrarse en las áreas clave y a reducir las distracciones del fondo.
  • Cizallamiento: Sesgar ligeramente una imagen simula una apariencia inclinada o estirada, lo que ayuda a la IA a reconocer objetos desde diferentes ángulos.

Estos ajustes ayudan a los modelos de visión artificial a reconocer objetos incluso si su tamaño o forma cambian ligeramente.

Ajustes de perspectiva y distorsión

Los objetos en las imágenes pueden aparecer de forma diferente dependiendo del ángulo de la cámara, lo que dificulta el reconocimiento para los modelos de visión artificial. Para ayudar a los modelos a manejar estas variaciones, las técnicas de aumento pueden ajustar la forma en que se presentan los objetos en las imágenes. 

Por ejemplo, las transformaciones de perspectiva pueden cambiar el ángulo de visión, haciendo que un objeto parezca que se ve desde una posición diferente. Esto permite que los modelos de Vision AI reconozcan objetos incluso cuando están inclinados o capturados desde un punto de vista inusual. 

Otro ejemplo es una transformación elástica que estira, dobla o deforma las imágenes para simular distorsiones naturales, de modo que los objetos aparezcan como lo harían en reflejos o bajo presión. 

Modificaciones de color e iluminación

Las condiciones de iluminación y las diferencias de color pueden afectar significativamente la forma en que los modelos de IA visual interpretan las imágenes. Dado que los objetos pueden aparecer de manera diferente bajo diversas configuraciones de iluminación, las siguientes técnicas de aumento pueden ayudar a manejar estas situaciones:

  • Ajustes de brillo y contraste: Simular diferentes condiciones de iluminación ayuda a los modelos de Vision AI a reconocer objetos tanto en entornos brillantes como oscuros.
  • Fluctuación del color: Cambiar aleatoriamente el tono, la saturación y el balance de color hace que los modelos de visión artificial sean más adaptables a diferentes cámaras y condiciones de iluminación.
  • Conversión a escala de grises: La conversión de imágenes a blanco y negro anima a los modelos de Vision AI a centrarse en las formas y texturas en lugar del color.
__wf_reserved_inherit
Fig. 3. Ejemplos de aumentos relacionados con variaciones de color.

Técnicas avanzadas de aumento de datos de imagen

Hasta ahora, solo hemos explorado técnicas de aumento que modifican una sola imagen. Sin embargo, algunos métodos avanzados implican la combinación de múltiples imágenes para mejorar el aprendizaje de la IA.

Por ejemplo, MixUp combina dos imágenes, lo que ayuda a los modelos de visión artificial a comprender las relaciones de los objetos y mejora su capacidad para generalizar en diferentes escenarios. CutMix va un paso más allá al reemplazar una sección de una imagen con una parte de otra, lo que permite a los modelos aprender de múltiples contextos dentro de la misma imagen. Mientras tanto, CutOut funciona de manera diferente al eliminar partes aleatorias de una imagen, entrenando modelos de Vision AI para reconocer objetos incluso cuando están parcialmente ocultos u obstruidos.

__wf_reserved_inherit
Fig 4. Técnicas avanzadas de aumento de datos de imagen.

El papel de la IA generativa en el aumento de datos de imagen

La IA generativa está ganando terreno en muchas industrias y aplicaciones cotidianas. Es probable que la hayas encontrado en relación con imágenes generadas por IA, vídeos deepfake o aplicaciones que crean avatares realistas. Pero más allá de la creatividad y el entretenimiento, la IA generativa desempeña un papel crucial en el entrenamiento de modelos de Visión Artificial al generar nuevas imágenes a partir de las existentes.

En lugar de simplemente voltear o rotar imágenes, puede crear variaciones realistas: cambiar expresiones faciales, estilos de ropa o incluso simular diferentes condiciones climáticas. Estas variaciones ayudan a que los modelos de visión artificial se vuelvan más adaptables y precisos en diversos escenarios del mundo real. Los modelos avanzados de IA generativa, como las GAN (Redes Generativas Antagónicas) y los modelos de difusión, también pueden completar los detalles que faltan o crear imágenes sintéticas de alta calidad.

Limitaciones del aumento de datos de imagen

Si bien el aumento de datos mejora los conjuntos de datos de entrenamiento, también hay algunas limitaciones que hay que tener en cuenta. Estos son algunos de los principales retos relacionados con el aumento de datos de imagen:

  • Diversidad de datos limitada: Las imágenes aumentadas provienen de datos existentes y no pueden introducir patrones completamente nuevos o perspectivas raras.
  • Distorsión potencial de los datos: Las transformaciones excesivas pueden hacer que las imágenes no sean realistas, lo que podría reducir la precisión del modelo en escenarios del mundo real.
  • Mayor computación: El aumento en tiempo real que tiene lugar durante el entrenamiento del modelo puede requerir bastante potencia de procesamiento, lo que ralentiza el entrenamiento y aumenta el uso de memoria.
  • El desequilibrio de clases persiste: El aumento de datos no crea muestras completamente nuevas, por lo que las categorías subrepresentadas aún pueden conducir a un aprendizaje sesgado.

Una aplicación del mundo real del aumento de datos de imagen

Una aplicación interesante del aumento de datos de imagen se encuentra en los coches autónomos, donde las decisiones en fracciones de segundo tomadas por modelos de visión artificial como YOLO11 son cruciales. El modelo tiene que ser capaz de detectar carreteras, personas y otros objetos con precisión.

Sin embargo, las condiciones del mundo real que encuentra un vehículo autónomo pueden ser impredecibles. El mal tiempo, el desenfoque de movimiento y las señales ocultas pueden hacer que las soluciones de Visión Artificial en este sector sean complejas. Entrenar modelos de visión artificial solo con imágenes del mundo real a menudo no es suficiente. Los conjuntos de datos de imágenes para los modelos en coches autónomos deben ser diversos para que el modelo pueda aprender a manejar situaciones inesperadas.

La aumentación de datos de imágenes resuelve esto simulando niebla, ajustando el brillo y distorsionando las formas. Estos cambios ayudan a los modelos a reconocer objetos en diferentes condiciones. Como resultado, los modelos se vuelven más inteligentes y fiables. 

Con el entrenamiento aumentado, las soluciones de visión artificial en coches autónomos se adaptan mejor y toman decisiones más seguras. Resultados más precisos significan menos accidentes y una mejor navegación. 

__wf_reserved_inherit
Fig 5. Un ejemplo de aumento de datos de imagen con respecto a los coches autónomos.

Los coches autónomos son solo un ejemplo. De hecho, el aumento de datos de imagen es crucial en una amplia gama de sectores, desde las imágenes médicas hasta el análisis minorista. Cualquier aplicación que se base en la visión artificial puede beneficiarse potencialmente del aumento de datos de imagen.

Conclusiones clave

Los sistemas de IA de visión deben ser capaces de reconocer objetos en diferentes condiciones, pero la recopilación de un sinfín de imágenes del mundo real para el entrenamiento puede ser difícil. El aumento de datos de imagen resuelve esto mediante la creación de variaciones de las imágenes existentes, lo que ayuda a los modelos a aprender más rápido y a rendir mejor en situaciones del mundo real. Mejora la precisión, garantizando que los modelos de IA de visión como YOLO11 puedan manejar diferentes iluminaciones, ángulos y entornos.

Para las empresas y los desarrolladores, el aumento de datos de imagen ahorra tiempo y esfuerzo, a la vez que hace que los modelos de visión artificial sean más fiables. Desde la atención sanitaria hasta los coches autónomos, muchas industrias dependen de ello. A medida que la Visión Artificial sigue evolucionando, el aumento seguirá siendo una parte esencial de la creación de modelos más inteligentes y adaptables para el futuro.

Únase a nuestra comunidad y visite nuestro repositorio de GitHub para ver la IA en acción. Explore nuestras opciones de licencia y descubra más sobre la IA en la agricultura y la visión artificial en la fabricación en nuestras páginas de soluciones.

¡Construyamos juntos el futuro
de la IA!

Comience su viaje con el futuro del aprendizaje automático

Comienza gratis
Enlace copiado al portapapeles