CutMix
Descubre cómo la técnica de aumento de datos CutMix evita el sobreajuste. Aprende a aplicarla fácilmente para entrenar modelos robustos de Ultralytics YOLO26.
CutMix es una técnica avanzada de data augmentation utilizada para entrenar modelos robustos de computer vision mediante el recorte de un parche rectangular de una imagen y su pegado sobre una imagen objetivo. A diferencia de las aumentaciones más sencillas que ajustan el brillo o la rotación, CutMix altera la composición fundamental de una muestra de entrenamiento. Cuando se intercambian los píxeles, las ground-truth labels correspondientes también se mezclan proporcionalmente al área del parche. Esto ayuda a las artificial neural networks a aprender a identificar objetos a partir de vistas parciales, obligando al modelo a apoyarse en múltiples características en lugar de centrarse únicamente en las partes más discriminativas de un objeto. Presentada por primera vez en un artículo académico de 2019, se ha convertido en una operación estándar en los marcos de trabajo de deep learning para prevenir el overfitting y mejorar la generalización en grandes datasets.
Link to this sectionCómo funciona la técnica#
Durante el entrenamiento del modelo, el algoritmo selecciona aleatoriamente una coordenada central y un tamaño de caja para extraer una región de una imagen secundaria. Este parche se superpone directamente sobre una imagen principal dentro del batch activo. Si la imagen principal contenía un perro y la secundaria un gato, la imagen final mostraría un parche de gato reemplazando una porción del perro. Las etiquetas de clasificación se actualizan mediante linear interpolation basada en el área exacta del parche; por ejemplo, dando como resultado una etiqueta de 0,7 perro y 0,3 gato. En tareas de object detection, se conservan las cajas delimitadoras que retienen al menos un cierto porcentaje (a menudo el 10%) de su área original dentro de la región pegada. Esta técnica es compatible de forma nativa como un hiperparámetro de entrenamiento cutmix en Ultralytics YOLO, lo que permite a los profesionales definir fácilmente la probabilidad de esta transformación.
Link to this sectionDiferenciación entre MixUp y Cutout#
CutMix está estrechamente relacionado con otras dos técnicas prominentes de aumento de datos, pero resuelve sus limitaciones específicas:
- MixUp Augmentation: MixUp combina dos imágenes globalmente calculando un promedio ponderado de sus valores de píxel. Aunque es eficaz, a menudo da lugar a imágenes fantasma antinaturales y semitransparentes que pueden confundir a los modelos al interrumpir la spatial correlation local. Por el contrario, CutMix conserva las intensidades de píxel originales dentro de las regiones recortadas, algo que los investigadores optimizaron aún más en enfoques como Attentive CutMix.
- Cutout Augmentation: Cutout descarta información al enmascarar una región rectangular aleatoria con píxeles negros o la media del dataset. Aunque anima al modelo a mirar el objeto completo, desperdicia valiosos tensors de entrenamiento. CutMix reemplaza ese espacio faltante con parches informativos de image classification de otras imágenes, aumentando la eficiencia general del aprendizaje.
Link to this sectionAplicaciones en el mundo real#
Al entrenar modelos para reconocer objetos severamente ocluidos, CutMix impulsa significativamente el rendimiento del machine learning en diversas industrias.
- Automotive AI and Autonomous Driving: En los coches autónomos, enseña al sistema a identificar peatones o vehículos incluso cuando están parcialmente bloqueados por señales de tráfico, mejorando la seguridad en entornos concurridos.
- Medical Diagnostics and Organ Segmentation: En el sector sanitario, este método es ampliamente utilizado para la organ and tumor segmentation, permitiendo a los modelos reconocer límites tisulares complejos incluso cuando las estructuras anatómicas se superponen.
- Remote Sensing for Satellite Imagery: Esta estrategia conserva clases densas y superpuestas como edificios y vegetación desde vistas aéreas. Se investigan activamente variaciones avanzadas para mejorar el long-tailed recognition en datos muy desequilibrados.
Link to this sectionImplementación en la práctica#
Integrar esta aumentación en un flujo de trabajo de IA es sencillo. La mayoría de las bibliotecas de alto nivel la soportan de forma nativa, como PyTorch Transforms y Keras Preprocessing Layers.
Al entrenar un modelo como YOLO26, configurar esta aumentación requiere solo un ajuste de parámetro. Esto gestiona automáticamente tanto el parcheado de imágenes como la compleja lógica de recorte de cajas delimitadoras.
from ultralytics import YOLO
# Initialize the recommended Ultralytics YOLO26 model
model = YOLO("yolo26n.pt")
# Train the model with CutMix enabled at a 50% probability
results = model.train(data="coco8.yaml", epochs=50, imgsz=640, cutmix=0.5)Para los equipos que gestionan flujos de trabajo de visión a gran escala, la Ultralytics Platform simplifica esto al permitir a los usuarios ajustar estas data augmentation best practices directamente desde una interfaz en la nube, agilizando el camino desde la anotación hasta el model deployment.






