CutMix
Découvre comment la technique d'augmentation de données CutMix empêche le surapprentissage. Apprends comment l'appliquer facilement pour entraîner des modèles Ultralytics YOLO26 robustes.
CutMix est une technique avancée d'augmentation de données utilisée pour entraîner des modèles robustes de vision par ordinateur en découpant une zone rectangulaire d'une image pour la coller sur une image cible. Contrairement aux augmentations plus simples qui ajustent la luminosité ou la rotation, CutMix modifie la composition fondamentale d'un échantillon d'entraînement. Lorsque les pixels sont échangés, les étiquettes de vérité terrain correspondantes sont également mélangées proportionnellement à la surface de la zone. Cela aide les réseaux de neurones artificiels à apprendre à identifier des objets à partir de vues partielles, forçant le modèle à s'appuyer sur de multiples caractéristiques plutôt que de se concentrer uniquement sur les parties les plus discriminantes d'un objet. Introduit pour la première fois dans un article académique de 2019, c'est devenu une opération standard dans les frameworks de deep learning pour prévenir le surapprentissage et améliorer la généralisation sur de grands jeux de données.
Link to this sectionFonctionnement de la technique#
Pendant l'entraînement du modèle, l'algorithme sélectionne aléatoirement une coordonnée centrale et une taille de boîte pour extraire une région d'une image secondaire. Ce patch est ensuite superposé directement sur une image primaire au sein du batch actif. Si l'image primaire contient un chien et la secondaire un chat, l'image finale comportera un patch de chat remplaçant une partie du chien. Les étiquettes de classification sont mises à jour via une interpolation linéaire basée sur la zone exacte du patch — par exemple, produisant une étiquette de 0,7 chien et 0,3 chat. Dans les tâches de détection d'objets, les boîtes englobantes qui conservent au moins un certain pourcentage (souvent 10 %) de leur surface d'origine dans la zone collée sont préservées. Cette technique est nativement prise en charge en tant qu'hyperparamètre d'entraînement cutmix dans Ultralytics YOLO, permettant aux praticiens de définir facilement la probabilité de cette transformation.
Link to this sectionDifférencier MixUp et Cutout#
CutMix est étroitement lié à deux autres techniques d'augmentation de données importantes, mais il résout leurs limites spécifiques :
- Augmentation MixUp : MixUp mélange deux images globalement en calculant une moyenne pondérée de leurs valeurs de pixels. Bien qu'efficace, cela résulte souvent en des images fantômes artificielles et semi-transparentes qui peuvent confondre les modèles en perturbant la corrélation spatiale locale. À l'inverse, CutMix préserve les intensités de pixels d'origine dans les zones découpées, ce que les chercheurs ont optimisé davantage dans des approches comme Attentive CutMix.
- Augmentation Cutout : Cutout supprime des informations en masquant une région rectangulaire aléatoire avec des pixels noirs ou la moyenne du jeu de données. Bien qu'il encourage le modèle à regarder l'objet entier, il gaspille de précieux tenseurs d'entraînement. CutMix remplace cet espace manquant par des patchs informatifs de classification d'images provenant d'autres images, augmentant ainsi l'efficacité globale de l'apprentissage.
Link to this sectionApplications concrètes#
En entraînant les modèles à reconnaître des objets sévèrement occlus, CutMix améliore considérablement les performances de machine learning dans divers secteurs.
- IA automobile et conduite autonome : Pour les voitures autonomes, cela apprend au système à identifier les piétons ou les véhicules même lorsqu'ils sont partiellement bloqués par des panneaux de signalisation, améliorant ainsi la sécurité dans les environnements encombrés.
- Diagnostic médical et segmentation d'organes : Dans le domaine de la santé, cette méthode est largement utilisée pour la segmentation d'organes et de tumeurs, permettant aux modèles de reconnaître des frontières tissulaires complexes même lorsque les structures anatomiques se chevauchent.
- Télédétection pour l'imagerie satellite : Cette stratégie préserve les classes denses et superposées comme les bâtiments et la végétation vus du ciel. Des variantes avancées font l'objet de recherches actives pour améliorer la reconnaissance à longue traîne sur des données fortement déséquilibrées.
Link to this sectionMise en œuvre en pratique#
L'intégration de cette augmentation dans un pipeline d'IA est simple. La plupart des bibliothèques de haut niveau la prennent en charge nativement, comme PyTorch Transforms et Keras Preprocessing Layers.
Lors de l'entraînement d'un modèle comme YOLO26, configurer cette augmentation ne nécessite qu'un seul ajustement de paramètre. Cela gère automatiquement à la fois le patching des images et la logique complexe de découpage des boîtes englobantes.
from ultralytics import YOLO
# Initialize the recommended Ultralytics YOLO26 model
model = YOLO("yolo26n.pt")
# Train the model with CutMix enabled at a 50% probability
results = model.train(data="coco8.yaml", epochs=50, imgsz=640, cutmix=0.5)Pour les équipes gérant des flux de travail de vision à grande échelle, la plateforme Ultralytics simplifie cela en permettant aux utilisateurs de régler ces meilleures pratiques d'augmentation de données directement depuis une interface cloud, rationalisant le chemin de l'annotation au déploiement du modèle.






