CutMix
Entdecke, wie die CutMix-Datenaugmentierungstechnik Overfitting verhindert. Lerne, wie du sie einfach anwendest, um robuste Ultralytics YOLO26-Modelle zu trainieren.
CutMix ist eine fortschrittliche Technik zur Datenaugmentierung, die verwendet wird, um robuste Computer-Vision-Modelle zu trainieren, indem ein rechteckiger Ausschnitt aus einem Bild entnommen und auf ein Zielbild eingefügt wird. Im Gegensatz zu einfacheren Augmentierungen, die lediglich Helligkeit oder Drehung anpassen, verändert CutMix die grundlegende Zusammensetzung eines Trainingsbeispiels. Wenn die Pixel ausgetauscht werden, werden auch die zugehörigen Ground-Truth-Labels proportional zur Fläche des Ausschnitts gemischt. Dies hilft künstlichen neuronalen Netzen, Objekte auch bei teilweiser Sichtbarkeit zu erkennen, und zwingt das Modell dazu, sich auf mehrere Merkmale zu stützen, anstatt sich nur auf die markantesten Teile eines Objekts zu konzentrieren. Erstmalig in einem akademischen Papier von 2019 vorgestellt, ist es zu einer Standardoperation in Deep-Learning-Frameworks geworden, um Overfitting zu verhindern und die Generalisierung über große Datensätze hinweg zu verbessern.
Link to this sectionSo funktioniert die Technik#
Während des Modelltrainings wählt der Algorithmus zufällig eine Mittelkoordinate und eine Boxgröße aus, um einen Bereich aus einem sekundären Bild zu extrahieren. Dieser Ausschnitt wird dann direkt auf ein primäres Bild innerhalb des aktiven Batch gelegt. Wenn das primäre Bild einen Hund und das sekundäre eine Katze enthielt, würde das finale Bild einen Katzen-Ausschnitt zeigen, der einen Teil des Hundes ersetzt. Die Klassifizierungs-Labels werden mittels linearer Interpolation basierend auf der exakten Ausschnittsfläche aktualisiert – zum Beispiel mit einem Label von 0,7 Hund und 0,3 Katze. Bei Aufgaben der Objekterkennung werden Bounding Boxes beibehalten, die mindestens einen bestimmten Prozentsatz (oft 10 %) ihrer ursprünglichen Fläche innerhalb des eingefügten Bereichs behalten. Diese Technik wird nativ als cutmix-Trainings-Hyperparameter in Ultralytics YOLO unterstützt, wodurch Anwender die Wahrscheinlichkeit dieser Transformation einfach definieren können.
Link to this sectionUnterscheidung zwischen MixUp und Cutout#
CutMix ist eng mit zwei anderen bekannten Techniken zur Datenaugmentierung verwandt, löst jedoch deren spezifische Einschränkungen:
- MixUp-Augmentierung: MixUp vermischt zwei Bilder global durch Berechnung eines gewichteten Durchschnitts ihrer Pixelwerte. Obwohl effektiv, führt dies oft zu unnatürlichen, halbtransparenten Geisterbildern, die Modelle verwirren können, indem sie die lokale räumliche Korrelation stören. Im Gegensatz dazu bewahrt CutMix die ursprünglichen Pixelintensitäten innerhalb der ausgeschnittenen Bereiche, was Forscher in Ansätzen wie Attentive CutMix weiter optimiert haben.
- Cutout-Augmentierung: Cutout verwirft Informationen, indem es einen zufälligen rechteckigen Bereich mit schwarzen Pixeln oder dem Mittelwert des Datensatzes maskiert. Während dies das Modell dazu ermutigt, das gesamte Objekt zu betrachten, verschwendet es wertvolle Trainings-Tensoren. CutMix ersetzt diesen fehlenden Raum durch informative Bildklassifizierungs-Ausschnitte aus anderen Bildern, was die gesamte Lerneffizienz erhöht.
Link to this sectionPraxisanwendungen#
Indem Modelle darauf trainiert werden, stark verdeckte Objekte zu erkennen, steigert CutMix die Leistung im Bereich Machine Learning in verschiedenen Branchen erheblich.
- Automotive KI und autonomes Fahren: Bei selbstfahrenden Autos lernt das System, Fußgänger oder Fahrzeuge selbst dann zu identifizieren, wenn sie teilweise durch Verkehrsschilder verdeckt sind, was die Sicherheit in überfüllten Umgebungen erhöht.
- Medizinische Diagnostik und Orgensegmentierung: Im Gesundheitswesen wird diese Methode häufig zur Organ- und Tumor-Segmentierung eingesetzt, wodurch Modelle komplexe Gewebegrenzen auch dann erkennen können, wenn anatomische Strukturen überlappen.
- Fernerkundung für Satellitenbilder: Diese Strategie bewahrt dichte, überlappende Klassen wie Gebäude und Vegetation aus der Vogelperspektive. Fortgeschrittene Varianten werden aktiv erforscht, um die Long-Tailed-Erkennung auf stark unausgewogenen Daten zu verbessern.
Link to this sectionImplementierung in der Praxis#
Die Integration dieser Augmentierung in eine KI-Pipeline ist unkompliziert. Die meisten High-Level-Bibliotheken unterstützen sie nativ, wie zum Beispiel PyTorch Transforms und Keras Preprocessing Layers.
Beim Training eines Modells wie YOLO26 erfordert die Konfiguration dieser Augmentierung nur eine einzige Parameteranpassung. Dies übernimmt automatisch sowohl das Bild-Patching als auch die komplexe Logik für das Clipping der Bounding Box.
from ultralytics import YOLO
# Initialize the recommended Ultralytics YOLO26 model
model = YOLO("yolo26n.pt")
# Train the model with CutMix enabled at a 50% probability
results = model.train(data="coco8.yaml", epochs=50, imgsz=640, cutmix=0.5)Für Teams, die große Vision-Workflows verwalten, vereinfacht die Ultralytics Platform dies, indem Benutzer diese Best Practices zur Datenaugmentierung direkt über eine Cloud-Schnittstelle anpassen können, was den Weg von der Annotation bis zur Modellbereitstellung optimiert.






