Glossar

Überanpassung

Lernen Sie, wie Sie Overfitting beim maschinellen Lernen erkennen, verhindern und beheben können. Entdecken Sie Techniken zur Verbesserung der Modellgeneralisierung und der Leistung in der Praxis.

Überanpassung beim maschinellen Lernen (ML) tritt auf, wenn ein Modell die Trainingsdaten zu gut lernt und Rauschen und zufällige Fluktuationen anstelle des zugrunde liegenden Musters erfasst. Dies führt zu einer ausgezeichneten Leistung im Trainingsdatensatz, aber zu einer schlechten Verallgemeinerung auf neue, ungesehene Daten. Im Grunde genommen wird das Modell zu komplex und speziell auf die Trainingsbeispiele zugeschnitten, so als ob man Antworten auswendig lernen würde, anstatt Konzepte zu verstehen. Dies ist eine häufige Herausforderung beim Training von KI-Modellen, insbesondere bei komplexen Algorithmen wie den neuronalen Netzen, die in Ultralytics YOLO für Aufgaben wie Objekterkennung und Bildsegmentierung verwendet werden.

Verstehen von Overfitting

Eine Überanpassung entsteht, weil ML-Modelle darauf abzielen, Fehler in den Trainingsdaten zu minimieren. Wenn ein Modell übermäßig komplex ist (z. B. zu viele Parameter oder Schichten in einem Deep-Learning-Modell ), kann es sich sogar dem zufälligen Rauschen in den Trainingsdaten anpassen. Dieses Rauschen repräsentiert nicht die wahren zugrundeliegenden Muster und es ist unwahrscheinlich, dass es in neuen Datensätzen vorhanden ist. Stellen Sie sich vor, Sie schneidern einen Anzug perfekt auf die exakten Maße einer Person an einem bestimmten Tag zu - wenn das Gewicht leicht schwankt oder wenn jemand anderes den Anzug anprobiert, passt er möglicherweise nicht mehr. Bei ML führt diese "perfekte Passform" bei Trainingsdaten zu Unflexibilität und schlechter Leistung bei realen Daten, was oft als schlechte Generalisierung bezeichnet wird.

Das gegenteilige Problem ist die Unteranpassung, bei der ein Modell zu einfach ist, um die zugrunde liegende Struktur der Daten zu erfassen. Ein unzureichend angepasstes Modell schneidet sowohl bei den Trainingsdaten als auch bei den neuen Daten schlecht ab, weil es nicht genug gelernt hat. Ziel ist es, ein optimales Gleichgewicht zu finden, das oft im Zusammenhang mit dem Kompromiss zwischen Verzerrung und Varianz diskutiert wird, um ein Modell zu schaffen, das sich gut auf ungesehene Daten verallgemeinern lässt. Eine hohe Varianz ist charakteristisch für eine Überanpassung, während eine hohe Verzerrung charakteristisch für eine Unteranpassung ist. Das Verständnis dieses Kompromisskonzepts ist für die Modellentwicklung von entscheidender Bedeutung.

Beispiele für Überanpassung in der realen Welt

  • Medizinische Bildanalyse: Nehmen wir ein Modell, das für die medizinische Bildanalyse trainiert wurde, z. B. für die Erkennung von Tumoren in MRT-Scans. Wenn die Trainingsdaten hauptsächlich von einem einzigen MRT-Scannermodell stammen, könnte sich die KI zu sehr an die spezifischen Bildmerkmale (wie Rauschmuster oder Auflösung) dieses Geräts anpassen. Werden ihr Scans von einem anderen Scanner oder Bilder von geringerer Qualität vorgelegt, kann sich ihre Leistung erheblich verschlechtern, da sie eher maschinenspezifische Artefakte als allgemeine Tumormerkmale gelernt hat. Die Verzerrung des Datensatzes kann dieses Problem noch verschärfen.
  • Autonome Fahrzeuge: Ein in einem autonomen Fahrzeug verwendetes Objekterkennungsmodell könnte stark auf Bilder trainiert sein, die bei klarem, sonnigem Wetter aufgenommen wurden. Dieses Modell könnte bei ähnlichen Testdaten eine hohe Genauigkeit erreichen, aber Fußgänger, Radfahrer oder andere Fahrzeuge bei ungünstigen Bedingungen wie starkem Regen, Nebel oder bei Nacht nicht zuverlässig erkennen. Es passt sich zu sehr an die spezifischen visuellen Hinweise der Trainingsumgebung an (z. B. harte Schatten, helle Beleuchtung), anstatt die robusten, allgemeinen Merkmale von Objekten unter verschiedenen Bedingungen zu lernen. Die Sicherstellung vielfältiger Trainingsdaten, möglicherweise unter Verwendung von Datensätzen wie COCO oder Argoverse, trägt dazu bei, dies zu mildern.

Identifizierung von Überanpassungen

Eine Überanpassung wird in der Regel durch den Vergleich der Leistung eines Modells auf dem Trainingsdatensatz mit einem separaten Validierungsdatensatz festgestellt.

  • Leistungsmetriken: Überwachen Sie Metriken wie Genauigkeit, Präzision, Wiedererkennung und F1-Score. Wenn sich die Trainingsmetriken weiter verbessern, während die Validierungsmetriken stagnieren oder sich verschlechtern, ist das Modell wahrscheinlich überangepasst. Der Wert der Verlustfunktion nimmt in der Regel in der Trainingsmenge deutlich ab, während er in der Validierungsmenge steigt oder stagniert. Sie können verschiedene YOLO-Leistungsmetriken für die Bewertung untersuchen.
  • Lernkurven: Die Darstellung der Leistung des Modells (z. B. Verlust oder Genauigkeit) über Epochen für Trainings- und Validierungssätze bietet einen visuellen Einblick. Eine wachsende Kluft zwischen der Trainingskurve (Verbesserung) und der Validierungskurve (Stagnation oder Verschlechterung) ist ein klassisches Anzeichen für Overfitting. Die Visualisierung von Lernkurven hilft, dies zu diagnostizieren.

Verhinderung von Überanpassung

Verschiedene Techniken können dazu beitragen, die Überanpassung zu verringern und die Modellgeneralisierung zu verbessern:

  • Kreuzvalidierung: Techniken wie die K-Fold-Kreuzvalidierung verwenden unterschiedliche Teilmengen der Daten zum Training und zur Validierung, was eine robustere Schätzung der Modellleistung bei ungesehenen Daten ermöglicht.
  • Datenerweiterung: Künstliche Vergrößerung der Größe und Vielfalt des Trainingsdatensatzes durch Anwendung von Transformationen wie Drehen, Skalieren, Zuschneiden und Farbverschiebungen. Ultralytics YOLO Datenerweiterungstechniken sind eingebaut, um die Robustheit zu verbessern.
  • Regularisierung: Hinzufügen von Strafen zur Verlustfunktion auf der Grundlage der Modellkomplexität (z. B. der Größe der Gewichte). Zu den gängigen Methoden gehören die L1- und L2-Regularisierung, die von großen Gewichten abhalten. Lesen Sie mehr über L1- und L2-Regularisierungsmethoden.
  • Frühzeitiges Anhalten: Überwachung der Leistung des Modells auf dem Validierungsdatensatz während des Trainings und Anhalten des Trainingsprozesses, wenn sich die Validierungsleistung zu verschlechtern beginnt, um zu verhindern, dass das Modell in späteren Epochen Rauschen lernt. Siehe eine Erläuterung zum frühen Stoppen in Keras.
  • Aussteiger: Zufälliges Setzen eines Teils der Neuronenaktivierungen auf Null während des Trainings. Dadurch wird das Netz gezwungen, robustere Merkmale zu lernen, die nicht von einem einzelnen Neuron abhängig sind. Das Dropout-Konzept wird hier im Detail erklärt.
  • Modell Beschneiden: Entfernen von weniger wichtigen Parametern oder Verbindungen innerhalb eines trainierten neuronalen Netzwerks, um dessen Komplexität zu reduzieren, ohne die Leistung wesentlich zu beeinträchtigen. Neural Magic bietet Tools für das Pruning.
  • Vereinfachung der Modellarchitektur: Die Verwendung eines weniger komplexen Modells (z. B. weniger Schichten oder Parameter) kann eine Überanpassung verhindern, insbesondere wenn der Datensatz klein ist. Dazu könnte die Wahl einer kleineren Modellvariante gehören, wie der Vergleich von YOLOv8n mit YOLOv8x.
  • Mehr Daten erhalten: Die Vergrößerung der Menge an hochwertigen Trainingsdaten ist oft eine der effektivsten Möglichkeiten, die Generalisierung zu verbessern und die Überanpassung zu reduzieren. Erforschen Sie verschiedene Ultralytics-Datensätze.

Indem sie das Overfitting verstehen und angehen, können Entwickler zuverlässigere und effektivere KI-Modelle erstellen. Tools wie Ultralytics HUB können bei der Verfolgung von Experimenten und der Modellbewertung helfen und so die Erkennung und Eindämmung von Overfitting während des Lebenszyklus der Modellentwicklung unterstützen.

Werden Sie Mitglied der Ultralytics-Gemeinschaft

Beteiligen Sie sich an der Zukunft der KI. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten
Link in die Zwischenablage kopiert