Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten
Glossar

Datenerweiterung

Verbessern Sie Ihre Modelle für maschinelles Lernen mit Datenerweiterung. Entdecken Sie Techniken, um die Genauigkeit zu erhöhen, Overfitting zu reduzieren und die Robustheit zu verbessern.

Die Datenerweiterung ist eine strategische Technik in maschinellen Lernens (ML) die dazu dient Größe und Vielfalt einer Datenbank künstlich zu erweitern Trainingsdatensatzes ohne die Notwendigkeit neue Rohdaten zu sammeln. Durch die Anwendung verschiedener Transformationen auf bestehende Datenmuster können Entwickler modifizierte und realistische Versionen von Bildern, Text oder Audio erstellen. Dieser Prozess ist entscheidend für die Reduzierung Überanpassungein häufiges Problem, bei dem sich ein Modell die Trainingsbeispiele merkt, anstatt verallgemeinerbare Muster zu lernen. Letztendlich führt eine effektive Augmentation zu höheren Genauigkeit und stellt sicher, dass das Modell robuste Leistungen erbringt, wenn es ungesehenen Daten in realen Umgebungen ausgesetzt wird.

Kerntechniken und -methoden

Auf dem Gebiet der Computer Vision (CV)umfasst die Augmentierung die Manipulation von Eingabebildern, um verschiedene Bedingungen zu simulieren. Diese Transformationen helfen dem Modell gegenüber Änderungen der Ausrichtung, der Beleuchtung und des Maßstabs unveränderlich zu machen.

  • Geometrische Transformationen: Diese verändern die räumliche Anordnung eines Bildes. Zu den üblichen Operationen gehören zufälliges Drehen, horizontales Spiegeln, Beschneiden und Skalieren. Zum Beispiel kann man mit OpenCV geometrische Transformationen ermöglicht es einem Modell, ein Objekt unabhängig davon zu erkennen, ob es auf dem Kopf steht oder gekippt ist.
  • Photometrische Transformationen: Diese passen die Pixelwerte an, um das visuelle Erscheinungsbild zu verändern, ohne ohne die Geometrie zu verändern. Anpassen von Helligkeit, Kontrast, Sättigung und Hinzufügen von Gaußsches Rauschen hilft dem Modell, mit unterschiedliche Lichtverhältnisse.
  • Fortgeschrittenes Mischen: Modern Objekterkennung Frameworks verwenden oft komplexe Techniken wie Mosaik, MixUp und CutMix. Diese Methoden kombinieren mehrere Bilder zu einem einzigen Trainingsbeispiel, wodurch das Modell kontextuelle Beziehungen erlernen kann. Sie können erforschen, wie man diese Methoden implementiert über die Ultralytics Albumentations Integration.

Anwendungsfälle in der Praxis

Die Datenerweiterung ist in Branchen, in denen hochwertige Daten knapp oder teuer zu beschaffen sind, unerlässlich.

  1. Medizinische Bildgebung: Unter medizinischen Bildanalyseschränken Datenschutzgesetze und die Seltenheit bestimmter Erkrankungen den Umfang der Datensätze ein. Durch Anreicherung von Röntgenbildern oder MRT-Scans mit Drehungen und elastischen Verformungen können Forscher robuste Modelle für TumorerkennungDadurch wird sichergestellt, dass die KI Anomalien unabhängig von der Positionierung des Patienten oder der Kalibrierung der Maschine erkennen kann.
  2. Autonomes Fahren: Selbstfahrende Autos müssen sich in unvorhersehbaren Umgebungen zurechtfinden. Das Sammeln von Daten für Wetterbedingungen zu sammeln, ist unmöglich. Ingenieure simulieren mit Hilfe von Augmentierungen Regen, Nebel oder schlechte Szenarien bei klarem Wetter zu simulieren. Dies dient der Vorbereitung autonome Fahrzeuge zu reagieren bei schlechtem Wetter sicher zu reagieren, was die Sicherheitsstandards, die von Organisationen wie der NHTSA.

Implementierung von Erweiterungen in Ultralytics YOLO

Die ultralytics Bibliothek vereinfacht die Anwendung von Augmentierungen direkt in der Modelltraining Rohrleitung. Sie können die Hyperparameter anpassen, um die Intensität und Wahrscheinlichkeit von Transformationen zu steuern.

from ultralytics import YOLO

# Load the YOLO11 model
model = YOLO("yolo11n.pt")

# Train the model with custom data augmentation parameters
# These arguments modify the training data on-the-fly
model.train(
    data="coco8.yaml",
    epochs=5,
    degrees=30.0,  # Apply random rotations between -30 and +30 degrees
    fliplr=0.5,  # 50% probability of flipping images horizontally
    mosaic=1.0,  # Use Mosaic augmentation (combining 4 images)
    mixup=0.1,  # Apply MixUp augmentation with 10% probability
)

Unterscheidung von verwandten Konzepten

Es ist wichtig, die Datenerweiterung von ähnlichen Datenstrategien zu unterscheiden:

  • vs. Synthetische Daten: Bei der Augmentation werden vorhandene reale Daten verändert, synthetische Daten erzeugt Computersimulationen oder synthetischen Daten von Grund auf generativer KI. Die Erweiterung fügt dem, was man hat, Vielfalt hinzu; synthetische Daten schaffen, was man nicht hat.
  • vs. Datenvorverarbeitung: Die Datenvorverarbeitung umfasst Bereinigung und Formatierung von Daten (z. B. Größenänderung, Normalisierung), um sie für ein Modell geeignet zu machen. Die Erweiterung erfolgt nach der Vorverarbeitung und konzentriert sich eher auf die Erweiterung der Vielfalt des Datensatzes als auf sein Format.
  • vs. Transfer Learning: Transfer-Lernen nutzt Wissen aus einem zuvor trainierten Modell (z. B. trainiert auf ImageNet), um eine neue Aufgabe zu lösen. Obwohl häufig zusammen verwendet, bezieht sich das Transfer-Lernen auf die Modellgewichte, während die Augmentation sich auf die Eingabedaten bezieht.

Einen tieferen Einblick in moderne Augmentierungsbibliotheken bietet die Albumentations-Dokumentation eine umfangreiche Liste der verfügbaren Transformationen, die mit PyTorch und YOLO11 kompatibel sind.

Werden Sie Mitglied der Ultralytics

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten