Schalten Sie ein zu YOLO Vision 2025!
25. September 2025
10:00 — 18:00 Uhr BST
Hybride Veranstaltung
Yolo Vision 2024

Verwendung von Albumentations-Augmentierungen zur Diversifizierung Ihrer Daten

Abirami Vina

5 Min. Lesezeit

17. Februar 2025

Erfahren Sie, wie Sie Albumentations für Augmentierungen beim benutzerdefinierten Training von Ultralytics YOLO11 verwenden, um die Modellleistung mit diversen Trainingsdaten zu verbessern.

Beim Aufbau einer Computer-Vision-Lösung kann das Sammeln eines vielfältigen Satzes von Bildern zum Trainieren von Vision-KI-Modellen ein entscheidender Teil des Prozesses sein. Es erfordert oft viel Zeit und Geld, und manchmal sind die gesammelten Bilder immer noch nicht vielfältig genug, damit die Modelle effektiv lernen können.

Zum Beispiel können Computer Vision Modelle wie Ultralytics YOLO11 auf Bilddatensätzen für verschiedene Computer Vision Aufgaben im Zusammenhang mit verschiedenen Anwendungen kundenspezifisch trainiert werden. Vielfältige Daten sind der Schlüssel, da sie dem Modell helfen, besser zu generalisieren, so dass es Objekte und Muster in einer Vielzahl von realen Szenarien erkennen kann.

Wenn Sie mit einem Mangel an diversen Daten zu kämpfen haben, können Techniken zur Augmentierung von Bilddaten eine großartige Lösung sein. Methoden wie Drehen, Spiegeln und Anpassen der Helligkeit können dazu beitragen, die Vielfalt Ihres Datensatzes zu erhöhen und die Fähigkeit des Modells zu verbessern, mit einem breiteren Spektrum von Bedingungen umzugehen.

Aus diesem Grund unterstützt Ultralytics eine Integration zur Augmentierung von Bilddaten. Mit Albumentations, einem beliebten Tool, das eine Sammlung von Transformationen bietet, können Sie vielfältige visuelle Daten erstellen. Diese Integration vereinfacht den Trainingsprozess von YOLO11, indem sie Trainingsbilder automatisch erweitert, was zu einer verbesserten Modellleistung führt. 

In diesem Artikel werden wir untersuchen, wie Sie die Albumentations-Integration nutzen können, welche Vorteile sie bietet und welche Auswirkungen sie auf das Modelltraining hat.

Was ist Albumentations?

Computer-Vision-Modelle können aus einer breiten Palette hochwertiger Bilder lernen, um Objekte in verschiedenen Umgebungen zu erkennen. Das Sammeln großer Datensätze aus realen Quellen kann langsam, kostspielig und ineffizient sein. Um diese Aufgabe zu rationalisieren, können Sie Bilddatenaugmentation verwenden, um neue Variationen bestehender Bilder zu erstellen, sodass Modelle aus verschiedenen Szenarien lernen können, ohne mehr Daten zu sammeln.

Insbesondere können Sie Albumentations nutzen, eine Open-Source-Bibliothek, die 2018 für die effiziente Augmentierung von Bilddaten eingeführt wurde. Sie unterstützt eine Vielzahl von Operationen, von einfachen geometrischen Änderungen wie Drehungen und Spiegelungen bis hin zu komplexeren Anpassungen wie Helligkeit, Kontrast und Rauschaddition.

__wf_reserved_inherit
Abb. 1. Beispiele für verschiedene Arten von Bilddatenaugmentierungen.

Hauptmerkmale von Albumentations

Albumentations ist bekannt für seine hohe Leistung, was bedeutet, dass es Bilder schnell und effizient verarbeiten kann. Es basiert auf optimierten Bibliotheken wie OpenCV und NumPy und verarbeitet große Datensätze mit minimaler Verarbeitungszeit, was es ideal für die schnelle Datenerweiterung während des Modelltrainings macht.

Hier sind einige weitere wichtige Funktionen von Albumentations:

  • Breites Spektrum an Transformationen: Albumentations bietet über 70 Arten von Augmentierungen. Diese Variationen helfen Modellen, Objekte trotz Änderungen in Beleuchtung, Winkeln oder Hintergründen zu erkennen.
  • Für Geschwindigkeit optimiert: Es verwendet fortschrittliche Optimierungstechniken wie SIMD (Single Instruction, Multiple Data), die mehrere Datenpunkte gleichzeitig verarbeitet, um die Bildaugmentation zu beschleunigen und große Datensätze effizient zu verarbeiten.
  • Drei Stufen der Augmentierung: Die Daten werden auf drei Arten verbessert. Zum Beispiel passen Augmentierungen auf Pixelebene Helligkeit und Farbe an, ohne Objekte zu verändern. Augmentierungen auf räumlicher Ebene verändern die Objektpositionierung, wobei wichtige Details erhalten bleiben, und Augmentierungen auf Mischungsebene vermischen Teile verschiedener Bilder, um neue Stichproben zu erstellen.

Warum sollten Sie die Albumentations-Integration verwenden?

Sie fragen sich vielleicht: Es gibt viele Möglichkeiten, Augmentierungen auf einen Datensatz anzuwenden, und Sie könnten sogar Ihre eigenen mit Tools wie OpenCV erstellen. Warum also eine Integration wählen, die eine Bibliothek wie Albumentations unterstützt?

Das manuelle Erstellen von Augmentierungen mit Tools wie OpenCV kann viel Zeit in Anspruch nehmen und erfordert einiges an Fachwissen. Es kann auch schwierig sein, die Transformationen so feinabzustimmen, dass die besten Ergebnisse erzielt werden. Die Albumentations-Integration vereinfacht diesen Prozess. Sie bietet viele gebrauchsfertige Transformationen, mit denen Sie Zeit und Mühe bei der Vorbereitung Ihres Datensatzes sparen können.

Ein weiterer Grund für die Wahl der Albumentations-Integration ist, dass sie reibungslos mit der Modelltrainingspipeline von Ultralytics zusammenarbeitet. Sie vereinfacht das benutzerdefinierte Training von YOLO11 erheblich, da die Augmentierungen automatisch während des Trainings angewendet werden. Sie vereinfacht den Prozess, sodass Sie sich mehr auf die Verbesserung Ihres Modells konzentrieren können, anstatt sich mit der Datenaufbereitung zu befassen. 

Erste Schritte mit der Albumentations-Integration

Interessanterweise ist das Trainieren von YOLO11 mit den Albumentations-Integrationen einfacher als es scheint. Sobald die richtigen Bibliotheken eingerichtet sind, wendet die Integration automatisch Bilddaten-Augmentierungen während des Trainings an. Dies hilft dem Modell, aus verschiedenen Bildvariationen mit demselben Datensatz zu lernen.

Gehen wir als Nächstes durch, wie man die Albumentations-Integration bei benutzerdefiniertem Training von YOLO11 installiert und verwendet.

Installation des Ultralytics Python-Pakets und von Albumentations

Vor der Anwendung von Augmentierungen müssen sowohl das Ultralytics Python-Paket als auch Albumentations installiert werden. Die Integration wurde so aufgebaut, dass beide Bibliotheken standardmäßig nahtlos zusammenarbeiten, sodass Sie sich keine Gedanken über komplexe Konfigurationen machen müssen.

Der gesamte Installationsprozess kann in nur wenigen Minuten mit einem einzigen Pip-Befehl abgeschlossen werden. Pip ist ein Paketverwaltungstool zur Installation von Python-Bibliotheken, wie in der Abbildung unten dargestellt. 

__wf_reserved_inherit
Abb. 2. Installation von Ultralytics und Albumentations.

Sobald Albumentations installiert ist, wendet der Ultralytics-Modelltrainingsmodus automatisch Bildaugmentationen während des Trainings an. Wenn Albumentations nicht installiert ist, werden diese Augmentationen nicht angewendet. Weitere Informationen finden Sie in der offiziellen Ultralytics-Dokumentation.

Training von YOLO11 mit Hilfe der Albumentations-Integration

Lassen Sie uns ein besseres Verständnis dafür bekommen, was unter der Haube der Albumentations-Integration vor sich geht. 

Hier ist eine genauere Betrachtung der Augmentierungen, die während des YOLO11-Trainings angewendet werden:

  • Unschärfe: Diese Transformation fügt einem Bild eine leichte Unschärfe hinzu. Sie hilft dem Modell, Objekte auch dann zu erkennen, wenn sie unscharf sind.
  • Median Blur: Es reduziert zufälliges Rauschen und bewahrt gleichzeitig die Objektkanten in einem Bild. Dies erleichtert es dem Modell, Objekte in komplexen Umgebungen zu erkennen.
  • Graustufen: Durch die Konvertierung eines Bildes in Schwarzweiß kann diese Augmentierung dem Modell helfen, sich auf Formen und Texturen anstelle von Farben zu konzentrieren.
  • CLAHE (Contrast Limited Adaptive Histogram Equalization): Diese Augmentierung verstärkt den Kontrast in Bildern, insbesondere in Bereichen, die zu dunkel oder schwer zu erkennen sind, wie z. B. bei schlechten Lichtverhältnissen oder Dunst. Dadurch werden Objekte in diesen Bereichen klarer und für das Modell leichter zu identifizieren.
__wf_reserved_inherit
Abb. 3. Ein Beispiel für eine Graustufen-Augmentierung, die auf ein Katzenbild angewendet wird.

Anwendungen von YOLO11 und der Albumentations-Integration

Wenn Sie YOLO11 für eine bestimmte Anwendung benutzerdefiniert trainieren, kann die Albumentations-Integration dazu beitragen, die Leistung des Modells zu verbessern, indem es sich an verschiedene Bedingungen anpasst. Lassen Sie uns einige reale Anwendungen und die Herausforderungen besprechen, die diese Integration lösen kann.

Verbesserung der medizinischen Bildgebung

Vision AI im Gesundheitswesen hilft Ärzten, medizinische Bilder genauer zu analysieren, um Diagnosen zu unterstützen und die Patientenversorgung zu verbessern. Tatsächlich nutzen bereits etwa ein Fünftel der Gesundheitsorganisationen KI-Lösungen. 

Die Entwicklung dieser Computer-Vision-Lösungen bringt jedoch auch einige Herausforderungen mit sich. Medizinische Scans können zwischen Krankenhäusern stark variieren, was auf Faktoren wie unterschiedliche Geräte, Einstellungen und sogar die Erfahrung der Techniker zurückzuführen ist. Schwankungen in Helligkeit, Kontrast und Belichtung können die Konsistenz und Genauigkeit von Vision-AI-Modellen beeinträchtigen, was es ihnen erschwert, in verschiedenen Umgebungen zuverlässig zu arbeiten.

Hier wird die Integration von Tools wie Albumentations unerlässlich. Durch die Generierung mehrerer augmentierter Versionen desselben Scans ermöglicht Albumentations dem Modell, aus einer Vielzahl von Bildqualitäten zu lernen. Dies trägt dazu bei, dass das Modell robuster wird und Krankheiten sowohl in hoch- als auch in niedrigqualitativen Bildern genau erkennen kann. 

__wf_reserved_inherit
Abb. 4. Erweiterte Röntgenbilder.

Verbesserung der Sicherheit und Überwachung

Eine weitere interessante Anwendung von Vision AI liegt im Bereich Sicherheit und Überwachung. Die Echtzeit-Objekterkennung kann Sicherheitsteams helfen, potenzielle Bedrohungen schnell zu identifizieren. 

Ein Hauptanliegen im Zusammenhang mit dieser Anwendung ist, dass Überwachungskameras den ganzen Tag über Aufnahmen unter verschiedenen Lichtverhältnissen machen, und diese Bedingungen können die Art und Weise, wie ein Modell solche Bilder versteht, dramatisch beeinflussen. Faktoren wie Umgebungen mit wenig Licht, Blendung oder schlechte Sicht können es für Modelle der Computer Vision schwierig machen, Objekte zu erkennen oder potenzielle Bedrohungen konsistent zu erkennen.

Die Albumentations-Integration hilft, indem sie Transformationen anwendet, um unterschiedliche Lichtverhältnisse nachzubilden. Dadurch lernt das Modell, Objekte sowohl in hellen als auch in schwach beleuchteten Umgebungen zu erkennen, was es zuverlässiger macht und die Reaktionszeiten unter schwierigen Bedingungen verbessert.

Neudefinition von Einzelhandels-Workflows und Kundenerlebnissen

Eine verschüttete Flüssigkeit in einem Supermarktg gang, ein Hund, der durch ein Geschäft läuft, oder ein Kind, das eine Produktauslage umwirft, sind nur einige Beispiele für alltägliche Ereignisse, die Grenzfälle für Vision AI im Einzelhandel darstellen können. Computer Vision wird zunehmend eingesetzt, um das Kundenerlebnis zu verbessern, indem das Einkäuferverhalten verfolgt, der Kundenverkehr überwacht und Produkte in den Regalen identifiziert werden. Diese realen Situationen können jedoch für KI-Systeme schwierig zu verstehen und genau zu verarbeiten sein.

Obwohl nicht jedes Szenario in einem Computer-Vision-Datensatz dargestellt werden kann, hilft die Albumentations-Integration, indem sie Daten erweitert, um viele mögliche Situationen abzudecken, wie z. B. unerwartete Beleuchtung, ungewöhnliche Winkel oder Hindernisse. Dies hilft Computer-Vision-Modellen, sich an verschiedene Bedingungen anzupassen, wodurch ihre Fähigkeit verbessert wird, Randfälle zu behandeln und genaue Vorhersagen in dynamischen Einzelhandelsumgebungen zu treffen.

Wesentliche Erkenntnisse

Das Sammeln vielfältiger realer Daten für das Modelltraining kann kompliziert sein, aber Albumentations vereinfacht dies durch die Erstellung von Bildvariationen, die Modellen helfen, sich an unterschiedliche Bedingungen anzupassen. 

Die von Ultralytics unterstützte Albumentations-Integration vereinfacht den Prozess der Anwendung dieser Augmentierungen beim benutzerdefinierten Training von YOLO11. Dies führt zu einer besseren Dataset-Qualität, was einer Vielzahl von Branchen zugute kommt, indem genauere und zuverlässigere Vision AI-Modelle erstellt werden.

Treten Sie unserer Community bei und erkunden Sie unser GitHub-Repository, um mehr über KI zu erfahren, und sehen Sie sich unsere Lizenzoptionen an, um Ihre Vision AI-Projekte zu starten. Interessieren Sie sich für Innovationen wie KI in der Fertigung oder Computer Vision im Bereich des autonomen Fahrens? Besuchen Sie unsere Lösungsseiten, um mehr zu erfahren. 

Lasst uns gemeinsam die Zukunft
der KI gestalten!

Beginnen Sie Ihre Reise mit der Zukunft des maschinellen Lernens

Kostenlos starten
Link in die Zwischenablage kopiert