Verwendung von Albumentations-Ergänzungen zur Diversifizierung Ihrer Daten

Abirami Vina

5 Minuten lesen

17. Februar 2025

Erfahren Sie, wie Sie Albumentations für Erweiterungen beim benutzerdefinierten Training von Ultralytics YOLO11 verwenden können, um die Modellleistung mit verschiedenen Trainingsdaten zu verbessern.

Beim Aufbau einer Computer-Vision-Lösung kann die Sammlung einer Vielzahl von Bildern für das Training von Vision AI-Modellen ein entscheidender Teil des Prozesses sein. Dies erfordert oft viel Zeit und Geld, und manchmal sind die gesammelten Bilder noch nicht vielfältig genug, damit die Modelle effektiv lernen können.

Computer-Vision-Modelle wie Ultralytics YOLO11 können beispielsweise auf Bilddatensätzen für verschiedene Computer-Vision-Aufgaben in unterschiedlichen Anwendungen individuell trainiert werden. Vielfältige Daten sind der Schlüssel, denn sie helfen dem Modell, besser zu verallgemeinern und Objekte und Muster in einer Vielzahl von realen Szenarien zu erkennen.

Wenn Sie mit einem Mangel an unterschiedlichen Daten zu kämpfen haben, können Techniken zur Bilddatenerweiterung eine gute Lösung sein. Methoden wie Drehen, Spiegeln und Anpassen der Helligkeit können dazu beitragen, die Vielfalt Ihres Datensatzes zu erhöhen und die Fähigkeit des Modells zu verbessern, eine größere Bandbreite von Bedingungen zu verarbeiten.

Aus diesem Grund unterstützt Ultralytics eine Integration zur Erweiterung von Bilddaten. Mit Albumentations, einem beliebten Tool, das eine Sammlung von Transformationen bietet, können Sie verschiedene visuelle Daten erstellen. Diese Integration vereinfacht den Trainingsprozess für YOLO11 durch die automatische Erweiterung von Trainingsbildern, was zu einer verbesserten Modellleistung führt. 

In diesem Artikel werden wir untersuchen, wie Sie die Albumentations-Integration nutzen können, welche Vorteile sie bietet und wie sie sich auf die Modellschulung auswirkt.

Was sind Albumentationen?

Computer-Vision-Modelle können aus einem breiten Satz hochwertiger Bilder lernen, um Objekte in verschiedenen Umgebungen zu erkennen. Das Sammeln großer Datensätze aus realen Quellen kann langsam, kostspielig und ineffizient sein. Um diese Aufgabe zu rationalisieren, können Sie mithilfe der Bilddatenerweiterung neue Variationen vorhandener Bilder erstellen, damit die Modelle aus verschiedenen Szenarien lernen können, ohne dass mehr Daten gesammelt werden müssen.

Insbesondere können Sie Albumentations nutzen, eine Open-Source-Bibliothek, die 2018 für die effiziente Erweiterung von Bilddaten eingeführt wurde. Sie unterstützt eine Vielzahl von Operationen, von einfachen geometrischen Änderungen wie Drehungen und Spiegelungen bis hin zu komplexeren Anpassungen wie Helligkeit, Kontrast und Rauschaddition.

__wf_reserved_inherit
Abb. 1. Beispiele für verschiedene Arten der Bilddatenanreicherung.

Hauptmerkmale von Albumentations

Albumentations ist für seine hohe Leistung bekannt, was bedeutet, dass es Bilder schnell und effizient verarbeiten kann. Es basiert auf optimierten Bibliotheken wie OpenCV und NumPy und verarbeitet große Datensätze mit minimaler Verarbeitungszeit, was es ideal für eine schnelle Datenerweiterung während des Modelltrainings macht.

Hier sind einige weitere wichtige Merkmale von Albumentations:

  • Große Auswahl an Transformationen: Albumentations bietet über 70 Arten von Augmentierungen. Diese Variationen helfen den Modellen zu lernen, Objekte trotz veränderter Beleuchtung, Winkel oder Hintergründe zu erkennen.
  • Optimiert für Geschwindigkeit: Es werden fortschrittliche Optimierungstechniken wie SIMD (Single Instruction, Multiple Data) verwendet, die mehrere Datenpunkte auf einmal verarbeiten, um die Bildvergrößerung zu beschleunigen und große Datensätze effizient zu verarbeiten.
  • Drei Ebenen von Erweiterungen: Die Daten werden auf drei Arten verbessert. So werden beispielsweise auf Pixelebene Helligkeit und Farbe angepasst, ohne die Objekte zu verändern. Bei räumlichen Erweiterungen wird die Positionierung von Objekten geändert, während wichtige Details erhalten bleiben, und bei Mischungen werden Teile verschiedener Bilder miteinander vermischt, um neue Muster zu erstellen.

Warum sollten Sie die Albumentations-Integration nutzen?

Sie fragen sich vielleicht: Es gibt viele Möglichkeiten, Augmentierungen auf einen Datensatz anzuwenden, und Sie könnten sogar Ihre eigenen mit Tools wie OpenCV erstellen. Warum also eine Integration wählen, die eine Bibliothek wie Albumentations unterstützt?

Die manuelle Erstellung von Augmentierungen mit Tools wie OpenCV kann viel Zeit in Anspruch nehmen und erfordert einiges an Fachwissen. Es kann auch schwierig sein, die Transformationen fein abzustimmen, um die besten Ergebnisse zu erzielen. Die Albumentations-Integration macht diesen Prozess einfacher. Sie bietet viele gebrauchsfertige Transformationen, mit denen Sie bei der Vorbereitung Ihres Datensatzes Zeit und Mühe sparen können.

Ein weiterer Grund, sich für die Albumentations-Integration zu entscheiden, ist die reibungslose Zusammenarbeit mit der Ultralytics-Modelltrainings-Pipeline. Sie macht es viel einfacher, YOLO11 individuell zu trainieren, da die Erweiterungen während des Trainings automatisch angewendet werden. Dies vereinfacht den Prozess, so dass Sie sich mehr auf die Verbesserung Ihres Modells als auf die Datenvorbereitung konzentrieren können. 

Erste Schritte mit der Albumentations-Integration

Interessanterweise ist die Verwendung der Albumentations-Integrationen für das Training von YOLO11 unkomplizierter als es scheint. Sobald die richtigen Bibliotheken eingerichtet sind, wendet die Integration beim Training automatisch Bilddatenerweiterungen an. So kann das Modell aus verschiedenen Bildvarianten mit demselben Datensatz lernen.

Als Nächstes möchten wir Ihnen zeigen, wie Sie die Albumentations-Integration installieren und nutzen können, wenn Sie YOLO11 individuell trainieren.

Installation des Ultralytics-Python-Pakets und von Albumentations

Vor der Anwendung von Erweiterungen müssen sowohl das Ultralytics Python-Paket als auch Albumentations installiert werden. Die Integration wurde so konzipiert, dass beide Bibliotheken standardmäßig nahtlos zusammenarbeiten, so dass Sie sich nicht um komplexe Konfigurationen kümmern müssen.

Der gesamte Installationsvorgang kann mit einem einzigen pip-Befehl in wenigen Minuten abgeschlossen werden. pip ist ein Paketverwaltungsprogramm für die Installation von Python-Bibliotheken, wie in der Abbildung unten dargestellt. 

__wf_reserved_inherit
Abb. 2. Installation von Ultralytics und Albumentationen.

Sobald Albumentations installiert ist, wendet der Ultralytics-Modelltrainingsmodus während des Trainings automatisch Bildvergrößerungen an. Wenn Albumentations nicht installiert ist, werden diese Erweiterungen nicht angewendet. Weitere Einzelheiten finden Sie in der offiziellen Ultralytics-Dokumentation.

Ausbildung YOLO11 mit Hilfe der Albumentations-Integration

Verschaffen wir uns einen besseren Überblick darüber, was unter der Haube der Albumentations-Integration passiert. 

Hier ein genauerer Blick auf die Erweiterungen, die während der YOLO11-Ausbildung eingesetzt werden:

  • Unschärfe: Diese Transformation fügt dem Bild eine leichte Unschärfe hinzu. Sie hilft dem Modell, Objekte zu erkennen, auch wenn sie unscharf sind.
  • Mediane Unschärfe: Sie reduziert zufälliges Rauschen und erhält gleichzeitig die Objektkanten in einem Bild. Dies erleichtert es dem Modell, Objekte in komplexen Umgebungen zu erkennen.
  • Graustufen: Durch die Umwandlung eines Bildes in Schwarz-Weiß kann diese Erweiterung dem Modell helfen, sich auf Formen und Texturen statt auf Farben zu konzentrieren.
  • CLAHE (Contrast limited adaptive histogram equalization): Diese Erweiterung verstärkt den Kontrast in Bildern, insbesondere in Bereichen, die zu dunkel oder schwer zu erkennen sind, wie z. B. bei schlechten Lichtverhältnissen oder Dunst. Dadurch werden die Objekte in diesen Bereichen klarer und sind für das Modell leichter zu erkennen.
__wf_reserved_inherit
Abb. 3. Ein Beispiel für eine Graustufenerweiterung, die auf das Bild einer Katze angewendet wurde.

Anwendungen von YOLO11 und der Integration von Albumentations

Wenn Sie YOLO11 für eine bestimmte Anwendung trainieren, kann die Albumentations-Integration dazu beitragen, die Leistung des Modells zu verbessern, indem es sich an verschiedene Bedingungen anpasst. Lassen Sie uns einige reale Anwendungen und die Herausforderungen diskutieren, die diese Integration lösen kann.

Verbesserung der medizinischen Bildgebung

Vision AI im Gesundheitswesen hilft Ärzten, medizinische Bilder genauer zu analysieren, um Diagnosen zu stellen und die Patientenversorgung zu verbessern. Rund ein Fünftel der Gesundheitsorganisationen setzt bereits KI-Lösungen ein. 

Die Erstellung dieser Computer-Vision-Lösungen bringt jedoch eine Reihe von Herausforderungen mit sich. Medizinische Scans können von Krankenhaus zu Krankenhaus sehr unterschiedlich ausfallen, beeinflusst durch Faktoren wie unterschiedliche Geräte, Einstellungen und sogar die Erfahrung der Techniker. Schwankungen bei Helligkeit, Kontrast und Belichtung können die Konsistenz und Genauigkeit von Vision AI-Modellen beeinträchtigen, sodass es für sie schwierig ist, in verschiedenen Umgebungen zuverlässig zu arbeiten.

An dieser Stelle wird die Integration von Tools wie Albumentations unerlässlich. Durch die Erstellung mehrerer erweiterter Versionen desselben Scans ermöglicht Albumentations dem Modell, aus einer Vielzahl von Bildqualitäten zu lernen. Dadurch wird das Modell robuster und kann Krankheiten sowohl auf Bildern mit hoher als auch mit niedriger Qualität genau erkennen. 

__wf_reserved_inherit
Abb. 4. Erweitertes Röntgenbild.

Verbesserung der Sicherheit und Überwachung

Eine weitere interessante Anwendung von Vision AI ist der Bereich Sicherheit und Überwachung. Die Objekterkennung in Echtzeit kann Sicherheitsteams helfen, potenzielle Bedrohungen schnell zu erkennen. 

Ein Hauptproblem bei dieser Anwendung besteht darin, dass Sicherheitskameras den ganzen Tag über Aufnahmen unter verschiedenen Lichtverhältnissen machen, die sich erheblich darauf auswirken können, wie ein Modell solche Bilder versteht. Faktoren wie schlechte Lichtverhältnisse, Blendung oder schlechte Sicht können es für Computer-Vision-Modelle schwierig machen, Objekte zu erkennen oder potenzielle Bedrohungen konsistent zu erkennen.

Die Albumentations-Integration hilft durch die Anwendung von Transformationen, um unterschiedliche Lichtverhältnisse zu imitieren. So kann das Modell lernen, Objekte sowohl in hellen als auch in schwach beleuchteten Umgebungen zu erkennen. Das macht es zuverlässiger und verbessert die Reaktionszeiten unter schwierigen Bedingungen.

Neudefinition der Arbeitsabläufe im Einzelhandel und des Kundenerlebnisses

Ein verschüttetes Getränk im Supermarkt, ein Hund, der durch den Laden rennt, oder ein Kind, das eine Produktauslage umstößt, sind nur einige Beispiele für alltägliche Ereignisse, die sich für Vision AI in Einzelhandelsumgebungen anbieten. Computervision wird zunehmend eingesetzt, um das Kundenerlebnis zu verbessern, indem das Verhalten der Kunden verfolgt, der Fußgängerverkehr überwacht und die Produkte in den Regalen identifiziert werden. Diese realen Situationen können jedoch für KI-Systeme schwierig zu verstehen und genau zu verarbeiten sein.

Auch wenn nicht jedes Szenario in einem Bildverarbeitungsdatensatz dargestellt werden kann, hilft die Albumentations-Integration, indem sie die Daten so erweitert, dass viele mögliche Situationen abgedeckt werden, z. B. unerwartete Beleuchtung, ungewöhnliche Winkel oder Hindernisse. Dies hilft den Bildverarbeitungsmodellen, sich an verschiedene Bedingungen anzupassen, und verbessert ihre Fähigkeit, Grenzfälle zu behandeln und genaue Vorhersagen in dynamischen Einzelhandelsumgebungen zu treffen.

Die wichtigsten Erkenntnisse

Das Sammeln von verschiedenen realen Daten für das Modelltraining kann kompliziert sein, aber Albumentations macht es einfacher, indem es Bildvariationen erstellt, die den Modellen helfen, sich an verschiedene Bedingungen anzupassen. 

Die von Ultralytics unterstützte Albumentations-Integration vereinfacht den Prozess der Anwendung dieser Erweiterungen beim individuellen Training von YOLO11. Dies führt zu einer besseren Datensatzqualität, die einer Vielzahl von Branchen zugutekommt, indem sie genauere und zuverlässigere Vision-KI-Modelle erzeugt.

Treten Sie unserer Community bei und erkunden Sie unser GitHub-Repository, um mehr über KI zu erfahren, und informieren Sie sich über unsere Lizenzierungsoptionen, um Ihre Vision-KI-Projekte in Gang zu bringen. Interessieren Sie sich für Innovationen wie KI in der Fertigung oder Computer Vision beim selbstfahrenden Auto? Besuchen Sie unsere Lösungsseiten, um mehr zu erfahren. 

Lassen Sie uns gemeinsam die Zukunft
der KI gestalten!

Beginnen Sie Ihre Reise in die Zukunft des maschinellen Lernens

Kostenloser Start
Link in die Zwischenablage kopiert