Indem Sie auf „Alle Cookies akzeptieren“ klicken, stimmen Sie der Speicherung von Cookies auf Ihrem Gerät zu, um die Website-Navigation zu verbessern, die Website-Nutzung zu analysieren und unsere Marketingbemühungen zu unterstützen. Mehr Infos
Cookie-Einstellungen
Indem Sie auf „Alle Cookies akzeptieren“ klicken, stimmen Sie der Speicherung von Cookies auf Ihrem Gerät zu, um die Website-Navigation zu verbessern, die Website-Nutzung zu analysieren und unsere Marketingbemühungen zu unterstützen. Mehr Infos
Entdecken Sie, warum Pruning und Quantisierung unerlässlich sind, um Computer Vision Modelle zu optimieren und eine schnellere Leistung auf Edge-Geräten zu ermöglichen.
Edge-Geräte werden mit fortschreitender Technologie immer häufiger. Von Smartwatches, die Ihre Herzfrequenz messen, bis hin zu Flugdrohnen, die Straßen überwachen, können Edge-Systeme Daten in Echtzeit lokal innerhalb des Geräts selbst verarbeiten.
Diese Methode ist oft schneller und sicherer als das Senden von Daten in die Cloud, insbesondere bei Anwendungen, die persönliche Daten beinhalten, wie z. B. die Erkennung von Nummernschildern oder die Verfolgung von Gesten. Dies sind Beispiele für Computer Vision, einem Zweig der künstlichen Intelligenz (KI), der es Maschinen ermöglicht, visuelle Informationen zu interpretieren und zu verstehen.
Abb. 1. Ein Beispiel für die Erkennung von Nummernschildern. (Quelle)
Eine wichtige Überlegung ist jedoch, dass solche Anwendungen Vision-AI-Modelle erfordern, die in der Lage sind, rechenintensive Aufgaben mit minimalen Ressourcen zu bewältigen und unabhängig zu arbeiten. Die meisten Computer Vision Modelle werden für Hochleistungssysteme entwickelt, wodurch sie weniger für den direkten Einsatz auf Edge-Geräten geeignet sind.
Um diese Lücke zu schließen, wenden Entwickler häufig gezielte Optimierungen an, die das Modell so anpassen, dass es effizient auf kleinerer Hardware läuft. Diese Anpassungen sind entscheidend für reale Edge-Bereitstellungen, bei denen Speicher und Rechenleistung begrenzt sind.
Interessanterweise sind Computer-Vision-Modelle wie Ultralytics YOLO11 bereits auf Edge-Effizienz ausgelegt, was sie ideal für Echtzeitaufgaben macht. Ihre Leistung kann jedoch durch Modelloptimierungstechniken wie Pruning und Quantisierung weiter verbessert werden, was eine noch schnellere Inferenz und einen geringeren Ressourcenverbrauch auf eingeschränkten Geräten ermöglicht.
In diesem Artikel werden wir uns genauer ansehen, was Pruning und Quantisierung sind, wie sie funktionieren und wie sie YOLO-Modellen helfen können, in realen Edge-Bereitstellungen Leistung zu erbringen. Los geht's!
Pruning und Quantisierung: Kerntechniken der Modelloptimierung
Bei der Vorbereitung von Vision-KI-Modellen für den Einsatz auf Edge-Geräten ist eines der Hauptziele, das Modell leichtgewichtig und zuverlässig zu machen, ohne die Leistung zu beeinträchtigen. Dies beinhaltet oft die Reduzierung der Größe und des Rechenaufwands des Modells, damit es effizient auf Hardware mit begrenztem Speicher, Strom oder Verarbeitungskapazität arbeiten kann. Zwei gängige Methoden hierfür sind Pruning und Quantisierung.
Pruning ist eine KI-Modelloptimierungstechnik, die dazu beiträgt, neuronale Netze kleiner und effizienter zu machen. In vielen Fällen tragen Teile eines Modells, wie z. B. bestimmte Verbindungen oder Knoten, nicht wesentlich zu seinen endgültigen Vorhersagen bei. Pruning funktioniert, indem es diese weniger wichtigen Teile identifiziert und entfernt, was die Größe des Modells reduziert und seine Leistung beschleunigt.
Andererseits ist die Quantisierung eine Optimierungstechnik, die die Präzision der von einem Modell verwendeten Zahlen reduziert. Anstatt sich auf hochpräzise 32-Bit-Gleitkommazahlen zu verlassen, wechselt das Modell zu kleineren, effizienteren Formaten wie 8-Bit-Integer. Diese Änderung trägt dazu bei, den Speicherverbrauch zu senken und die Inferenz, den Prozess, bei dem das Modell Vorhersagen trifft, zu beschleunigen.
Abb. 2. Ein Blick auf Pruning und Quantisierung. (Quelle)
Wie Pruning und Quantisierung funktionieren
Nachdem wir nun ein besseres Verständnis davon haben, was Pruning und Quantisierung sind, wollen wir uns ansehen, wie beides funktioniert.
Das Pruning erfolgt mithilfe eines Prozesses, der als Sensitivitätsanalyse bekannt ist. Dabei wird ermittelt, welche Teile der neuronalen Netzwerkmodelle, wie z. B. bestimmte Gewichte, Neuronen oder Kanäle, am wenigsten zur endgültigen Ausgabevorhersage beitragen. Diese Teile können mit minimalen Auswirkungen auf die Genauigkeit entfernt werden. Nach dem Pruning wird das Modell in der Regel erneut trainiert, um seine Leistung feinabzustimmen. Dieser Zyklus kann wiederholt werden, um das richtige Gleichgewicht zwischen seiner Größe und Genauigkeit zu finden.
Unterdessen konzentriert sich die Modellquantisierung darauf, wie das Modell Daten verarbeitet. Sie beginnt mit der Kalibrierung, bei der das Modell mit Beispieldaten ausgeführt wird, um den Wertebereich zu erlernen, den es verarbeiten muss. Diese Werte werden dann von 32-Bit-Gleitkommazahlen in Formate mit niedrigerer Präzision wie 8-Bit-Ganzzahlen konvertiert.
Abb. 3. Quantisierung hilft, die Modellgröße und -komplexität zu reduzieren. (Quelle)
Es gibt verschiedene Tools, die die Verwendung von Pruning und Quantisierung in realen KI-Projekten erleichtern. Die meisten KI-Frameworks, wie PyTorch und TensorFlow, bieten integrierte Unterstützung für diese Optimierungstechniken, sodass Entwickler sie direkt in den Modellbereitstellungsprozess integrieren können.
Sobald ein Modell optimiert ist, können Tools wie ONNX Runtime helfen, es effizient auf verschiedenen Hardwareplattformen wie Servern, Desktops und Edge-Geräten auszuführen. Ultralytics bietet auch Integrationen, die es ermöglichen, YOLO-Modelle in Formaten zu exportieren, die für die Quantisierung geeignet sind, was es einfacher macht, die Modellgröße zu reduzieren und die Leistung zu steigern.
Ein Überblick über die Optimierung von Ultralytics YOLO-Modellen
Ultralytics YOLO-Modelle wie YOLO11 sind weithin für ihre schnelle, einstufige Objekterkennung bekannt, was sie ideal für Vision-KI-Aufgaben in Echtzeit macht. Sie sind bereits so konzipiert, dass sie leicht und effizient genug für die Edge-Bereitstellung sind. Die Schichten, die für die Verarbeitung visueller Merkmale verantwortlich sind, sogenannte Convolutional Layers, können jedoch während der Inferenz immer noch eine beträchtliche Rechenleistung beanspruchen.
Sie fragen sich vielleicht: Wenn YOLO11 bereits für den Edge-Einsatz optimiert ist, warum muss es dann noch weiter optimiert werden? Einfach ausgedrückt: Nicht alle Edge-Geräte sind gleich. Einige laufen auf sehr minimaler Hardware, wie z. B. winzigen eingebetteten Prozessoren, die weniger Strom verbrauchen als eine Standard-LED-Glühbirne.
In diesen Fällen benötigt selbst ein optimiertes Modell wie YOLO11 zusätzliche Optimierung, um eine reibungslose, zuverlässige Leistung zu gewährleisten. Techniken wie Pruning und Quantisierung helfen, die Größe des Modells zu reduzieren und die Inferenz zu beschleunigen, ohne die Genauigkeit wesentlich zu beeinträchtigen, was sie ideal für solche eingeschränkten Umgebungen macht.
Um die Anwendung dieser Optimierungstechniken zu vereinfachen, unterstützt Ultralytics verschiedene Integrationen, mit denen YOLO-Modelle in verschiedene Formate wie ONNX, TensorRT, OpenVINO, CoreML und PaddlePaddle exportiert werden können. Jedes Format ist so konzipiert, dass es gut mit bestimmten Hardwaretypen und Bereitstellungsumgebungen funktioniert.
Beispielsweise wird ONNX aufgrund seiner Kompatibilität mit einer Vielzahl von Tools und Plattformen häufig in Quantisierungs-Workflows verwendet. TensorRT hingegen ist hochgradig für NVIDIA-Geräte optimiert und unterstützt Low-Precision-Inference mit INT8, wodurch es ideal für den High-Speed-Einsatz auf Edge-GPUs ist.
Einflussreiche Anwendungsfälle der Ultralytics YOLO Modelloptimierung
Da Computer Vision immer weiter in verschiedene reale Anwendungen eindringt, ermöglichen optimierte YOLO-Modelle die Ausführung von Aufgaben wie Objekterkennung, Instanzsegmentierung und Objektverfolgung auf kleinerer, schnellerer Hardware. Als Nächstes werden wir einige Anwendungsfälle besprechen, in denen Pruning und Quantisierung diese Computer-Vision-Aufgaben effizienter und praktischer machen.
Intelligente Überwachung mit YOLO11
Viele Industriebereiche sowie öffentliche Bereiche sind auf Echtzeitüberwachung angewiesen, um Sicherheit und Schutz zu gewährleisten. Orte wie Transitstationen, Produktionsstätten und große Außenanlagen benötigen Vision-KI-Systeme, die Personen oder Fahrzeuge schnell und genau erkennen können. Oft arbeiten diese Standorte mit eingeschränkter Konnektivität und Hardwarebeschränkungen, was den Einsatz großer Modelle erschwert.
In solchen Fällen ist ein optimiertes Vision-AI-Modell wie YOLO11 eine großartige Lösung. Seine kompakte Größe und schnelle Leistung machen es perfekt für den Einsatz auf Edge-Geräten mit geringem Stromverbrauch, wie z. B. eingebetteten Kameras oder intelligenten Sensoren. Diese Modelle können visuelle Daten direkt auf dem Gerät verarbeiten und so die Echtzeit-Erkennung von Sicherheitsverstößen, unbefugtem Zugriff oder abnormalen Aktivitäten ermöglichen, ohne auf einen ständigen Cloud-Zugriff angewiesen zu sein.
Abb. 4. YOLO11 kann zur Überwachung öffentlicher Plätze wie U-Bahn-Stationen verwendet werden.
Verbesserung der Sicherheit auf Baustellen mit YOLO11
Baustellen sind schnelllebig und unvorhersehbar, voller schwerer Maschinen, sich bewegender Arbeiter und ständiger Aktivität. Die Bedingungen können sich aufgrund von sich ändernden Zeitplänen, Gerätebewegungen oder sogar plötzlichen Wetteränderungen schnell ändern. In einem so dynamischen Umfeld kann sich die Arbeitssicherheit wie eine ständige Herausforderung anfühlen.
Die Echtzeitüberwachung spielt eine entscheidende Rolle, aber traditionelle Systeme sind oft auf Cloud-Zugriff oder teure Hardware angewiesen, was vor Ort möglicherweise nicht praktikabel ist. Hier können Modelle wie YOLO11 wirkungsvoll sein. YOLO11 kann so optimiert werden, dass es auf kleinen, effizienten Edge-Geräten läuft, die direkt vor Ort arbeiten, ohne dass eine Internetverbindung erforderlich ist.
Betrachten wir beispielsweise eine große Baustelle wie einen Autobahnausbau, der sich über mehrere Hektar erstreckt. In einer solchen Umgebung kann es schwierig und zeitaufwendig sein, jedes Fahrzeug oder Gerät manuell zu verfolgen. Eine Drohne, die mit einer Kamera und einem optimierten YOLO11-Modell ausgestattet ist, kann helfen, indem sie Fahrzeuge automatisch erkennt und verfolgt, den Verkehrsfluss überwacht und Sicherheitsprobleme wie unbefugten Zugriff oder unsicheres Fahrverhalten identifiziert.
Abb. 5. Analyse von Drohnenbildern von einer Baustelle. (Quelle)
Vor- und Nachteile von Pruning und Quantisierung in der Computer Vision
Hier sind einige der wichtigsten Vorteile, die Optimierungsmethoden für Computer-Vision-Modelle wie Pruning und Quantisierung bieten:
Kosteneffektive Bereitstellung: Kleinere und effizientere Modelle können den Bedarf an teurer High-End-Hardware reduzieren und KI über verschiedene Anwendungsfälle hinweg zugänglicher und skalierbarer machen.
Geringere Latenz: Durch die Vereinfachung der Modellarchitektur und die Reduzierung des Rechenaufwands können diese Techniken dazu beitragen, schnellere Reaktionszeiten in Echtzeitanwendungen zu erzielen.
Energieeffizienz: Die Reduzierung der Rechenlast senkt auch den Stromverbrauch, was besonders für batteriebetriebene oder mobile Systeme hilfreich ist.
Obwohl Pruning und Quantisierung viele Vorteile bieten, bringen sie auch bestimmte Kompromisse mit sich, die Entwickler bei der Optimierung von Modellen berücksichtigen sollten. Hier sind einige Einschränkungen, die Sie beachten sollten:
Genauigkeits-Kompromisse: Wenn das Pruning zu aggressiv ist oder eine Quantisierung mit sehr niedriger Bitrate verwendet wird, kann die Genauigkeit des Modells, gemessen anhand von Metriken wie mAP, sinken.
Hardware-Einschränkungen: Nicht alle Geräte unterstützen Formate mit niedrigerer Präzision wie INT8 gleichermaßen gut. Dies kann einschränken, wo und wie ein optimiertes Modell eingesetzt werden kann.
Implementierungskomplexität: Gute Ergebnisse erfordern oft eine sorgfältige, modellspezifische Abstimmung. Entwickler müssen das Modell möglicherweise neu trainieren und umfangreiche Tests durchführen, um die Leistung bei gleichzeitiger Verbesserung der Effizienz aufrechtzuerhalten.
Wesentliche Erkenntnisse
Pruning und Quantisierung sind nützliche Techniken, die YOLO-Modellen helfen, auf Edge-Geräten eine bessere Leistung zu erzielen. Sie reduzieren die Größe des Modells, senken seinen Rechenbedarf und beschleunigen Vorhersagen, und das alles ohne nennenswerte Einbußen bei der Genauigkeit.
Diese Optimierungsmethoden geben Entwicklern auch die Flexibilität, Modelle für verschiedene Hardwaretypen anzupassen, ohne sie vollständig neu erstellen zu müssen. Mit etwas Feinabstimmung und Tests wird es einfacher, Vision AI in realen Situationen anzuwenden.
Treten Sie unserer wachsenden Community bei! Erkunden Sie unser GitHub-Repository, um mehr über KI zu erfahren. Sind Sie bereit, Ihre Computer-Vision-Projekte zu starten? Sehen Sie sich unsere Lizenzoptionen an. Entdecken Sie KI in der Landwirtschaft und Vision AI im Gesundheitswesen auf unseren Lösungsseiten!