Pruning und Quantisierung in der Computer Vision: Eine Kurzanleitung

11. Juli 2025
Erfahren Sie, warum Pruning und Quantisierung für die Optimierung von Computer-Vision-Modellen und für eine schnellere Leistung auf Edge Devices unerlässlich sind.

11. Juli 2025
Erfahren Sie, warum Pruning und Quantisierung für die Optimierung von Computer-Vision-Modellen und für eine schnellere Leistung auf Edge Devices unerlässlich sind.
Mit der fortschreitenden Technologie werden Edge-Geräte immer häufiger eingesetzt. Von Smartwatches, die die Herzfrequenz messen, bis hin zu Flugdrohnen, die Straßen überwachen, können Edge-Systeme Daten in Echtzeit lokal im Gerät selbst verarbeiten.
Diese Methode ist oft schneller und sicherer als das Senden von Daten in die Cloud, insbesondere bei Anwendungen, die personenbezogene Daten enthalten, wie z. B. die Erkennung von Nummernschildern oder die Verfolgung von Gesten. Dies sind Beispiele für Computer Vision, ein Zweig der künstlichen Intelligenz (AI), der es Maschinen ermöglicht, visuelle Informationen zu interpretieren und zu verstehen.
Ein wichtiger Aspekt ist jedoch, dass für solche Anwendungen KI-Modelle erforderlich sind, die in der Lage sind, umfangreiche Berechnungen durchzuführen, minimale Ressourcen zu verwenden und unabhängig zu arbeiten. Die meisten Computer-Vision-Modelle werden für Hochleistungssysteme entwickelt und eignen sich daher weniger für den direkten Einsatz auf Endgeräten.
Um diese Lücke zu schließen, wenden Entwickler oft gezielte Optimierungen an, die das Modell so anpassen, dass es auf kleinerer Hardware effizient läuft. Diese Anpassungen sind entscheidend für reale Edge-Einsätze, bei denen Speicher und Verarbeitungsleistung begrenzt sind.
Interessanterweise sind Computer-Vision-Modelle wie Ultralytics YOLO11 bereits mit Blick auf die Kanteneffizienz entwickelt worden, was sie für Echtzeitaufgaben prädestiniert. Ihre Leistung kann jedoch durch Modelloptimierungstechniken wie Pruning und Quantisierung weiter verbessert werden, was noch schnellere Schlussfolgerungen und eine geringere Ressourcennutzung auf eingeschränkten Geräten ermöglicht.
In diesem Artikel werden wir einen genaueren Blick darauf werfen, was Pruning und Quantisierung sind, wie sie funktionieren und wie sie die Leistung von YOLO-Modellen in realen Edge-Einsätzen unterstützen können. Legen wir los!
Bei der Vorbereitung von Vision AI-Modellen für den Einsatz auf Edge-Geräten besteht eines der wichtigsten Ziele darin, das Modell leicht und zuverlässig zu machen, ohne die Leistung zu beeinträchtigen. Dazu müssen häufig die Größe des Modells und die Rechenanforderungen reduziert werden, damit es auf Hardware mit begrenztem Speicher, Leistung oder Verarbeitungskapazität effizient arbeiten kann. Zwei gängige Methoden hierfür sind Pruning und Quantisierung.
Pruning ist eine Technik zur Optimierung von KI-Modellen, die dazu beiträgt, neuronale Netze kleiner und effizienter zu machen. In vielen Fällen tragen Teile eines Modells, wie z. B. bestimmte Verbindungen oder Knoten, nicht viel zu seinen endgültigen Vorhersagen bei. Beim Pruning werden diese weniger wichtigen Teile identifiziert und entfernt, wodurch die Größe des Modells verringert und seine Leistung erhöht wird.
Andererseits ist die Quantisierung eine Optimierungstechnik, die die Genauigkeit der von einem Modell verwendeten Zahlen verringert. Anstatt sich auf hochpräzise 32-Bit-Gleitkommazahlen zu verlassen, wechselt das Modell zu kleineren, effizienteren Formaten wie 8-Bit-Ganzzahlen. Diese Änderung trägt zu einer geringeren Speichernutzung bei und beschleunigt die Inferenz, also den Prozess, bei dem das Modell Vorhersagen trifft.
Nachdem wir nun besser verstanden haben, was Pruning und Quantisierung sind, wollen wir uns ansehen, wie beide funktionieren.
Das Pruning erfolgt durch einen Prozess, der als Sensitivitätsanalyse bekannt ist. Dabei wird ermittelt, welche Teile des neuronalen Netzmodells, z. B. bestimmte Gewichte, Neuronen oder Kanäle, am wenigsten zur endgültigen Ausgabevorhersage beitragen. Diese Teile können mit minimalen Auswirkungen auf die Genauigkeit entfernt werden. Nach dem Pruning wird das Modell in der Regel neu trainiert, um seine Leistung zu optimieren. Dieser Zyklus kann wiederholt werden, um das richtige Gleichgewicht zwischen Größe und Genauigkeit zu finden.
In der Zwischenzeit konzentriert sich die Modellquantisierung darauf, wie das Modell mit den Daten umgeht. Sie beginnt mit der Kalibrierung, bei der das Modell anhand von Beispieldaten den Bereich der zu verarbeitenden Werte ermittelt. Diese Werte werden dann von 32-Bit-Gleitkommazahlen in Formate mit geringerer Genauigkeit wie 8-Bit-Ganzzahlen umgewandelt.
Es gibt mehrere Tools, die die Verwendung von Pruning und Quantisierung in realen KI-Projekten erleichtern. Die meisten KI-Frameworks, wie PyTorch und TensorFlow, bieten integrierte Unterstützung für diese Optimierungstechniken, sodass Entwickler sie direkt in den Modellbereitstellungsprozess integrieren können.
Sobald ein Modell optimiert ist, können Tools wie ONNX Runtime dabei helfen, es effizient auf verschiedenen Hardwareplattformen wie Servern, Desktops und Edge-Geräten auszuführen. Außerdem bietet Ultralytics Integrationen, mit denen YOLO-Modelle in Formate exportiert werden können, die für die Quantisierung geeignet sind, was die Reduzierung der Modellgröße und die Steigerung der Leistung erleichtert.
YOLO-Modelle von Ultralytics wie YOLO11 sind weithin für ihre schnelle, einstufige Objekterkennung bekannt und damit ideal für Echtzeit-Vision-KI-Aufgaben. Sie sind bereits so konzipiert, dass sie leichtgewichtig und effizient genug für den Edge-Einsatz sind. Die Schichten, die für die Verarbeitung visueller Merkmale zuständig sind, die so genannten Faltungsschichten, können jedoch während der Inferenz eine erhebliche Rechenleistung erfordern.
Sie werden sich vielleicht fragen: Wenn YOLO11 bereits für den Einsatz auf Edge-Geräten optimiert ist, warum muss es dann noch weiter optimiert werden? Einfach gesagt, sind nicht alle Edge-Geräte gleich. Einige laufen mit sehr minimaler Hardware, wie winzige eingebettete Prozessoren, die weniger Strom verbrauchen als eine Standard-LED-Glühbirne.
In diesen Fällen muss selbst ein schlankes Modell wie YOLO11 zusätzlich optimiert werden, um eine reibungslose und zuverlässige Leistung zu gewährleisten. Techniken wie Pruning und Quantisierung tragen dazu bei, die Größe des Modells zu reduzieren und die Inferenz zu beschleunigen, ohne die Genauigkeit wesentlich zu beeinträchtigen, was sie ideal für solche eingeschränkten Umgebungen macht.
Um die Anwendung dieser Optimierungstechniken zu erleichtern, unterstützt Ultralytics verschiedene Integrationen, mit denen YOLO-Modelle in verschiedene Formate wie ONNX, TensorRT, OpenVINO, CoreML und PaddlePaddle exportiert werden können. Jedes Format ist so konzipiert, dass es mit bestimmten Arten von Hardware und Einsatzumgebungen gut funktioniert.
Beispielsweise wird ONNX aufgrund seiner Kompatibilität mit einer Vielzahl von Tools und Plattformen häufig in Quantisierungs-Workflows eingesetzt. TensorRT hingegen ist hochgradig für NVIDIA-Geräte optimiert und unterstützt Inferenz mit niedriger Genauigkeit unter Verwendung von INT8, was es ideal für den Hochgeschwindigkeitseinsatz auf Edge-GPUs macht.
Da sich die Computer Vision immer mehr auf verschiedene reale Anwendungen ausweitet, ermöglichen optimierte YOLO-Modelle die Ausführung von Aufgaben wie Objekterkennung, Instanzsegmentierung und Objektverfolgung auf kleinerer, schnellerer Hardware. Als Nächstes werden wir einige Anwendungsfälle erörtern, in denen Pruning und Quantisierung diese Computer-Vision-Aufgaben effizienter und praktischer machen.
Viele Industrieanlagen und öffentliche Bereiche sind auf Echtzeitüberwachung angewiesen, um sicher zu sein. An Orten wie Bahnhöfen, Produktionsstätten und großen Außenanlagen werden Vision AI-Systeme benötigt, die Personen oder Fahrzeuge schnell und präzise erkennen können. Oft arbeiten diese Orte mit begrenzter Konnektivität und eingeschränkter Hardware, was den Einsatz großer Modelle erschwert.
In solchen Fällen ist ein optimiertes Vision AI-Modell wie YOLO11 eine hervorragende Lösung. Dank seiner kompakten Größe und schnellen Leistung eignet es sich perfekt für den Einsatz auf stromsparenden Edge-Geräten, wie eingebetteten Kameras oder intelligenten Sensoren. Diese Modelle können visuelle Daten direkt auf dem Gerät verarbeiten und ermöglichen die Erkennung von Sicherheitsverletzungen, unbefugtem Zugriff oder abnormalen Aktivitäten in Echtzeit, ohne auf einen ständigen Cloud-Zugriff angewiesen zu sein.
Baustellen sind schnelllebige und unberechenbare Umgebungen mit schweren Maschinen, beweglichen Arbeitern und ständiger Aktivität. Die Bedingungen können sich schnell ändern, weil sich die Zeitpläne verschieben, die Ausrüstung sich bewegt oder sogar das Wetter plötzlich umschlägt. In einem solch dynamischen Umfeld kann die Sicherheit der Arbeiter zu einer ständigen Herausforderung werden.
Die Echtzeitüberwachung spielt eine entscheidende Rolle, aber herkömmliche Systeme sind oft auf einen Cloud-Zugang oder teure Hardware angewiesen, die vor Ort nicht praktikabel ist. Hier können Modelle wie YOLO11 eine wichtige Rolle spielen. YOLO11 kann für den Betrieb auf kleinen, effizienten Edge-Geräten optimiert werden, die direkt vor Ort arbeiten, ohne dass eine Internetverbindung erforderlich ist.
Denken Sie zum Beispiel an eine große Baustelle, wie eine Autobahnerweiterung, die sich über mehrere Hektar erstreckt. In einem solchen Umfeld kann die manuelle Verfolgung jedes Fahrzeugs oder Geräts schwierig und zeitaufwändig sein. Eine Drohne, die mit einer Kamera und einem optimierten YOLO11-Modell ausgestattet ist, kann helfen, indem sie automatisch Fahrzeuge erkennt und verfolgt, den Verkehrsfluss überwacht und Sicherheitsprobleme wie unbefugte Zugriffe oder unsicheres Fahrverhalten erkennt.
Hier sind einige der wichtigsten Vorteile, die Methoden zur Optimierung von Computer-Vision-Modellen wie Pruning und Quantisierung bieten:
Pruning und Quantisierung bieten zwar viele Vorteile, sind aber auch mit gewissen Kompromissen verbunden, die Entwickler bei der Optimierung von Modellen berücksichtigen sollten. Hier sind einige Einschränkungen, die Sie im Auge behalten sollten:
Pruning und Quantisierung sind nützliche Techniken, mit denen YOLO-Modelle auf Edge-Geräten besser funktionieren. Sie reduzieren die Größe des Modells, verringern seinen Rechenbedarf und beschleunigen die Vorhersagen, ohne dass die Genauigkeit merklich abnimmt.
Diese Optimierungsmethoden geben den Entwicklern auch die Flexibilität, Modelle für verschiedene Hardwaretypen anzupassen, ohne sie komplett neu erstellen zu müssen. Mit einigen Anpassungen und Tests wird es einfacher, Vision AI in realen Situationen anzuwenden.
Werden Sie Teil unserer wachsenden Gemeinschaft! Erkunden Sie unser GitHub-Repository, um mehr über KI zu erfahren. Sind Sie bereit, mit Ihren Computer Vision Projekten zu beginnen? Informieren Sie sich über unsere Lizenzierungsoptionen. Entdecken Sie KI in der Landwirtschaft und Vision AI im Gesundheitswesen, indem Sie unsere Lösungsseiten besuchen!