Quantization-Aware Training (QAT)
Lerne, wie Quantization-Aware Training (QAT) Ultralytics YOLO26-Modelle für die Edge-Bereitstellung optimiert. Entdecke, wie man hohe Genauigkeit mit INT8-Präzision beibehält.
Quantization-Aware Training (QAT) ist ein spezielles Verfahren, das während der Trainingsphase von Machine-Learning-Modellen verwendet wird, um sie für Umgebungen mit niedrigerer Präzision vorzubereiten. In Standard-Deep Learning-Workflows arbeiten Modelle üblicherweise mit hochpräzisen 32-Bit-Fließkommazahlen (FP32). Während diese Präzision eine exzellente Genauigkeit bietet, kann sie rechenintensiv und speicherhungrig sein, insbesondere auf Edge-Geräten. QAT simuliert die Auswirkungen der Quantisierung – das Reduzieren der Präzision auf Formate wie 8-Bit-Ganzzahlen (INT8) –, während das Modell noch trainiert wird. Durch das Einbringen dieser Quantisierungsfehler während des Lernprozesses lernt das Modell, seine Gewichte anzupassen und die Genauigkeit effektiv zurückzugewinnen, die sonst während der Konvertierung nach dem Training verloren gehen könnte.
Link to this sectionWarum QAT für den Edge-Einsatz wichtig ist#
Das Deployment von Computer-Vision-Modellen auf ressourcenbeschränkten Geräten erfordert oft eine Balance zwischen Geschwindigkeit und Leistung. Standard-Quantisierungsmethoden, bekannt als Post-Training Quantization (PTQ), wenden die Präzisionsreduzierung erst an, nachdem das Modell vollständig trainiert wurde. Obwohl PTQ schnell ist, kann es manchmal die Genauigkeit sensibler Modelle verringern, da die Gewichte des neuronalen Netzwerks signifikant verändert werden, ohne die Chance auf eine erneute Anpassung.
QAT löst dies, indem es dem Modell erlaubt, das Quantisiert-Werden zu „üben“. Während des Vorwärtsdurchlaufs (Forward Pass) des Trainings werden die Gewichte und Aktivierungen als Werte mit niedriger Präzision simuliert. Dies ermöglicht es dem Prozess des Gradientenabstiegs, die Modellparameter so zu aktualisieren, dass der Verlust speziell für den quantisierten Zustand minimiert wird. Das Ergebnis ist ein robustes Modell, das selbst dann eine hohe Genauigkeit beibehält, wenn es auf Hardware wie Mikrocontrollern oder mobilen Prozessoren eingesetzt wird.
Link to this sectionUnterscheidung von QAT und Post-Training Quantization (PTQ)#
Es ist hilfreich, QAT von der Modellquantisierung, insbesondere der Post-Training Quantization (PTQ), zu unterscheiden:
- Post-Training Quantization (PTQ): Das Modell wird normal in FP32 trainiert. Nach Abschluss des Trainings werden die Gewichte in INT8 konvertiert. Dies ist schneller und erfordert kein erneutes Training, kann jedoch bei komplexen Architekturen zu einem höheren Genauigkeitsverlust führen.
- Quantization-Aware Training (QAT): Der Quantisierungsprozess wird während der Feinabstimmungsphase emuliert. Das Modell passt seine internen Parameter an, um das durch die niedrigere Präzision eingebrachte Rauschen auszugleichen, was in der Regel eine bessere Genauigkeit als bei PTQ liefert.
Link to this sectionPraxisanwendungen#
QAT ist essenziell für Branchen, in denen die Echtzeit-Inferenz auf Edge-Hardware entscheidend ist.
- Autonome Drohnen: Bei KI-Drohneneinsätzen sind Batterielaufzeit und Rechenleistung an Bord stark begrenzt. Drohnen, die Modelle verwenden, welche mittels QAT optimiert wurden, können Hindernisse erkennen oder Objekte mit hoher Präzision verfolgen, während sie INT8-Beschleuniger nutzen, was die Flugzeiten im Vergleich zu FP32-Modellen signifikant verlängert.
- Intelligente Kameras im Einzelhandel: Supermärkte nutzen Computer Vision im Einzelhandel, um den Warenbestand in den Regalen zu überwachen oder Kassenschlangen zu managen. Diese Systeme laufen oft auf stromsparenden Edge-Gateways. QAT stellt sicher, dass die auf diesen Geräten laufenden Objekterkennungs-Modelle die nötige Genauigkeit beibehalten, um ähnliche Produkte zu unterscheiden, ohne dass eine teure Cloud-Anbindung erforderlich ist.
Link to this sectionImplementierung von QAT mit Ultralytics#
Die Ultralytics Platform und das YOLO-Ökosystem unterstützen den Export von Modellen in quantisierte Formate. Obwohl QAT ein komplexes Trainingsverfahren ist, erleichtern moderne Frameworks die Vorbereitung von Modellen für die quantisierte Inferenz.
Unten ist ein Beispiel, wie du ein trainiertes YOLO26-Modell in ein INT8-quantisiertes TFLite-Format exportieren kannst, das die Prinzipien der Quantisierung für ein effizientes Edge-Deployment nutzt.
from ultralytics import YOLO
# Load a trained YOLO26 model
model = YOLO("yolo26n.pt")
# Export the model to TFLite format with INT8 quantization
# This prepares the model for efficient execution on edge devices
model.export(format="tflite", int8=True)Link to this sectionIntegration mit Edge-Ökosystemen#
Modelle, die mittels Quantisierungstechniken optimiert wurden, sind für den Betrieb auf spezialisierten Inferenz-Engines konzipiert. QAT-trainierte Modelle werden häufig mit ONNX Runtime für plattformübergreifende Kompatibilität oder OpenVINO zur Optimierung auf Intel-Hardware eingesetzt. Dies stellt sicher, dass das Modell mit der höchstmöglichen Effizienz und Geschwindigkeit arbeitet, egal ob das Ziel ein Raspberry Pi oder ein dedizierter Edge TPU ist.
Link to this sectionWichtige Konzepte rund um QAT#
Um QAT vollständig zu verstehen, hilft es, mit einigen verwandten Machine-Learning-Konzepten vertraut zu sein:
- Präzision: Bezieht sich auf den Detailgrad, der zur Darstellung von Zahlen verwendet wird. Halbe Präzision (FP16) und INT8 sind gängige Ziele für die Quantisierung.
- Kalibrierung: Der Prozess der Bestimmung des Bereichs dynamischer Aktivierungswerte (Min/Max), um Fließkommazahlen effektiv auf Ganzzahlen abzubilden. Dies ist ein entscheidender Schritt bei der Bereitstellung quantisierter YOLO-Modelle.
- Inferenz-Latenz: Einer der Hauptvorteile von QAT ist die Reduzierung der Inferenz-Latenz, was eine schnellere Entscheidungsfindung in Echtzeitsystemen ermöglicht.
- Feinabstimmung (Fine-Tuning): QAT wird oft als Feinabstimmungs-Schritt an einem vortrainierten Modell durchgeführt, anstatt das Training von Grund auf neu zu beginnen, was Rechenressourcen spart.
Durch die Integration von Quantization-Aware Training in die MLOps-Pipeline können Entwickler die Lücke zwischen hochpräzisen Forschungsmodellen und hocheffizienten, produktionsreifen Edge-KI-Anwendungen schließen.






