Optimieren Sie KI-Modelle für Edge-Geräte mit Quantization-Aware Training (QAT), um hohe Genauigkeit und Effizienz in ressourcenbeschränkten Umgebungen zu gewährleisten.
Quantization-Aware Training (QAT) ist eine fortschrittliche Technik zur Modelloptimierung, die ein neuronales Netzwerk (NN) auf den Einsatz mit geringerer numerischer Präzision vorbereitet. Im Gegensatz zum Standardtraining, das 32-Bit-Gleitkommazahlen (FP32) verwendet, simuliert QAT die Auswirkungen von 8-Bit-Integer-Berechnungen (INT8) während des Trainings- oder Fine-Tuning-Prozesses. Indem das Modell für die Quantisierungsfehler "sensibilisiert" wird, die während der Inferenz auftreten, kann QAT seine Gewichte anpassen, um den potenziellen Verlust an Genauigkeit zu minimieren. Dies führt zu einem kompakten, effizienten Modell, das eine hohe Leistung beibehält und sich ideal für den Einsatz auf ressourcenbeschränkter Hardware eignet.
Der QAT-Prozess beginnt typischerweise mit einem vortrainierten FP32-Modell. Es werden "Fake"-Quantisierungs-Nodes in die Architektur des Modells eingefügt, die den Effekt der Umwandlung von Gleitkommawerten in Integer mit niedrigerer Präzision und zurück simulieren. Das Modell wird dann auf einem Trainingsdatensatz erneut trainiert. Während dieser erneuten Trainingsphase lernt das Modell, sich durch Standard-Backpropagation an den mit der Quantisierung verbundenen Informationsverlust anzupassen. Dies ermöglicht es dem Modell, einen robusteren Satz von Gewichten zu finden, die weniger empfindlich auf die reduzierte Präzision reagieren. Führende Deep-Learning-Frameworks wie PyTorch und TensorFlow bieten robuste Tools und APIs zur Implementierung von QAT-Workflows.
QAT wird oft mit Post-Training Quantization (PTQ) verglichen, einer anderen gängigen Methode zur Modellquantisierung. Der Hauptunterschied besteht darin, wann die Quantisierung angewendet wird.
Quantization-Aware Training ist entscheidend für den Einsatz anspruchsvoller KI-Modelle in ressourcenbeschränkten Umgebungen, in denen Effizienz von zentraler Bedeutung ist.
QAT ist eine von mehreren Techniken zur Optimierung der Modellbereitstellung und wird oft zusammen mit anderen verwendet, um maximale Effizienz zu erzielen.
Ultralytics unterstützt den Export von Modellen in verschiedene Formate wie ONNX, TensorRT und TFLite, die mit QAT-Workflows kompatibel sind und eine effiziente Bereitstellung auf verschiedener Hardware von Unternehmen wie Intel und NVIDIA ermöglichen. Sie können Ihre QAT-optimierten Modelle mit Plattformen wie Ultralytics HUB verwalten und bereitstellen. Die Bewertung der Modellleistung anhand relevanter Metriken nach QAT ist entscheidend, um sicherzustellen, dass die Genauigkeitsanforderungen erfüllt werden.