Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten
Glossar

Quantization-Aware Training (QAT)

Optimieren Sie KI-Modelle für Edge-Geräte mit Quantization-Aware Training (QAT), um hohe Genauigkeit und Effizienz in ressourcenbeschränkten Umgebungen zu gewährleisten.

Quantization-Aware Training (QAT) ist eine fortschrittliche Technik zur Modelloptimierung, die ein neuronales Netzwerk (NN) auf den Einsatz mit geringerer numerischer Präzision vorbereitet. Im Gegensatz zum Standardtraining, das 32-Bit-Gleitkommazahlen (FP32) verwendet, simuliert QAT die Auswirkungen von 8-Bit-Integer-Berechnungen (INT8) während des Trainings- oder Fine-Tuning-Prozesses. Indem das Modell für die Quantisierungsfehler "sensibilisiert" wird, die während der Inferenz auftreten, kann QAT seine Gewichte anpassen, um den potenziellen Verlust an Genauigkeit zu minimieren. Dies führt zu einem kompakten, effizienten Modell, das eine hohe Leistung beibehält und sich ideal für den Einsatz auf ressourcenbeschränkter Hardware eignet.

Wie Quantization-Aware Training funktioniert

Der QAT-Prozess beginnt typischerweise mit einem vortrainierten FP32-Modell. Es werden "Fake"-Quantisierungs-Nodes in die Architektur des Modells eingefügt, die den Effekt der Umwandlung von Gleitkommawerten in Integer mit niedrigerer Präzision und zurück simulieren. Das Modell wird dann auf einem Trainingsdatensatz erneut trainiert. Während dieser erneuten Trainingsphase lernt das Modell, sich durch Standard-Backpropagation an den mit der Quantisierung verbundenen Informationsverlust anzupassen. Dies ermöglicht es dem Modell, einen robusteren Satz von Gewichten zu finden, die weniger empfindlich auf die reduzierte Präzision reagieren. Führende Deep-Learning-Frameworks wie PyTorch und TensorFlow bieten robuste Tools und APIs zur Implementierung von QAT-Workflows.

QAT vs. Post-Training Quantisierung

QAT wird oft mit Post-Training Quantization (PTQ) verglichen, einer anderen gängigen Methode zur Modellquantisierung. Der Hauptunterschied besteht darin, wann die Quantisierung angewendet wird.

  • Post-Training Quantisierung (PTQ): Diese Methode wird nachdem das Modell vollständig trainiert wurde angewendet. Es ist ein einfacherer und schnellerer Prozess, der kein Retraining oder Zugriff auf die ursprünglichen Trainingsdaten erfordert. Es kann jedoch manchmal zu einem deutlichen Rückgang der Modellgenauigkeit führen, insbesondere bei empfindlichen Modellen.
  • Quantisierungsbewusstes Training (QAT): Diese Methode integriert die Quantisierung in die Trainingsschleife. Obwohl sie rechenintensiver ist und Zugriff auf Trainingsdaten erfordert, führt QAT fast immer zu einer höheren Genauigkeit für das endgültige quantisierte Modell im Vergleich zu PTQ. Es ist die bevorzugte Methode, wenn die Maximierung der Leistung entscheidend ist.

Reale Anwendungen von QAT

Quantization-Aware Training ist entscheidend für den Einsatz anspruchsvoller KI-Modelle in ressourcenbeschränkten Umgebungen, in denen Effizienz von zentraler Bedeutung ist.

  1. On-Device Computer Vision: Ausführen komplexer Computer Vision-Modelle wie Ultralytics YOLOv8 direkt auf Smartphones für Anwendungen wie Echtzeit-Objekterkennung in Augmented-Reality-Apps oder Bildklassifizierung innerhalb von Fotoverwaltungstools. QAT ermöglicht es diesen Modellen, effizient zu laufen, ohne die Batterie wesentlich zu belasten oder die Latenz zu erhöhen.
  2. Edge AI in der Automobilindustrie und Robotik: Bereitstellung von Modellen für Aufgaben wie Fußgängererkennung oder Spurhalteassistent in autonomen Fahrzeugen oder für Objektmanipulation in der Robotik. QAT ermöglicht es diesen Modellen, auf spezialisierter Hardware wie Google Edge TPUs oder NVIDIA Jetson zu laufen, wodurch eine niedrige Inferenzlatenz für kritische Echtzeitentscheidungen gewährleistet wird. Dies ist entscheidend für Anwendungen wie Sicherheitsalarmanlagen oder Parkraummanagement.

Beziehung zu anderen Optimierungstechniken

QAT ist eine von mehreren Techniken zur Optimierung der Modellbereitstellung und wird oft zusammen mit anderen verwendet, um maximale Effizienz zu erzielen.

  • Model Pruning: Beinhaltet das Entfernen redundanter oder unwichtiger Verbindungen aus dem Netzwerk. Ein Modell kann zuerst reduziert und dann einer QAT unterzogen werden, um eine noch größere Komprimierung zu erreichen.
  • Knowledge Distillation: Trainiert ein kleineres „Studentenmodell“, um ein größeres „Lehrermodell“ nachzubilden. Das resultierende Studentenmodell kann dann mithilfe von QAT weiter optimiert werden.

Ultralytics unterstützt den Export von Modellen in verschiedene Formate wie ONNX, TensorRT und TFLite, die mit QAT-Workflows kompatibel sind und eine effiziente Bereitstellung auf verschiedener Hardware von Unternehmen wie Intel und NVIDIA ermöglichen. Sie können Ihre QAT-optimierten Modelle mit Plattformen wie Ultralytics HUB verwalten und bereitstellen. Die Bewertung der Modellleistung anhand relevanter Metriken nach QAT ist entscheidend, um sicherzustellen, dass die Genauigkeitsanforderungen erfüllt werden.

Treten Sie der Ultralytics-Community bei

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten
Link in die Zwischenablage kopiert