Glossar

Quantisierungsorientiertes Training (QAT)

Optimieren Sie KI-Modelle für Edge-Geräte mit Quantization-Aware Training (QAT), um hohe Genauigkeit und Effizienz in ressourcenbeschränkten Umgebungen zu gewährleisten.

Quantisierungsbewusstes Training (QAT) ist eine fortschrittliche Technik zur Modelloptimierung, die ein neuronales Netz (NN) für den Einsatz mit geringerer numerischer Präzision vorbereitet. Im Gegensatz zum Standardtraining, bei dem 32-Bit-Gleitkommazahlen (FP32) verwendet werden, simuliert QAT die Auswirkungen von 8-Bit-Ganzzahlberechnungen (INT8) während des Trainings- oder Feinabstimmungsprozesses. Indem QAT dem Modell die Quantisierungsfehler, auf die es während der Inferenz stößt, "bewusst" macht, ermöglicht es dem Modell, seine Gewichte so anzupassen, dass der potenzielle Genauigkeitsverlust minimiert wird. Das Ergebnis ist ein kompaktes, effizientes Modell, das eine hohe Leistung beibehält und damit ideal für den Einsatz auf ressourcenbeschränkter Hardware ist.

So funktioniert quantisierungsorientiertes Training

Der QAT-Prozess beginnt in der Regel mit einem vortrainierten FP32-Modell. In die Architektur des Modells werden "falsche" Quantisierungsknoten eingefügt, die den Effekt der Umwandlung von Fließkommawerten in niedrigere Ganzzahlen und zurück nachahmen. Das Modell wird dann anhand eines Trainingsdatensatzes neu trainiert. Während dieser Umschulungsphase lernt das Modell, sich an den mit der Quantisierung verbundenen Informationsverlust anzupassen, und zwar durch standardmäßige Backpropagation. Dadurch kann das Modell einen robusteren Satz von Gewichten finden, die weniger empfindlich auf die verringerte Präzision reagieren. Führende Deep-Learning-Frameworks wie PyTorch und TensorFlow bieten robuste Tools und APIs zur Implementierung von QAT-Workflows.

QAT vs. Quantisierung nach dem Training

QAT wird oft mit der Post-Training-Quantisierung (PTQ), einer anderen gängigen Modellquantisierungsmethode, verglichen. Der Hauptunterschied liegt darin, wann die Quantisierung angewendet wird.

  • Quantisierung nach dem Training (Post-Training Quantization, PTQ): Diese Methode wird angewandt , nachdem das Modell vollständig trainiert worden ist. Es handelt sich um einen einfacheren und schnelleren Prozess, der kein erneutes Training oder Zugriff auf die ursprünglichen Trainingsdaten erfordert. Sie kann jedoch manchmal zu einem erheblichen Rückgang der Modellgenauigkeit führen, insbesondere bei empfindlichen Modellen.
  • Quantisierungsorientiertes Training (QAT): Bei dieser Methode wird die Quantisierung in die Trainingsschleife integriert. Obwohl sie rechenintensiver ist und Zugang zu Trainingsdaten erfordert, führt QAT fast immer zu einer höheren Genauigkeit des endgültigen quantisierten Modells im Vergleich zu PTQ. Es ist die bevorzugte Methode, wenn die Maximierung der Leistung entscheidend ist.

Real-World-Anwendungen von QAT

Quantisierungssensitives Training ist entscheidend für den Einsatz anspruchsvoller KI-Modelle in ressourcenbeschränkten Umgebungen, in denen Effizienz der Schlüssel ist.

  1. Computer Vision auf dem Gerät: Ausführung komplexer Computer Vision Modelle wie Ultralytics YOLOv8 direkt auf Smartphones für Anwendungen wie Echtzeit-Objekterkennung in Augmented-Reality-Apps oder Bildklassifizierung in Foto-Management-Tools. QAT ermöglicht die effiziente Ausführung dieser Modelle ohne signifikanten Batterieverbrauch oder Latenzzeiten.
  2. Edge AI in der Automobil- und Robotertechnik: Einsatz von Modellen für Aufgaben wie Fußgängererkennung oder Spurhalteassistent in autonomen Fahrzeugen oder zur Objektmanipulation in der Robotik. QAT ermöglicht es diesen Modellen, auf spezieller Hardware wie Google Edge TPUs oder NVIDIA Jetson zu laufen und gewährleistet eine niedrige Inferenzlatenz für kritische Echtzeitentscheidungen. Dies ist entscheidend für Anwendungen wie Sicherheitsalarmsysteme oder Parkraummanagement.

Beziehung zu anderen Optimierungstechniken

QAT ist eine von mehreren Techniken zur Optimierung der Modellbereitstellung und wird häufig zusammen mit anderen Techniken eingesetzt, um maximale Effizienz zu erzielen.

  • Model Pruning: Hierbei werden redundante oder unwichtige Verbindungen aus dem Netz entfernt. Ein Modell kann zuerst beschnitten werden und dann QAT unterzogen werden, um eine noch stärkere Kompression zu erreichen.
  • Wissensdestillation: Trainiert ein kleineres "Schüler"-Modell, um ein größeres "Lehrermodell" zu imitieren. Das resultierende Schülermodell kann dann mit QAT weiter optimiert werden.

Ultralytics unterstützt den Export von Modellen in verschiedene Formate wie ONNX, TensorRT und TFLite, die mit QAT-Workflows kompatibel sind und einen effizienten Einsatz auf unterschiedlicher Hardware von Unternehmen wie Intel und NVIDIA ermöglichen. Sie können Ihre QAT-optimierten Modelle mit Plattformen wie Ultralytics HUB verwalten und einsetzen. Die Bewertung der Modellleistung anhand relevanter Metriken nach QAT ist wichtig, um sicherzustellen, dass die Genauigkeitsanforderungen erfüllt werden.

Werden Sie Mitglied der Ultralytics-Gemeinschaft

Beteiligen Sie sich an der Zukunft der KI. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten
Link in die Zwischenablage kopiert