Optimieren Sie KI-Modelle für Edge-Geräte mit Quantization-Aware Training (QAT), um hohe Genauigkeit und Effizienz in ressourcenbeschränkten Umgebungen zu gewährleisten.
Quantisierungsbewusstes Training (QAT) ist eine fortschrittliche Technik zur Modelloptimierung, die ein neuronales Netz (NN) für den Einsatz mit geringerer numerischer Präzision vorbereitet. Im Gegensatz zum Standardtraining, bei dem 32-Bit-Gleitkommazahlen (FP32) verwendet werden, simuliert QAT die Auswirkungen von 8-Bit-Ganzzahlberechnungen (INT8) während des Trainings- oder Feinabstimmungsprozesses. Indem QAT dem Modell die Quantisierungsfehler, auf die es während der Inferenz stößt, "bewusst" macht, ermöglicht es dem Modell, seine Gewichte so anzupassen, dass der potenzielle Genauigkeitsverlust minimiert wird. Das Ergebnis ist ein kompaktes, effizientes Modell, das eine hohe Leistung beibehält und damit ideal für den Einsatz auf ressourcenbeschränkter Hardware ist.
Der QAT-Prozess beginnt in der Regel mit einem vortrainierten FP32-Modell. In die Architektur des Modells werden "falsche" Quantisierungsknoten eingefügt, die den Effekt der Umwandlung von Fließkommawerten in niedrigere Ganzzahlen und zurück nachahmen. Das Modell wird dann anhand eines Trainingsdatensatzes neu trainiert. Während dieser Umschulungsphase lernt das Modell, sich an den mit der Quantisierung verbundenen Informationsverlust anzupassen, und zwar durch standardmäßige Backpropagation. Dadurch kann das Modell einen robusteren Satz von Gewichten finden, die weniger empfindlich auf die verringerte Präzision reagieren. Führende Deep-Learning-Frameworks wie PyTorch und TensorFlow bieten robuste Tools und APIs zur Implementierung von QAT-Workflows.
QAT wird oft mit der Post-Training-Quantisierung (PTQ), einer anderen gängigen Modellquantisierungsmethode, verglichen. Der Hauptunterschied liegt darin, wann die Quantisierung angewendet wird.
Quantisierungssensitives Training ist entscheidend für den Einsatz anspruchsvoller KI-Modelle in ressourcenbeschränkten Umgebungen, in denen Effizienz der Schlüssel ist.
QAT ist eine von mehreren Techniken zur Optimierung der Modellbereitstellung und wird häufig zusammen mit anderen Techniken eingesetzt, um maximale Effizienz zu erzielen.
Ultralytics unterstützt den Export von Modellen in verschiedene Formate wie ONNX, TensorRT und TFLite, die mit QAT-Workflows kompatibel sind und einen effizienten Einsatz auf unterschiedlicher Hardware von Unternehmen wie Intel und NVIDIA ermöglichen. Sie können Ihre QAT-optimierten Modelle mit Plattformen wie Ultralytics HUB verwalten und einsetzen. Die Bewertung der Modellleistung anhand relevanter Metriken nach QAT ist wichtig, um sicherzustellen, dass die Genauigkeitsanforderungen erfüllt werden.