Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten
Glossar

Modellquantisierung

Optimieren Sie die KI-Leistung mit Modellquantisierung. Reduzieren Sie die Größe, steigern Sie die Geschwindigkeit und verbessern Sie die Energieeffizienz für reale Anwendungen.

Modellquantisierung ist eine transformative Technik im maschinellen Lernens, die die Rechen- und Rechen- und Speicherkosten bei der Ausführung neuronaler Netzwerke. Durch die Konvertierung der Parameter des Modells Parameter des Modells - insbesondere Gewichte und Aktivierungen - von hochpräzisen Gleitkommazahlen (normalerweise 32-Bit, bekannt als FP32) in Formate mit geringerer Genauigkeit, wie z. B. 8-Bit-Ganzzahlen (INT8), können Entwickler die Dateigröße des Modells erheblich verringern. Modells erheblich verringern. Dieser Prozess ist unerlässlich für eine effiziente Modellbereitstellung auf Hardware mit Hardware mit begrenzten Ressourcen zu ermöglichen und sicherzustellen, dass hochentwickelte KI-Funktionen reibungslos auf allen Geräten - von Smartphones bis zu industriellen Sensoren.

Wie Modellquantisierung funktioniert

Der Kernmechanismus der Quantisierung besteht darin, einen großen Bereich kontinuierlicher Werte auf einen kleineren Satz diskreter Werte abzubilden. Werte. In einem typischen Deep-Learning-Modell werden die Parameter als 32-Bit-Gleitkommazahlen gespeichert, um eine hohe Genauigkeit während der Trainingsphase zu gewährleisten. Während der Inferenz - der Phase, in der das Modell Vorhersagen trifft - ist dieses Maß an Präzision jedoch oft unnötig.

Die Quantisierung komprimiert diese Werte, wodurch die zum Abrufen der Modellgewichte erforderliche Speicherbandbreite Modellgewichte und beschleunigt mathematische Operationen beschleunigt. Moderne Hardware, einschließlich CPUs und spezialisierte Beschleuniger wie GPUs, haben oft spezielle Befehlssätze für Ganzzahlarithmetik, die schneller und energieeffizienter sind als ihre Gleitkomma Pendants. Diese Optimierung trägt zur Minimierung der Inferenzlatenz zu minimieren, was zu einer schnelleren Benutzererfahrung in Echtzeitanwendungen.

Arten der Quantisierung

Es gibt zwei Hauptansätze für die Anwendung dieser Optimierung, die jeweils für verschiedene Phasen des Entwicklungs Lebenszyklus:

  • Quantisierung nach dem Training (Post-Training Quantization, PTQ): Diese Methode wird angewandt, nachdem das Modell vollständig trainiert worden ist. Sie erfordert einen Kalibrierungsdatensatz, um den dynamischen Bereich der Aktivierungen und Gewichte zu bestimmen. Werkzeuge wie TensorFlow Lite bieten robuste Unterstützung für PTQ, was sie zu einer beliebten Wahl für schnelle Optimierungen macht.
  • Quantisierungsorientiertes Training (QAT): Bei diesem Ansatz simuliert das Modell die Auswirkungen der Quantisierung während des Trainingsprozesses selbst. Durch die Einführung "falscher" Quantisierungsknoten lernt das Netz lernt das Netzwerk, sich an die geringere Präzision anzupassen, was oft zu einer besseren Genauigkeit im Vergleich zu PTQ führt. Sie können mehr über diese spezielle Technik in unserem Quantisierungssensitives Training (QAT) Seite.

Anwendungsfälle in der Praxis

Quantisierung ist ein Eckpfeiler der Edge-KI, der es ermöglicht, komplexe Aufgaben lokal auf Geräten durchgeführt werden können, ohne auf eine Cloud-Konnektivität angewiesen zu sein.

  1. Mobile Computer Vision: Smartphone-Apps, die Funktionen wie Hintergrundunschärfe in Echtzeit oder Gesichtsfilter bieten, basieren auf quantisierten Modellen. Zum Beispiel erfordert die Ausführung eines Objekterkennungsmodell auf einem Telefon eine hohe hohe Effizienz, um Batterieverbrauch und Überhitzung zu vermeiden.
  2. Industrielles IoT und Robotik: In Robotik laufen autonome Einheiten oft mit Batteriestrom und verwenden eingebettete Prozessoren wie den NVIDIA Jetson. Quantisierte Modelle ermöglichen diesen Roboter, visuelle Daten für die Navigation und Hindernisvermeidung mit minimaler Verzögerung zu verarbeiten, was für die Sicherheit in autonomen Fahrzeugen.

Implementierung der Quantisierung mit Ultralytics YOLO

Der Ultralytics vereinfacht den Export von Modellen in quantisierungsfreundliche Formate. Das folgende Beispiel zeigt, wie man ein YOLO11 Modell nach TFLite mit aktivierter INT8-Quantisierung exportiert wird. Bei diesem Vorgang wird die Kalibrierung automatisch anhand der angegebenen Daten durchgeführt.

from ultralytics import YOLO

# Load the standard YOLO11 model
model = YOLO("yolo11n.pt")

# Export to TFLite format with INT8 quantization
# The 'data' argument provides calibration images
model.export(format="tflite", int8=True, data="coco8.yaml")

Quantisierung vs. andere Optimierungstechniken

Es ist hilfreich, die Quantisierung von anderen Modelloptimierungsstrategien zu unterscheiden, zu unterscheiden, da sie oft zusammen verwendet werden, aber unterschiedlich funktionieren:

  • Quantisierung vs. Pruning: Während die Quantisierung die Präzision der Gewichte verringert, wird beim Pruning des Modells Modellbeschneidung das Entfernen unnötiger Verbindungen (Gewichte) vollständig entfernt, um ein spärliches Netz zu schaffen. Pruning ändert die Struktur, während Quantisierung den Datentyp ändert.
  • Quantisierung vs. Destillation: Bei der Wissensdestillation wird ein kleineres Schülermodell, um ein größeres Lehrermodell nachzubilden. Die Quantisierung kann anschließend auf das Schülermodell angewandt werden, um es weiter Größe zu reduzieren.
  • Quantisierung vs. Gemischte Präzision: Gemischte Präzision ist in erster Linie eine Trainingstechnik die eine Mischung aus FP16 und FP32 verwendet, um das Training zu beschleunigen und die Speichernutzung auf GPUs zu reduzieren, während die Quantisierung typischerweise eine Optimierung der Inferenzzeit unter Verwendung ganzer Zahlen ist.

Künftige Entwicklungen

Mit der zunehmenden Spezialisierung der Hardware-Beschleuniger nimmt die Bedeutung der Quantisierung weiter zu. Zukünftige Ultralytics Forschung, wie die kommende YOLO26, zielt darauf ab, die Effizienz weiter voranzutreiben, indem Architekturen entwickelt werden, die von Natur aus robust gegenüber aggressiver Quantisierung sind, um sicherzustellen, dass Hochleistungs-Computer-Vision selbst auf den kleinsten Endgeräten zugänglich bleibt.

Um eine breitere Kompatibilität zu erreichen, werden quantisierte Modelle häufig unter Verwendung interoperabler Standards wie ONNX oder optimierte Inferenz Engines wie TensorRT und OpenVINO.

Werden Sie Mitglied der Ultralytics

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten