Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten
Glossar

Gemischte Präzision

Erfahren Sie, wie gemischte Genauigkeit das Training beschleunigt und den Speicherbedarf für Modelle wie Ultralytics reduziert. Entdecken Sie die Vorteile von FP16 und FP32 für schnellere KI-Erkenntnisse.

Gemischte Genauigkeit ist eine zentrale Technik in der Modelloptimierung, die dazu dient, das Training von Deep-Learning-Modellen zu beschleunigen und gleichzeitig den Speicherverbrauch zu reduzieren. Durch die strategische Kombination verschiedener numerischer Formate – in der Regel 16-Bit- und 32-Bit-Gleitkommatypen – ermöglicht diese Methode Maschinellen Lernalgorithmen, Berechnungen schneller durchzuführen, ohne die endgültige Genauigkeit des Modells zu beeinträchtigen. Sie hat sich zu einer Standardpraxis in der modernen KI-Entwicklung entwickelt , insbesondere für ressourcenintensive Aufgaben wie das Training der YOLO26-Architektur auf massiven Datensätzen.

Wie funktioniert Mixed Precision?

In traditionellen Deep-Learning-Workflows führen Modelle Berechnungen in der Regel im Single-Precision-Floating-Point-Format (FP32) durch. Jede Zahl in FP32 benötigt 32 Bit Speicherplatz. Dieses Format ist zwar hochpräzise, kann jedoch rechenintensiv und speicherhungrig sein.

Die gemischte Genauigkeit führt die Verwendung von Halbgenauigkeit (FP16) ein, die nur 16 Bit verwendet. Die ausschließliche Verwendung von FP16 kann jedoch aufgrund eines geringeren Dynamikbereichs zu numerischer Instabilität führen. Um dieses Problem zu lösen, behalten Mixed-Precision-Methoden eine „Masterkopie” der Modellgewichte in FP32 bei, um die Stabilität zu gewährleisten, während FP16 für die rechenintensiven mathematischen Operationen wie Faltungen und Matrixmultiplikationen verwendet wird.

Der Prozess umfasst im Allgemeinen drei wichtige Schritte:

  1. Casting: Umwandlung der Eingaben und Aktivierungen des Modells in FP16, um die Ausführung auf kompatibler Hardware wie NVIDIA Tensor zu beschleunigen.
  2. Verlustskalierung: Verstärkung der Verlustfunktionswerte, um einen „Unterlauf“ zu verhindern, bei dem kleine Gradientenaktualisierungen in FP16 zu Null werden.
  3. Akkumulation: Durchführung der arithmetischen Operationen in FP16, aber Akkumulation der Ergebnisse in FP32, um die erforderlichen Informationen vor der Aktualisierung der Master-Gewichte zu erhalten.

Vorteile beim KI-Training

Die Einführung gemischter Genauigkeit bietet erhebliche Vorteile für Entwickler und Forscher, die Rechenressourcen effektiv nutzen:

  • Schnellere Trainingsgeschwindigkeit: Operationen in FP16 erfordern weniger Speicherbandbreite und werden von modernen GPUs schneller verarbeitet. Dadurch kann die für eine Epoche erforderliche Zeit erheblich reduziert werden.
  • Reduzierter Speicherverbrauch: Da FP16-Tensoren nur halb so viel Speicherplatz benötigen wie FP32, können Entwickler ihre Batchgröße im Wesentlichen verdoppeln. Größere Batchgrößen führen oft zu stabileren Gradientenschätzungen und einer schnelleren Konvergenz.
  • Energieeffizienz: Eine geringere Rechenlast führt zu einem geringeren Energieverbrauch, was für groß angelegte Cloud-Trainingsvorgänge von entscheidender Bedeutung ist.

Anwendungsfälle in der Praxis

Gemischte Genauigkeit wird in verschiedenen Branchen eingesetzt, um komplexe Modelle und große Datensätze effizient zu verarbeiten.

Autonomes Fahren

Bei der Entwicklung autonomer Fahrzeuge müssen Ingenieure Modelle zur Objekterkennung anhand von Millionen hochauflösender Videobilder trainieren. Durch die Verwendung gemischter Präzision können sie modernste Modelle wie YOLO26 effizient trainieren. Der reduzierte Speicherbedarf ermöglicht die Verarbeitung von Eingaben mit höherer Auflösung, was für die Erkennung kleiner Objekte wie Verkehrszeichen oder Fußgänger in der Ferne entscheidend ist.

Medizinische Bildanalyse

Die medizinische Bildanalyse umfasst häufig 3D-Volumendaten aus MRT- oder CT-Scans, die extrem speicherintensiv sind. Das Training von Segmentierungsmodellen mit diesen Daten in voller FP32-Genauigkeit führt häufig zu „Out of Memory”-Fehlern (OOM). Dank gemischter Genauigkeit können Forscher diese umfangreichen Modelle in GPU einpassen, was die Entwicklung von KI erleichtert, die Ärzten bei der Früherkennung von Krankheiten helfen kann.

Implementierung von gemischter Präzision mit Ultralytics

Moderne Frameworks wie PyTorch handeln in der Regel die Komplexitäten der gemischten Genauigkeit automatisch über eine Funktion namens Automatic Mixed Precision (AMP). Die ultralytics Das Paket aktiviert AMP standardmäßig während des Trainings, um eine optimale Leistung zu gewährleisten.

Hier ist ein kurzes Beispiel dafür, wie man das Training mit YOLO26 startet, wo Mixed Precision standardmäßig aktiv ist (steuerbar über die amp Argument):

from ultralytics import YOLO

# Load the latest YOLO26 model
model = YOLO("yolo26n.pt")

# Train the model on the COCO8 dataset
# amp=True is the default setting for mixed precision training
results = model.train(data="coco8.yaml", epochs=5, imgsz=640, amp=True)

Gemischte Genauigkeit vs. verwandte Konzepte

Es ist hilfreich, gemischte Genauigkeit von ähnlichen Begriffen im Glossar zu unterscheiden, um Verwechslungen zu vermeiden:

  • Modellquantisierung: Während bei der gemischten Genauigkeit während des Trainings Fließkommazahlen mit geringerer Genauigkeit (FP16) verwendet werden, werden bei der Quantisierung in der Regel die Gewichte nach dem Training für die Bereitstellung in Ganzzahlen (wie INT8) umgewandelt. Die Quantisierung konzentriert sich in erster Linie auf die Inferenzlatenz auf Edge-Geräten, während die gemischte Genauigkeit den Schwerpunkt auf Trainingsgeschwindigkeit und Stabilität legt.
  • Halbe Genauigkeit: Dies bezieht sich speziell auf das FP16-Datenformat selbst. Gemischte Genauigkeit ist die Technik, bei der sowohl FP16 als auch FP32 zusammen verwendet werden. Die Verwendung von reiner halber Genauigkeit ohne die „gemischte” FP32-Masterkopie führt häufig zu Modellen, die aufgrund numerischer Fehler nicht konvergieren.

Fazit

Die gemischte Genauigkeit hat die Art und Weise revolutioniert, wie neuronale Netze trainiert werden, und ist ein entscheidender Faktor für die massiven Fundamentmodelle und Bildverarbeitungssysteme, die wir heute sehen. Durch den Ausgleich zwischen der Notwendigkeit mathematischer Präzision und den Einschränkungen der Hardwaregeschwindigkeit und des Speichers können Entwickler schneller iterieren und leistungsfähigere KI-Lösungen entwickeln.

Für diejenigen, die Datensätze verwalten und optimierte Modelle nahtlos trainieren möchten, bietet Ultralytics eine umfassende Umgebung, die diese modernen Optimierungstechniken automatisch nutzt.

Werden Sie Mitglied der Ultralytics

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten