Schalten Sie ein zu YOLO Vision 2025!
25. September 2025
10:00 — 18:00 Uhr BST
Hybride Veranstaltung
Yolo Vision 2024
Glossar

Knowledge Distillation (Wissensdestillation)

Entdecken Sie, wie Knowledge Distillation KI-Modelle für schnellere Inferenz, verbesserte Genauigkeit und effizientere Bereitstellung auf Edge-Geräten komprimiert.

Knowledge Distillation ist eine Technik zur Modelloptimierung und -komprimierung im maschinellen Lernen (ML), bei der ein kompaktes „Studentenmodell“ trainiert wird, um die Leistung eines größeren, komplexeren „Lehrermodells“ zu reproduzieren. Die Grundidee besteht darin, das „Wissen“ vom leistungsstarken, aber umständlichen Lehrermodell auf das kleinere, effizientere Studentenmodell zu übertragen. Dies ermöglicht den Einsatz hochgenauer Modelle in ressourcenbeschränkten Umgebungen, wie z. B. auf Edge-Geräten oder Mobiltelefonen, ohne einen signifikanten Leistungsabfall. Der Prozess schließt die Lücke zwischen massiven, hochmodernen Forschungsmodellen und der praktischen Modellbereitstellung in der realen Welt.

Wie Knowledge Distillation funktioniert

Das Lehrer-Modell, typischerweise ein großes neuronales Netz oder ein Ensemble von Modellen, wird zuerst auf einem großen Datensatz trainiert, um eine hohe Genauigkeit zu erzielen. Während des Destillationsprozesses lernt das Studentenmodell, indem es versucht, die Ausgaben des Lehrers nachzubilden. Anstatt nur von den Ground-Truth-Labels in den Trainingsdaten zu lernen, wird der Student auch auf den vollständigen Wahrscheinlichkeitsverteilungen des Lehrers für jede Vorhersage trainiert, die oft als "Soft Labels" bezeichnet werden. Diese Soft Labels liefern reichhaltigere Informationen als die "Hard Labels" (die richtigen Antworten), da sie aufdecken, wie das Lehrer-Modell "denkt" und generalisiert. Beispielsweise könnte ein Lehrer-Modell vorhersagen, dass ein Bild einer Katze mit 90%iger Wahrscheinlichkeit "Katze" ist, aber auch kleine Wahrscheinlichkeiten für "Hund" (5%) und "Fuchs" (2%) zuweisen. Diese differenzierten Informationen helfen dem Studentenmodell, effektiver zu lernen, was oft zu einer besseren Generalisierung führt, als wenn es nur auf den Hard Labels trainiert würde. Diese Technik ist ein wichtiger Bestandteil des Deep-Learning-Toolkits zur Erstellung effizienter Modelle.

Anwendungsfälle in der Praxis

Knowledge Distillation wird in verschiedenen Bereichen eingesetzt, um leistungsstarke KI zugänglich zu machen.

  1. Natural Language Processing (NLP): Große Sprachmodelle (LLMs) wie BERT sind unglaublich leistungsstark, aber für viele Anwendungen zu groß. DistilBERT ist ein bekanntes Beispiel für eine destillierte Version von BERT. Es ist 40 % kleiner und 60 % schneller, behält aber über 97 % der Leistung von BERT bei, wodurch es für Aufgaben wie Sentimentanalyse und Frage-Antwort auf Endgeräten geeignet ist.
  2. Computer Vision auf Edge-Geräten: In der Computer Vision kann ein großes, hochgenaues Modell für die Bildklassifizierung oder Objekterkennung in ein kleineres Modell destilliert werden. Dies ermöglicht es, komplexe Vision-Aufgaben, wie z. B. die Echtzeit-Personenerkennung für eine intelligente Überwachungskamera, direkt auf Hardware mit begrenzter Rechenleistung, wie z. B. einem Raspberry Pi, auszuführen, was die Geschwindigkeit und den Datenschutz verbessert. Ultralytics YOLO-Modelle wie YOLO11 können Teil solcher Workflows sein, bei denen das Wissen aus größeren Modellen das Training kleinerer, einsetzbarer Versionen beeinflussen könnte.

Knowledge Distillation vs. andere Optimierungstechniken

Knowledge Distillation ist verwandt mit anderen Modelloptimierungstechniken, unterscheidet sich aber von diesen. Das Verständnis der Unterschiede ist entscheidend für die Wahl des richtigen Ansatzes für Ihr Projekt, das über Plattformen wie Ultralytics HUB verwaltet und bereitgestellt werden kann.

  • Model Pruning: Diese Technik beinhaltet das Entfernen redundanter oder weniger wichtiger Verbindungen (Gewichte) aus einem bereits trainierten Netzwerk, um seine Größe zu reduzieren. Im Gegensatz dazu trainiert Distillation ein komplett neues, kleineres Netzwerk von Grund auf, um den Lehrer nachzuahmen.
  • Modellquantisierung: Die Quantisierung reduziert die numerische Präzision der Gewichte des Modells (z. B. von 32-Bit-Gleitkommazahlen auf 8-Bit-Integer). Dies verkleinert das Modell und kann die Berechnung auf kompatibler Hardware beschleunigen. Sie verändert die bestehende Darstellung des Modells, während Distillation ein neues Modell erzeugt. Die Quantisierung wird oft in Verbindung mit Distillation oder Pruning verwendet, und Modelle können in Formate wie ONNX exportiert oder mit Engines wie TensorRT optimiert werden.
  • Transfer Learning: Dies beinhaltet die Wiederverwendung von Teilen eines vortrainierten Modells (normalerweise seines Feature-extrahierenden Backbones) und dessen anschließende Feinabstimmung auf einem neuen, kleineren Datensatz. Ziel ist es, ein bestehendes Modell an eine neue Aufgabe anzupassen. Distillation hingegen zielt darauf ab, das Vorhersageverhalten eines Lehrers auf ein Schülermodell zu übertragen, das eine völlig andere Architektur haben kann.

Treten Sie der Ultralytics-Community bei

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten
Link in die Zwischenablage kopiert