Entdecken Sie Parameter-Efficient Fine-Tuning (PEFT) zur Anpassung großer KI-Modelle mit minimalen Ressourcen. Sparen Sie Kosten, verhindern Sie Overfitting und optimieren Sie die Bereitstellung!
Parameter-Efficient Fine-Tuning (PEFT) ist eine ausgeklügelte Strategie im maschinellen Lernens (ML), die darauf abzielt, große, vortrainierte Modelle an spezifische nachgelagerte Aufgaben anzupassen, ohne dass das gesamte Netzwerk neu trainiert werden muss. Als Grundmodelle in Bereichen wie der Verarbeitung natürlicher Verarbeitung natürlicher Sprache und Computer Vision (CV) auf Milliarden von Parametern skaliert haben, ist die traditionelle Feinabstimmung - bei derjede Gewichtung im Modell aktualisiert wird - ist ist für viele Benutzer unerschwinglich geworden. PEFT geht dieses Problem an, indem es den Großteil der vortrainierten Modellgewichte einfriert Modellgewichte einfriert und nur eine kleine Teilmenge von Parameter aktualisiert oder ein paar neue trainierbare Schichten hinzufügt. Dieser Ansatz senkt die Hardware-Hürde erheblich und ermöglicht Forschern und Ingenieuren die Möglichkeit, Modelle auf dem neuesten Stand der Technik mit Consumer-Grade GPUs anpassen und dabei die Leistung vergleichbar mit einem vollständigen Training.
Das Kernkonzept hinter PEFT ist Transfer-Lernen, bei dem ein Modell das Wissen aus einem großen Datensatz (wie ImageNet oder Common Crawl) nutzt, um neue Probleme mit begrenzten Daten zu lösen. Im Gegensatz zur vollständigen Feinabstimmung ändert PEFT die Modellarchitektur oder den Trainingsprozess, um "parameter effizient" zu sein. Dadurch benötigt das angepasste Modell nur wenige Megabyte im Vergleich zu den Gigabytes, die für eine vollständige Modellkopie erforderlich sind. Diese Effizienz ist entscheidend für die Vermeidung katastrophales Vergessen zu verhindern, ein Phänomen, bei dem ein Modell seine ursprünglichen allgemeinen Fähigkeiten verliert, während es neue Informationen lernt.
Zu den gängigen Techniken im Rahmen von PEFT gehören:
PEFT trägt dazu bei, den Zugang zu leistungsstarken KI-Tools in verschiedenen Branchen zu demokratisieren.
Bei Ultralytics wird die Parametereffizienz häufig dadurch erreicht, dass die Backbone-Schichten des Netzes während des Trainings "eingefroren" werden. Schichten des Netzes während des Trainings. Dadurch wird sichergestellt, dass die Ebenen der Merkmalsextraktion unverändert bleiben und nur der Head (der Teil des Modells, der für die endgültigen Vorhersagen zuständig ist) aktualisiert wird.
Das folgende Beispiel zeigt, wie man eine einfache Form des parametereffizienten Trainings mit Ultralytics YOLO implementiert, indem die ersten 10 Schichten des Modells eingefroren werden.
from ultralytics import YOLO
# Load the YOLO11 model (latest stable version)
model = YOLO("yolo11n.pt")
# Train the model on a specific dataset
# The 'freeze=10' argument freezes the first 10 layers (the backbone)
# This reduces the number of trainable parameters significantly
results = model.train(data="coco8.yaml", epochs=5, freeze=10)
Das Verständnis des Unterschieds zwischen PEFT und ähnlichen Begriffen ist für die Wahl der richtigen Strategie entscheidend:
Durch die Minimierung des Rechenaufwands für die Anpassung ermöglicht PEFT die Erstellung hochspezialisierter Modelle für Aufgaben, die von der Wahrnehmung autonomer Fahrzeuge zur Analyse von Satellitenbildern, Dadurch wird fortschrittliche KI einer breiteren Entwicklergemeinschaft zugänglich.