Scaling Laws
Erkunde neurale Skalierungsgesetze und Test-Time-Compute in der KI. Erfahre, wie Ressourcen-Skalierung und Optimierung Modelle wie das neue Ultralytics YOLO26 leiten.
Empirische Beobachtungen zur neuronalen Skalierung in der künstlichen Intelligenz zeigen, dass sich die Leistung eines Modells vorhersagbar verbessert, wenn bestimmte Ressourcen—wie Rechenleistung, Datensatzgröße und die Anzahl der Parameter—erhöht werden. Diese Potenzgesetz-Beziehungen, die ursprünglich durch Forschungsarbeiten von Organisationen wie OpenAI und Google DeepMind bekannt wurden, zeigen, dass eine Skalierung der Ressourcen mathematisch vorhersagbare Verringerungen des Cross-Entropy-Loss bewirkt. Das Verständnis dieser Prinzipien ermöglicht es Forschern und Ingenieuren, Multimillionen-Dollar-Budgets effizient zuzuweisen und genau zu projizieren, wie groß ein neuronales Netz sein muss, um eine angestrebte Genauigkeit zu erreichen, bevor ein massiver Trainingslauf gestartet wird.
Link to this sectionDie Evolution der Pre-Training-Skalierung#
Die ursprüngliche Formulierung dieser Regeln, bekannt als die Kaplan-Skalierungsgesetze aus dem Jahr 2020, legte fest, dass die Leistung von Sprachmodellen mit zunehmender Trainingsrechenleistung gleichmäßig skaliert. Dieses Framework wurde später durch die Chinchilla-Skalierungsgesetze im Jahr 2022 verfeinert, die zeigten, dass für ein optimales Training sowohl die Modellgröße als auch die Trainingsdaten im gleichen Verhältnis skaliert werden müssen. Wenn du zum Beispiel die Parameter eines Modells verdoppelst, musst du auch die Anzahl der Trainingstokens verdoppeln. Dieses Paradigma leitete erfolgreich die Entwicklung moderner Large Language Models (LLMs) unter Verwendung von Frameworks wie PyTorch und TensorFlow und stellte sicher, dass massive Cluster von GPUs effektiv genutzt werden, ohne Overfitting zu riskieren oder Rechenleistung zu verschwenden.
Link to this sectionDer Paradigmenwechsel: Skalierung der Test-Time-Compute#
Zwischen 2024 und 2025, wie in jährlichen AI-Fortschrittsberichten hervorgehoben, erlebte die KI-Industrie eine massive Verschiebung in Richtung Skalierung zur Inferenzzeit. Da das Pre-Training größerer Modelle auf abnehmende Erträge und Grenzen bei der Datenverfügbarkeit stieß, entdeckten Forscher, wie man die LLM-Test-Time-Compute skaliert. Indem Modellen während der Inferenz mehr Rechenleistung zur Verfügung gestellt wird, können sie komplexe Schlussfolgerungsfähigkeiten drastisch verbessern.
Techniken wie Chain-of-Thought (CoT) und Best-of-N-Sampling ermöglichen es Modellen, mehrere Pfade zu erkunden, bevor sie antworten. Dieses Skalierungsgesetz für die Testzeit, das von fortschrittlichen Modellen wie OpenAI's o1 und DeepSeek-R1 sowie anderen fortschrittlichen Reasoning-Modellen entwickelt wurde, beweist, dass eine Erhöhung der Rechenleistung in der Vorhersagephase es einer viel kleineren, hocheffizienten Architektur ermöglichen kann, ein massives Legacy-Modell bei strengen logischen Benchmarks zu übertreffen.
Link to this sectionPraxisanwendungen#
Skalierungsprinzipien bestimmen die Entwicklung weit über die Textgenerierung hinaus und beeinflussen maßgeblich moderne Pipelines für Computer Vision und Objekterkennung.
- Ressourcenallokation für Foundation Models: Unternehmen, die Systeme für autonomes Fahren entwickeln, verlassen sich auf Skalierungsformeln, um genau zu berechnen, wie viele annotierte Bilder erforderlich sind, um Fehlerraten der Mean Average Precision (mAP) auf sichere, produktionsreife Niveaus zu senken. Durch die Nutzung der Ultralytics Platform für kollaborative Datenannotation und cloudbasiertes Distributed Training können Teams ihre Kosten vor der Bereitstellung mathematisch projizieren.
- Modellgröße und Edge-Bereitstellung: Skalierungsformeln beeinflussen direkt das architektonische Design moderner Modelle wie Ultralytics YOLO26. Indem ein einheitliches Modellportfolio angeboten wird, das mathematisch von Nano (n) bis Extra Large (x) skaliert ist, können Entwickler auf Basis ihrer spezifischen Edge-Hardware-Einschränkungen vorhersagbar zwischen strengen Genauigkeitsanforderungen und Inferenz-Latenz abwägen.
Link to this sectionCode-Beispiel: Inferenzzeit-Skalierung in der Computer Vision#
In der Computer Vision kannst du eine praktische Form der Testzeit-Skalierung namens Test-Time Augmentation (TTA) nutzen. Indem du während der Vorhersagephase zusätzliche Rechenleistung aufwendest, um mehrere augmentierte Versionen eines Bildes auszuwerten, verbessert das Modell vorhersagbar seine Erkennungskonfidenz, was die bei fortschrittlichen LLMs beobachteten Reasoning-Suchtechniken widerspiegelt.
from ultralytics import YOLO
# Load the recommended YOLO26 model (nano version for high speed)
model = YOLO("yolo26n.pt")
# Perform standard inference (faster, lower test-time compute)
results_standard = model("https://ultralytics.com/images/bus.jpg")
# Perform inference-time scaling via Test-Time Augmentation (TTA)
# Predictably improves accuracy by utilizing more compute during prediction
results_tta = model("https://ultralytics.com/images/bus.jpg", augment=True)
print(f"Standard detections: {len(results_standard[0].boxes)}")
print(f"Scaled TTA detections: {len(results_tta[0].boxes)}")Link to this sectionSkalierungsgesetze vs. verwandte Konzepte#
Obwohl sie eng mit Hardwarefähigkeiten verbunden sind, messen KI-Skalierungsregeln spezifisch die Software- und Algorithmeneffizienz in Bezug auf diese Hardware.
- Skalierungsgesetze vs. Moore's Law: Moore's Law ist eine langjährige Hardware-Beobachtung, die vorhersagt, dass sich die Anzahl der Transistoren auf einem Mikrochip etwa alle zwei Jahre verdoppelt. Im Gegensatz dazu verfolgt die KI-Skalierung mathematisch, wie sich die tatsächliche Modellfähigkeit bei Zugriff auf diesen wachsenden Hardwarepool verbessert.
- Training-Skalierung vs. Inferenz-Skalierung: Trainingsformeln berechnen die rechenoptimalste Mischung aus Parametern und Daten während der anfänglichen Erstellung eines Modells. Die Inferenz-Skalierung hingegen misst, wie die dynamische Investition zusätzlicher Rechenleistung in Such- und Verifizierungsschritte unmittelbar vor der Generierung einer Ausgabe das Endergebnis verbessert, ohne dass ein erneutes Training erforderlich ist.






