Scaling Laws
Explore les lois de mise à l'échelle neuronale et le calcul au moment de l'inférence en IA. Apprends comment le dimensionnement des ressources et l'optimisation guident des modèles comme le nouveau Ultralytics YOLO26.
Les observations empiriques du neural scaling en intelligence artificielle démontrent que les performances d'un modèle s'améliorent de manière prévisible à mesure que des ressources spécifiques—telles que la puissance de calcul, la taille du jeu de données et le nombre de paramètres—augmentent. Initialement popularisées par des recherches provenant d'organisations comme OpenAI et Google DeepMind, ces relations en loi de puissance montrent que l'augmentation des ressources produit des réductions mathématiquement prévisibles de la cross-entropy loss. Comprendre ces principes permet aux chercheurs et aux ingénieurs d'allouer efficacement des budgets de plusieurs millions de dollars, en projetant exactement quelle doit être la taille d'un neural network pour atteindre une accuracy cible avant de lancer un entraînement massif.
Link to this sectionL'évolution de la mise à l'échelle du pré-entraînement#
La formulation originale de ces règles, connue sous le nom de Kaplan scaling laws introduites en 2020, a établi que les performances des modèles de langage augmentent de manière fluide avec l'augmentation du calcul d'entraînement. Ce cadre a été affiné plus tard par les Chinchilla Scaling Laws en 2022, qui ont révélé que pour un entraînement optimal, la taille du modèle et les données d'entraînement doivent être mises à l'échelle dans des proportions égales. Par exemple, si tu doubles les paramètres d'un modèle, tu dois également doubler le nombre de jetons d'entraînement. Ce paradigme a guidé avec succès le développement des Large Language Models (LLMs) modernes construits en utilisant des frameworks comme PyTorch et TensorFlow, garantissant que des clusters massifs de GPUs sont utilisés efficacement sans risquer l'overfitting ou le gaspillage de calcul.
Link to this sectionLe changement de paradigme : Mise à l'échelle du calcul au moment de l'inférence#
Entre 2024 et 2025, comme souligné dans les annual AI progress reports, l'industrie de l'IA a connu un changement massif vers la mise à l'échelle au moment de l'inférence. Alors que le pré-entraînement de modèles plus grands commençait à atteindre des rendements décroissants et des limites de disponibilité des données, les chercheurs ont découvert comment scale LLM test-time compute directement. En donnant aux modèles plus de puissance de traitement pendant l'inférence, ils peuvent améliorer radicalement les capacités de raisonnement complexe.
Des techniques comme la chaîne de pensée (Chain-of-Thought ou CoT) et l'échantillonnage Best-of-N permettent aux modèles d'explorer plusieurs chemins avant de répondre. Cette loi d'échelle au moment de l'inférence, initiée par des modèles avancés comme OpenAI's o1 et DeepSeek-R1, aux côtés d'autres advanced reasoning models, prouve qu'augmenter le calcul lors de la phase de prédiction peut permettre à une architecture beaucoup plus petite et hautement efficace de surpasser un modèle massif existant sur des benchmarks logiques stricts.
Link to this sectionApplications concrètes#
Les principes de mise à l'échelle régissent le développement bien au-delà de la génération de texte, dictant fortement les pipelines modernes de computer vision et d'object detection.
- Resource Allocation for Foundation Models : Les entreprises développant des systèmes de conduite autonome s'appuient sur des formules de mise à l'échelle pour calculer exactement combien d'images annotées sont nécessaires pour réduire les taux d'erreur de Mean Average Precision (mAP) à des niveaux sûrs et prêts pour la production. En utilisant l'Ultralytics Platform pour le data annotation collaboratif et le distributed training basé sur le cloud, les équipes peuvent projeter leurs coûts mathématiquement avant le déploiement.
- Model Sizing and Edge Deployment : Les formules de mise à l'échelle influencent directement la conception architecturale de modèles modernes comme Ultralytics YOLO26. En offrant une famille unifiée de modèles mis à l'échelle mathématiquement de Nano (n) à Extra Large (x), les développeurs peuvent arbitrer de manière prévisible entre des exigences strictes de précision et l'inference latency en fonction des contraintes spécifiques de leur matériel embarqué.
Link to this sectionExemple de code : Mise à l'échelle au moment de l'inférence en vision par ordinateur#
En vision par ordinateur, tu peux tirer parti d'une forme pratique de mise à l'échelle au moment du test appelée Test-Time Augmentation (TTA). En consacrant du calcul supplémentaire pendant la prediction phase pour evaluate multiple augmented versions d'une image, le modèle améliore de manière prévisible sa confiance dans la détection, reflétant les techniques de recherche de raisonnement observées dans les LLMs avancés.
from ultralytics import YOLO
# Load the recommended YOLO26 model (nano version for high speed)
model = YOLO("yolo26n.pt")
# Perform standard inference (faster, lower test-time compute)
results_standard = model("https://ultralytics.com/images/bus.jpg")
# Perform inference-time scaling via Test-Time Augmentation (TTA)
# Predictably improves accuracy by utilizing more compute during prediction
results_tta = model("https://ultralytics.com/images/bus.jpg", augment=True)
print(f"Standard detections: {len(results_standard[0].boxes)}")
print(f"Scaled TTA detections: {len(results_tta[0].boxes)}")Link to this sectionLois d'échelle vs concepts connexes#
Bien qu'étroitement liées aux capacités matérielles, les règles de mise à l'échelle de l'IA mesurent spécifiquement l'efficacité logicielle et algorithmique par rapport à ce matériel.
- Scaling Laws vs. Moore's Law : La loi de Moore est une observation matérielle de longue date prédisant que le nombre de transistors sur une micropuce double environ tous les deux ans. En revanche, la mise à l'échelle de l'IA suit mathématiquement comment la capacité réelle du modèle s'améliore compte tenu de l'accès à ce parc matériel en expansion.
- Training Scaling vs. Inference Scaling : Les formules d'entraînement calculent le mélange le plus optimal de paramètres et de données lors de la création initiale d'un modèle. La mise à l'échelle de l'inférence, inversement, mesure comment le fait de consacrer dynamiquement du calcul supplémentaire aux étapes de recherche et de vérification immédiatement avant de générer une sortie améliore le résultat final sans nécessiter de réentraînement.






