Scaling Laws
Esplora le leggi di scaling neurale e il calcolo in fase di test nell'IA. Scopri come il ridimensionamento delle risorse e l'ottimizzazione guidano modelli come il nuovo Ultralytics YOLO26.
Le osservazioni empiriche della neural scaling nell'intelligenza artificiale dimostrano che le prestazioni di un modello migliorano in modo prevedibile all'aumentare di risorse specifiche, come la potenza di calcolo, la dimensione del dataset e il numero di parametri. Inizialmente rese popolari dalla ricerca di organizzazioni come OpenAI e Google DeepMind, queste relazioni di legge di potenza mostrano che aumentare le risorse produce riduzioni matematicamente prevedibili nella cross-entropy loss. Comprendere questi principi consente a ricercatori e ingegneri di allocare in modo efficiente budget multimilionari, proiettando esattamente quanto deve essere grande una neural network per raggiungere un accuracy obiettivo prima di avviare un enorme ciclo di addestramento.
Link to this sectionL'evoluzione della scala nel pre-addestramento#
La formulazione originale di queste regole, nota come Kaplan scaling laws introdotta nel 2020, ha stabilito che le prestazioni del modello linguistico scalano uniformemente con l'aumento del calcolo per l'addestramento. Questo framework è stato successivamente perfezionato dalle Chinchilla Scaling Laws nel 2022, che hanno rivelato che per un addestramento ottimale, sia la dimensione del modello che i dati di addestramento devono essere scalati in proporzioni uguali. Ad esempio, se raddoppi i parametri di un modello, devi anche raddoppiare il numero di token di addestramento. Questo paradigma ha guidato con successo lo sviluppo di moderni Large Language Models (LLMs) costruiti utilizzando framework come PyTorch e TensorFlow, assicurando che enormi cluster di GPUs siano utilizzati in modo efficace senza rischiare overfitting o sprecare computazione.
Link to this sectionIl cambio di paradigma: Scaling del calcolo in fase di test#
Tra il 2024 e il 2025, come evidenziato nei report annuali sul progresso dell'IA, il settore dell'IA ha subito un massiccio spostamento verso lo scaling in fase di inferenza. Poiché il pre-addestramento di modelli più grandi ha iniziato a raggiungere rendimenti decrescenti e limiti di disponibilità dei dati, i ricercatori hanno scoperto come scalare il calcolo in fase di test degli LLM direttamente. Fornendo ai modelli più potenza di elaborazione durante l'inferenza, possono migliorare drasticamente le capacità di ragionamento complesso.
Tecniche come Chain-of-Thought (CoT) e il campionamento Best-of-N consentono ai modelli di esplorare percorsi multipli prima di rispondere. Questa legge di scala in fase di test, introdotta da modelli avanzati come o1 di OpenAI e DeepSeek-R1, insieme ad altri modelli di ragionamento avanzato, dimostra che aumentare il calcolo nella fase di previsione può consentire a un'architettura molto più piccola ed efficiente di superare un enorme modello legacy su rigorosi benchmark logici.
Link to this sectionApplicazioni nel mondo reale#
I principi di scala governano lo sviluppo ben oltre la generazione di testo, influenzando pesantemente i moderni pipeline di computer vision e object detection.
- Allocazione delle risorse per i modelli di base: Le aziende che sviluppano sistemi di guida autonoma si affidano a formule di scala per calcolare esattamente quante immagini annotate sono necessarie per ridurre i tassi di errore del Mean Average Precision (mAP) a livelli sicuri e pronti per la produzione. Utilizzando la Ultralytics Platform per la data annotation collaborativa e il distributed training basato su cloud, i team possono proiettare i loro costi matematicamente prima della distribuzione.
- Dimensionamento del modello e distribuzione Edge: Le formule di scala influenzano direttamente il design architettonico di modelli moderni come Ultralytics YOLO26. Offrendo una famiglia unificata di modelli scalati matematicamente da Nano (n) a Extra Large (x), gli sviluppatori possono bilanciare in modo prevedibile i rigorosi requisiti di accuratezza rispetto alla inference latency in base ai vincoli del loro specifico hardware edge.
Link to this sectionEsempio di codice: Scaling in fase di inferenza nella Computer Vision#
Nella computer vision, puoi sfruttare una forma pratica di scaling in fase di test chiamata Test-Time Augmentation (TTA). Spendendo ulteriore calcolo durante la prediction phase per valutare molteplici versioni aumentate di un'immagine, il modello migliora prevedibilmente la sua confidenza di rilevamento, rispecchiando le tecniche di ricerca nel ragionamento viste negli LLM avanzati.
from ultralytics import YOLO
# Load the recommended YOLO26 model (nano version for high speed)
model = YOLO("yolo26n.pt")
# Perform standard inference (faster, lower test-time compute)
results_standard = model("https://ultralytics.com/images/bus.jpg")
# Perform inference-time scaling via Test-Time Augmentation (TTA)
# Predictably improves accuracy by utilizing more compute during prediction
results_tta = model("https://ultralytics.com/images/bus.jpg", augment=True)
print(f"Standard detections: {len(results_standard[0].boxes)}")
print(f"Scaled TTA detections: {len(results_tta[0].boxes)}")Link to this sectionLeggi di scala vs. concetti correlati#
Sebbene siano strettamente correlate alle capacità hardware, le regole di scaling dell'IA misurano specificamente l'efficienza software e algoritmica in relazione a tale hardware.
- Leggi di scala vs. Legge di Moore: La legge di Moore è un'osservazione hardware di lunga data che prevede che il numero di transistor su un microchip raddoppi all'incirca ogni due anni. Al contrario, lo scaling dell'IA traccia matematicamente come migliora la capacità effettiva del modello dato l'accesso a quel pool hardware in espansione.
- Scaling dell'addestramento vs. Scaling dell'inferenza: Le formule di addestramento calcolano il mix di parametri e dati più ottimale dal punto di vista computazionale durante la creazione iniziale di un modello. Lo scaling dell'inferenza, al contrario, misura come spendere dinamicamente calcolo extra in passaggi di ricerca e verifica immediatamente prima di generare un output migliori il risultato finale senza richiedere alcun riaddestramento.






