Scaling Laws
Explora as leis de escala neural e o processamento em tempo de teste em IA. Aprende como o dimensionamento de recursos e a otimização orientam modelos como o novo Ultralytics YOLO26.
Observações empíricas de escalonamento neural em inteligência artificial demonstram que o desempenho de um modelo melhora de forma previsível à medida que recursos específicos—como poder computacional, tamanho do conjunto de dados e número de parâmetros—são aumentados. Inicialmente popularizadas por pesquisas de organizações como OpenAI e Google DeepMind, essas relações de lei de potência mostram que o aumento de recursos resulta em reduções matematicamente previsíveis na entropia cruzada. Compreender esses princípios permite que pesquisadores e engenheiros aloquem orçamentos de milhões de dólares de forma eficiente, projetando exatamente quão grande uma rede neural precisa ser para atingir uma precisão alvo antes de iniciar um treinamento em larga escala.
Link to this sectionA Evolução do Escalonamento de Pré-Treinamento#
A formulação original dessas regras, conhecida como leis de escalonamento de Kaplan introduzida em 2020, estabeleceu que o desempenho de modelos de linguagem escala suavemente com o aumento do poder computacional de treinamento. Este framework foi posteriormente refinado pelas Leis de Escalonamento de Chinchilla em 2022, que revelaram que, para um treinamento ideal, tanto o tamanho do modelo quanto os dados de treinamento devem ser escalonados em proporções iguais. Por exemplo, se você dobrar os parâmetros de um modelo, você também deve dobrar o número de tokens de treinamento. Este paradigma orientou com sucesso o desenvolvimento de modernos Grandes Modelos de Linguagem (LLMs) construídos usando frameworks como PyTorch e TensorFlow, garantindo que grandes clusters de GPUs sejam utilizados de forma eficaz sem arriscar overfitting ou desperdiçar computação.
Link to this sectionA Mudança de Paradigma: Escalonamento de Computação em Tempo de Teste#
Entre 2024 e 2025, conforme destacado em relatórios anuais de progresso de IA, a indústria de IA passou por uma mudança massiva em direção ao escalonamento no momento da inferência. À medida que o pré-treinamento de modelos maiores começou a atingir retornos decrescentes e barreiras de disponibilidade de dados, pesquisadores descobriram como escalonar a computação de tempo de teste de LLMs diretamente. Ao dar aos modelos mais poder de processamento durante a inferência, eles podem melhorar drasticamente as capacidades de raciocínio complexo.
Técnicas como Cadeia de Pensamento (CoT) e amostragem Best-of-N permitem que os modelos explorem múltiplos caminhos antes de responder. Esta lei de escalonamento de tempo de teste, pioneira em modelos avançados como o o1 da OpenAI e o DeepSeek-R1, ao lado de outros modelos de raciocínio avançados, prova que aumentar a computação na fase de predição pode permitir que uma arquitetura muito menor e altamente eficiente supere um modelo legado massivo em benchmarks lógicos rigorosos.
Link to this sectionAplicações no Mundo Real#
Princípios de escalonamento regem o desenvolvimento muito além da geração de texto, ditando fortemente modernos pipelines de visão computacional e detecção de objetos.
- Alocação de Recursos para Modelos de Fundação: Empresas que desenvolvem sistemas de direção autônoma dependem de fórmulas de escalonamento para calcular exatamente quantas imagens anotadas são necessárias para reduzir as taxas de erro de Precisão Média (mAP) a níveis seguros e prontos para produção. Ao utilizar a Plataforma Ultralytics para anotação de dados colaborativa e treinamento distribuído baseado em nuvem, equipes podem projetar seus custos matematicamente antes da implantação.
- Dimensionamento de Modelos e Implantação na Borda: As fórmulas de escalonamento influenciam diretamente o design arquitetônico de modelos modernos como o Ultralytics YOLO26. Ao oferecer uma família unificada de modelos escalonados matematicamente de Nano (n) a Extra Grande (x), desenvolvedores podem trocar previsivelmente requisitos rigorosos de precisão por latência de inferência com base nas restrições de seu hardware de borda específico.
Link to this sectionExemplo de Código: Escalonamento em Tempo de Inferência em Visão Computacional#
Em visão computacional, você pode aproveitar uma forma prática de escalonamento de tempo de teste chamada Test-Time Augmentation (TTA). Ao gastar computação adicional durante a fase de predição para avaliar múltiplas versões aumentadas de uma imagem, o modelo melhora previsivelmente sua confiança na detecção, espelhando as técnicas de busca de raciocínio vistas em LLMs avançados.
from ultralytics import YOLO
# Load the recommended YOLO26 model (nano version for high speed)
model = YOLO("yolo26n.pt")
# Perform standard inference (faster, lower test-time compute)
results_standard = model("https://ultralytics.com/images/bus.jpg")
# Perform inference-time scaling via Test-Time Augmentation (TTA)
# Predictably improves accuracy by utilizing more compute during prediction
results_tta = model("https://ultralytics.com/images/bus.jpg", augment=True)
print(f"Standard detections: {len(results_standard[0].boxes)}")
print(f"Scaled TTA detections: {len(results_tta[0].boxes)}")Link to this sectionLeis de Escalonamento vs. Conceitos Relacionados#
Embora intimamente relacionadas às capacidades de hardware, as regras de escalonamento de IA medem especificamente a eficiência de software e algorítmica em relação a esse hardware.
- Leis de Escalonamento vs. Lei de Moore: A Lei de Moore é uma observação de hardware de longa data que prevê que o número de transistores em um microchip dobra aproximadamente a cada dois anos. Em contraste, o escalonamento de IA rastreia matematicamente como a capacidade real do modelo melhora dado o acesso a esse pool de hardware em expansão.
- Escalonamento de Treinamento vs. Escalonamento de Inferência: Fórmulas de treinamento calculam a mistura de parâmetros e dados mais otimizada para computação durante a criação inicial de um modelo. O escalonamento de inferência, inversamente, mede como gastar dinamicamente computação extra em etapas de busca e verificação imediatamente antes de gerar uma saída melhora o resultado final sem exigir qualquer retreinamento.






