Scaling Laws
Explora las leyes de escalado neuronal y el cómputo en tiempo de inferencia en IA. Aprende cómo el escalado de recursos y la optimización guían a modelos como el nuevo Ultralytics YOLO26.
Las observaciones empíricas de la escala neuronal en inteligencia artificial demuestran que el rendimiento de un modelo mejora de forma predecible a medida que aumentan recursos específicos, como la potencia de cómputo, el tamaño del conjunto de datos y el número de parámetros. Popularizadas inicialmente por investigaciones de organizaciones como OpenAI y Google DeepMind, estas relaciones de ley de potencia muestran que aumentar los recursos produce reducciones matemáticamente predecibles en la entropía cruzada. Comprender estos principios permite a los investigadores e ingenieros asignar eficientemente presupuestos millonarios, proyectando exactamente cuán grande debe ser una red neuronal para alcanzar una precisión objetivo antes de iniciar un proceso de entrenamiento masivo.
Link to this sectionLa evolución de la escala en el pre-entrenamiento#
La formulación original de estas reglas, conocida como las leyes de escala de Kaplan introducidas en 2020, estableció que el rendimiento de los modelos de lenguaje escala suavemente con el aumento del cómputo de entrenamiento. Este marco fue posteriormente refinado por las leyes de escala de Chinchilla en 2022, que revelaron que, para un entrenamiento óptimo, el tamaño del modelo y los datos de entrenamiento deben escalarse en proporciones iguales. Por ejemplo, si duplicas los parámetros de un modelo, también debes duplicar el número de tokens de entrenamiento. Este paradigma guio con éxito el desarrollo de modernos Grandes Modelos de Lenguaje (LLMs) creados con frameworks como PyTorch y TensorFlow, asegurando que los clústeres masivos de GPUs se utilicen eficazmente sin arriesgar el sobreajuste ni desperdiciar cómputo.
Link to this sectionEl cambio de paradigma: Escala de cómputo durante la inferencia#
Entre 2024 y 2025, tal como se destaca en los informes anuales de progreso de la IA, la industria de la IA experimentó un cambio masivo hacia la escala en el tiempo de inferencia. A medida que el pre-entrenamiento de modelos más grandes comenzó a alcanzar rendimientos decrecientes y límites de disponibilidad de datos, los investigadores descubrieron cómo escalar el cómputo en tiempo de prueba de los LLMs directamente. Al dar a los modelos más potencia de procesamiento durante la inferencia, pueden mejorar drásticamente sus capacidades de razonamiento complejo.
Técnicas como la cadena de pensamiento (CoT) y el muestreo Best-of-N permiten a los modelos explorar múltiples caminos antes de responder. Esta ley de escala en tiempo de prueba, iniciada por modelos avanzados como o1 de OpenAI y DeepSeek-R1, junto con otros modelos de razonamiento avanzado, demuestra que aumentar el cómputo en la fase de predicción puede permitir que una arquitectura mucho más pequeña y altamente eficiente supere a un modelo legado masivo en benchmarks lógicos estrictos.
Link to this sectionAplicaciones en el mundo real#
Los principios de escala rigen el desarrollo mucho más allá de la generación de texto, dictando en gran medida las modernas canalizaciones de visión artificial y detección de objetos.
- Asignación de recursos para modelos fundacionales: Las empresas que desarrollan sistemas de conducción autónoma dependen de fórmulas de escala para calcular exactamente cuántas imágenes anotadas se requieren para reducir las tasas de error de Mean Average Precision (mAP) a niveles seguros listos para producción. Al utilizar la Plataforma Ultralytics para la anotación de datos colaborativa y el entrenamiento distribuido basado en la nube, los equipos pueden proyectar sus costes matemáticamente antes de la implementación.
- Dimensionamiento de modelos e implementación en el borde: Las fórmulas de escala influyen directamente en el diseño arquitectónico de modelos modernos como Ultralytics YOLO26. Al ofrecer una familia unificada de modelos escalados matemáticamente desde Nano (n) hasta Extra Large (x), los desarrolladores pueden equilibrar de forma predecible requisitos estrictos de precisión frente a la latencia de inferencia según las limitaciones específicas de su hardware de borde.
Link to this sectionEjemplo de código: Escala en tiempo de inferencia en visión artificial#
En visión artificial, puedes aprovechar una forma práctica de escala en tiempo de prueba llamada Aumento de datos en tiempo de prueba (TTA). Al dedicar cómputo adicional durante la fase de predicción para evaluar múltiples versiones aumentadas de una imagen, el modelo mejora predeciblemente su confianza en la detección, reflejando las técnicas de búsqueda de razonamiento observadas en los LLMs avanzados.
from ultralytics import YOLO
# Load the recommended YOLO26 model (nano version for high speed)
model = YOLO("yolo26n.pt")
# Perform standard inference (faster, lower test-time compute)
results_standard = model("https://ultralytics.com/images/bus.jpg")
# Perform inference-time scaling via Test-Time Augmentation (TTA)
# Predictably improves accuracy by utilizing more compute during prediction
results_tta = model("https://ultralytics.com/images/bus.jpg", augment=True)
print(f"Standard detections: {len(results_standard[0].boxes)}")
print(f"Scaled TTA detections: {len(results_tta[0].boxes)}")Link to this sectionLeyes de escala frente a conceptos relacionados#
Aunque están estrechamente relacionadas con las capacidades del hardware, las reglas de escala de la IA miden específicamente la eficiencia del software y los algoritmos en relación con dicho hardware.
- Leyes de escala frente a la Ley de Moore: La Ley de Moore es una observación de hardware de larga data que predice que el número de transistores en un microchip se duplica aproximadamente cada dos años. Por el contrario, la escala de la IA rastrea matemáticamente cómo mejora la capacidad real del modelo dado el acceso a ese grupo de hardware en expansión.
- Escala de entrenamiento frente a escala de inferencia: Las fórmulas de entrenamiento calculan la combinación más óptima de parámetros y datos durante la creación inicial de un modelo. La escala de inferencia, por el contrario, mide cómo el gasto dinámico de cómputo adicional en pasos de búsqueda y verificación inmediatamente antes de generar un resultado mejora el resultado final sin necesidad de volver a entrenar.






