Scaling Laws
AI 분야의 신경망 스케일링 법칙과 테스트 타임 컴퓨팅을 살펴보십시오. 리소스 스케일링과 최적화가 새로운 Ultralytics YOLO26와 같은 모델을 어떻게 안내하는지 알아보십시오.
인공지능 분야의 신경망 스케일링에 대한 경험적 관찰 결과에 따르면, 컴퓨팅 파워, 데이터셋 크기, 매개변수 수와 같은 특정 자원이 증가함에 따라 모델의 성능이 예측 가능하게 향상됩니다. OpenAI 및 Google DeepMind와 같은 조직의 연구를 통해 대중화된 이러한 거듭제곱 법칙(power-law) 관계는 자원 규모를 확장할수록 교차 엔트로피 손실이 수학적으로 예측 가능한 수준으로 감소함을 보여줍니다. 이러한 원리를 이해하면 연구자와 엔지니어는 수백만 달러 규모의 예산을 효율적으로 할당할 수 있으며, 대규모 학습을 시작하기 전에 신경망의 규모를 어느 정도로 설정해야 목표 정확도를 달성할 수 있을지 정확하게 예측할 수 있습니다.
Link to this section사전 학습 스케일링의 진화#
The original formulation of these rules, known as the Kaplan scaling laws introduced in 2020, established that language model performance scales smoothly with increased training compute. This framework was later refined by the Chinchilla Scaling Laws in 2022, which revealed that for optimal training, both model size and training data must be scaled in equal proportions. For instance, if you double a model's parameters, you must also double the number of training tokens. This paradigm successfully guided the development of modern Large Language Models (LLMs) built using frameworks like PyTorch and TensorFlow, ensuring that massive clusters of GPUs are utilized effectively without risking overfitting or wasting computation.
Link to this section패러다임의 전환: 추론 시점(Test-Time) 컴퓨팅 스케일링#
연례 AI 진척도 보고서에서 강조된 바와 같이, 2024년에서 2025년 사이 AI 업계는 추론 시점 스케일링으로의 거대한 전환을 경험했습니다. 더 큰 모델을 사전 학습시키는 방식이 수확 체감 법칙과 데이터 가용성의 한계에 부딪히면서, 연구자들은 LLM 추론 시점 컴퓨팅을 스케일링하는 방법을 직접 발견했습니다. 추론 중에 모델에 더 많은 처리 능력을 제공함으로써 복잡한 추론 능력을 획기적으로 향상시킬 수 있게 되었습니다.
CoT(Chain-of-Thought) 및 Best-of-N 샘플링과 같은 기술을 사용하면 모델이 답변하기 전에 여러 경로를 탐색할 수 있습니다. OpenAI의 o1 및 DeepSeek-R1과 같은 고급 모델과 기타 고급 추론 모델이 개척한 이 추론 시점 스케일링 법칙은, 예측 단계의 컴퓨팅 자원을 증가시키는 것만으로도 훨씬 작고 효율적인 아키텍처가 엄격한 논리 벤치마크에서 대규모 레거시 모델을 능가할 수 있음을 증명합니다.
Link to this section실제 애플리케이션 사례#
스케일링 원칙은 텍스트 생성을 넘어 현대의 컴퓨터 비전 및 객체 탐지 파이프라인 전반의 개발을 지배하며 깊게 관여하고 있습니다.
- Resource Allocation for Foundation Models: Companies developing autonomous driving systems rely on scaling formulas to calculate exactly how many annotated images are required to reduce Mean Average Precision (mAP) error rates to safe, production-ready levels. By utilizing the Ultralytics Platform for collaborative data annotation and cloud-based distributed training, teams can project their costs mathematically before deployment.
- 모델 크기 최적화 및 엣지 배포: 스케일링 공식은 Ultralytics YOLO26과 같은 현대 모델의 아키텍처 설계에 직접적인 영향을 미칩니다. Nano(n)부터 Extra Large(x)까지 수학적으로 확장된 통합 모델 제품군을 제공함으로써, 개발자는 특정 엣지 하드웨어 제약 조건에 따라 엄격한 정확도 요구 사항과 추론 지연 시간 사이에서 균형을 예측 가능하게 조정할 수 있습니다.
Link to this section코드 예제: 컴퓨터 비전에서의 추론 시점 스케일링#
컴퓨터 비전에서는 Test-Time Augmentation (TTA)라고 하는 실용적인 형태의 추론 시점 스케일링을 활용할 수 있습니다. 예측 단계에서 추가적인 컴퓨팅 자원을 소비하여 이미지의 여러 증강 버전을 평가함으로써, 모델은 고급 LLM에서 볼 수 있는 추론 탐색 기술과 유사하게 탐지 신뢰도를 예측 가능하게 향상시킵니다.
from ultralytics import YOLO
# Load the recommended YOLO26 model (nano version for high speed)
model = YOLO("yolo26n.pt")
# Perform standard inference (faster, lower test-time compute)
results_standard = model("https://ultralytics.com/images/bus.jpg")
# Perform inference-time scaling via Test-Time Augmentation (TTA)
# Predictably improves accuracy by utilizing more compute during prediction
results_tta = model("https://ultralytics.com/images/bus.jpg", augment=True)
print(f"Standard detections: {len(results_standard[0].boxes)}")
print(f"Scaled TTA detections: {len(results_tta[0].boxes)}")Link to this section스케일링 법칙과 관련 개념의 비교#
AI 스케일링 규칙은 하드웨어 성능과 밀접하게 연관되어 있지만, 특히 해당 하드웨어와 관련된 소프트웨어 및 알고리즘의 효율성을 측정합니다.
- 스케일링 법칙 vs 무어의 법칙: 무어의 법칙은 마이크로칩의 트랜지스터 수가 약 2년마다 두 배로 증가한다는 오랜 하드웨어 관찰 결과입니다. 반면, AI 스케일링은 확장되는 하드웨어 풀에 접근할 수 있을 때 실제 모델의 기능이 어떻게 향상되는지를 수학적으로 추적합니다.
- 학습 스케일링 vs 추론 스케일링: 학습 공식은 모델의 초기 생성 과정에서 매개변수와 데이터의 가장 컴퓨팅 효율적인 조합을 계산합니다. 반면, 추론 스케일링은 출력을 생성하기 직전에 탐색 및 검증 단계에 추가 컴퓨팅 자원을 동적으로 소비하는 것이 재학습 없이 어떻게 최종 결과를 즉각적으로 향상시키는지 측정합니다.






