YOLO Vision 2025를 놓치지 마세요!
2025년 9월 25일
10:00 — 18:00 BST
하이브리드 이벤트
Yolo Vision 2024
용어집

배치 크기

딥 러닝에서 배치 크기가 미치는 영향을 알아보고, 학습 속도, 메모리 사용량 및 모델 성능을 효율적으로 최적화하는 방법을 알아보세요.

배치 크기는 모델의 내부 매개변수가 업데이트되기 전에 처리되는 학습 샘플 수를 정의하는 머신 러닝의 기본 하이퍼파라미터입니다. 계산적으로 금지될 수 있는 전체 학습 데이터 세트를 한 번에 처리하는 대신 데이터를 더 작은 하위 집합 또는 "배치"로 나눕니다. 배치 크기 선택은 모델의 학습 역학, 학습 속도 및 최종 성능에 직접적인 영향을 미치는 중요한 결정입니다. 이는 계산 효율성과 모델 가중치를 업데이트하는 데 사용되는 기울기 추정의 정확도 간의 절충점을 나타냅니다.

모델 학습에서 배치 크기의 역할

훈련 중에 신경망(NN)은 오류를 기반으로 가중치를 조정하여 학습합니다. 이 조정은 경사 하강법과 같은 최적화 알고리즘에 의해 안내됩니다. 배치 크기는 모델이 기울기를 계산하고 가중치 업데이트를 수행하기 전에 모델이 "보는" 예제의 수를 결정합니다.

  • Stochastic Gradient Descent (SGD): 배치 크기가 1이면 이 프로세스를 stochastic gradient descent라고 합니다. 각 개별 샘플에 대해 gradient가 계산되어 빈번하지만 노이즈가 많은 업데이트가 발생합니다.
  • 배치 경사 하강법: 배치 크기가 훈련 데이터 세트의 총 샘플 수와 같으면 배치 경사 하강법이라고 합니다. 이는 매우 정확한 기울기 추정치를 제공하지만 계산 비용이 비싸고 메모리 집약적입니다.
  • 미니 배치 경사 하강법: 이는 가장 일반적인 접근 방식으로, 배치 크기가 1과 총 데이터 세트 크기 사이의 값(예: 32, 64, 128)으로 설정됩니다. 배치 경사 하강법의 안정성과 확률적 경사 하강법의 효율성 사이의 균형을 제공합니다.

배치 크기 선택은 학습 과정에 큰 영향을 미칩니다. 배치 크기가 클수록 기울기에 대한 더 정확한 추정치를 제공하지만, 각 업데이트에 대한 계산 비용이 더 높습니다. 반대로, 배치 크기가 작을수록 기울기 추정치의 정확도는 떨어지지만 업데이트 속도가 더 빨라집니다.

올바른 배치 크기 선택

최적의 배치 크기를 찾는 것은 하이퍼파라미터 튜닝의 중요한 부분이며 데이터 세트, 모델 아키텍처 및 사용 가능한 하드웨어에 따라 달라집니다.

  • 대규모 배치 크기: 한 번에 더 많은 데이터를 처리하면 GPU의 병렬 처리 기능을 최대한 활용하여 에포크당 더 빠른 훈련 시간을 얻을 수 있습니다. 그러나 연구에 따르면 매우 큰 배치는 때때로 모델이 훈련 데이터에서는 잘 수행되지만 보이지 않는 데이터에서는 제대로 수행되지 않는 "일반화 격차"로 이어질 수 있습니다. 또한 상당한 메모리가 필요하며 이는 제한 요인이 될 수 있습니다.
  • 작은 배치 크기: 이러한 크기는 더 적은 메모리를 필요로 하며 기울기 업데이트의 노이즈가 모델이 로컬 최소값을 벗어나 보다 강력한 솔루션을 찾는 데 도움이 되므로 모델 일반화가 더 잘 되는 경우가 많습니다. 이는 과적합을 방지하는 데 도움이 될 수 있습니다. 주요 단점은 가중치 업데이트가 더 빈번하고 병렬로 처리되는 데이터가 적기 때문에 훈련 속도가 느리다는 것입니다.

많은 애플리케이션에서 2의 거듭제곱(예: 32, 64, 128, 256)인 배치 크기는 GPU 메모리 아키텍처와 잘 맞기 때문에 권장됩니다. Ultralytics HUB와 같은 도구를 사용하면 모델 학습 시 다양한 배치 크기를 쉽게 실험할 수 있습니다.

학습 대 추론의 배치 크기

배치 크기는 학습의 핵심 개념이지만 추론에도 적용되지만 목적은 다릅니다. 추론 중에 배치는 처리량을 최대화하기 위해 여러 입력(예: 이미지 또는 문장)을 동시에 처리하는 데 사용됩니다. 이를 종종 배치 추론이라고 합니다.

자율 주행 차량의 실시간 추론과 같이 즉각적인 결과를 요구하는 애플리케이션의 경우 추론 지연 시간을 최소화하기 위해 배치 크기 1이 사용됩니다. 대규모 이미지 컬렉션을 밤새 처리하는 것과 같은 오프라인 시나리오에서는 더 큰 배치 크기를 사용하여 효율성을 높일 수 있습니다.

실제 애플리케이션

  1. 의료 영상 분석: 의료 영상에서 종양 감지를 위해 YOLO11 모델을 학습할 때 이미지는 종종 고해상도입니다. GPU의 메모리 제약으로 인해 일반적으로 작은 배치 크기(예: 4 또는 8)가 사용됩니다. 이를 통해 모델은 사용 가능한 메모리를 초과하지 않고 고화질 데이터로 학습할 수 있어 안정적인 학습이 가능합니다.
  2. 제조 품질 관리: 제조 AI 환경에서 모델은 조립 라인의 결함을 감지하도록 학습될 수 있습니다. 수백만 개의 제품 이미지로 구성된 대규모 데이터 세트를 사용하여 강력한 분산 학습 클러스터에서 더 큰 배치 크기(예: 256 또는 512)를 사용할 수 있습니다. 이를 통해 학습 프로세스 속도를 높여 모델 반복 및 배포 속도를 높일 수 있습니다.

배치 크기 대 관련 용어

배치 크기를 다른 관련 개념과 구별하는 것이 중요합니다.

  • 배치 크기 vs. 에포크 및 반복: 반복은 모델 가중치의 한 번의 업데이트입니다. 에포크는 전체 훈련 데이터 세트에 대한 한 번의 전체 패스입니다. 에포크의 반복 횟수는 총 훈련 샘플 수를 배치 크기로 나눈 값입니다.
  • 배치 크기 vs. 배치 정규화: 배치 정규화(BatchNorm)는 각 미니 배치에 대한 입력을 표준화하기 위해 신경망 레이어 내에서 사용되는 기술입니다. 효과는 배치 크기에 영향을 받을 수 있지만(배치 크기가 클수록 성능이 향상됨) 훈련 루프 매개변수가 아닌 모델 아키텍처의 고유한 레이어입니다. PyTorchTensorFlow와 같은 대부분의 최신 딥러닝 프레임워크는 강력한 구현을 제공합니다.

Ultralytics 커뮤니티에 참여하세요

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기
클립보드에 링크가 복사되었습니다.