Yolo 비전 선전
선전
지금 참여하기
용어집

학습률

AI에서 최적의 학습률 설정 기술을 마스터하세요! 이 중요한 하이퍼파라미터가 모델 훈련 및 성능에 미치는 영향을 알아보세요.

학습 속도는 구성 가능한 하이퍼파라미터로 신경망 훈련에 사용되며 모델 가중치가업데이트될 때마다 추정 오류에 따라 모델을 얼마나 변경할지 가 업데이트될 때마다 모델을 얼마나 변경할지를 제어합니다. 이는 기본적으로 최소손실 함수를 향해 이동하면서 각 반복에서 스텝 크기를 결정합니다. 훈련 과정을 안개가 자욱한 산을 내려가 계곡(최적 상태)에 도달하는 것으로 상상하면, 학습 속도에 따라 학습률은 각 보폭의 길이를 결정합니다. 학습 속도는 다음과 같이 직접적으로 영향을 미치기 때문에 가장 중요하게 조정해야 하는 설정 중 하나입니다. 수렴 속도와 모델이 최적의 솔루션을 성공적으로 찾을 수 있는지 여부에 직접적인 영향을 미치기 때문입니다.

학습률이 교육에 미치는 영향

올바른 학습 속도를 선택하는 것은 종종 균형을 잡는 작업입니다. 선택한 값은 학습에 큰 영향을 미칩니다. 역학:

  • 너무 높음: 학습 속도가 너무 높게 설정되면 모델이 너무 큰 단계를 수행할 수 있습니다, 최적의 가중치를 지속적으로 초과할 수 있습니다. 이로 인해 손실이 진동하거나 심지어 손실이 (증가)하여 모델이 수렴하지 못하는 불안정한 학습으로 이어질 수 있습니다.
  • 너무 낮음: 반대로 학습률이 너무 낮으면 업데이트가 매우 적게 이루어집니다. 반면 모델이 최소값을 놓치지 않도록 보장하지만, 학습프로세스가 고통스럽게 느려집니다. 또한, 손실의 국부적인 최소-차선형 계곡에 갇힐 위험이 높아집니다. 랜드스케이프 선도적 타운더피팅.

대부분의 최신 교육 워크플로에서는 교육 중에 학습 속도를 동적으로 조정하는 학습속도 스케줄러를 활용합니다. 일반적인 전략은 '워밍업' 기간에 학습률을 낮게 시작하여 점차적으로 높이는 비율이 낮게 시작하여 증가하다가 점차 줄어드는 "감쇠" 단계가 이어집니다. 모델이 수렴에 가까워질수록 세밀하게 가중치를 조정합니다.

Ultralytics 학습 속도 설정

Ultralytics 프레임워크에서는 초기 학습 속도를 쉽게 구성할 수 있습니다(lr0) 및 최종 학습률(lrf)를 인자로 사용하여 모델을 학습시킬 수 있습니다. 이러한 유연성 덕분에 특정 데이터 세트에 맞게 다양한 값을 실험할 수 있습니다.

from ultralytics import YOLO

# Load the recommended YOLO11 model
model = YOLO("yolo11n.pt")

# Train on COCO8 with a custom initial learning rate
# 'lr0' sets the initial learning rate (default is usually 0.01)
results = model.train(data="coco8.yaml", epochs=100, lr0=0.01)

실제 애플리케이션

학습률의 선택은 산업 전반에 걸쳐 강력한 AI 솔루션을 배포하는 데 있어 매우 중요합니다:

  1. 의료 영상 분석:의료와 같은 의료 분야의 AI와 같은 고위험 분야에서는 모델 은 MRI 스캔에서 종양과 같은 이상 징후를 detect 훈련받습니다. 여기서는 신중하게 조정된 학습 속도가 필수적입니다. 모델이 노이즈에 과적합하지 않고 복잡한 패턴을 학습할 수 있도록 신중하게 학습 속도를 조정해야 합니다. 예를 들어YOLO11 모델을 훈련할 때, 연구자들은 정확도와신뢰성을 극대화하기 위해 스케줄러를 사용하여 학습 속도를 낮추는 경우가 많습니다. 및 신뢰성을 극대화하기 위해 스케줄러를 사용하여 학습 속도를 낮춥니다.
  2. 자율 주행 차량:용도 자율 주행 차량의 물체 감지, 모델 은 다양한 환경에서 보행자, 표지판, 기타 차량을 인식해야 합니다. 웨이모오픈 데이터세트와 같은 대규모 데이터 세트에 대한 학습에는 방대한 가변성을 처리할 수 있는 최적화된 학습 속도가 필요합니다. 과 같은 방대한 데이터 세트를 학습하려면 데이터의 방대한 변동성을 처리할 수 있는 최적화된 학습 속도가 필요합니다. 적응형 학습 속도는 모델이 초기 단계에서 더 빠르게 수렴하고 바운딩박스를구체화하며 예측을 구체화하여자동차시스템의 안전성을 높이는 데 기여합니다. 시스템에 기여합니다.

학습률 vs. 관련 개념

모델을 효과적으로 조정하려면 학습률을 관련 용어와 구분하는 것이 도움이 됩니다:

  • 배치 크기: 학습 속도 이 단계의 크기를 제어하는 반면, 배치 크기는 해당 단계의 그라데이션을 계산하는 데 사용되는 데이터 샘플 수를 얼마나 많은 데이터 샘플을 사용하는지를 결정합니다. 이 둘 사이에는 종종 관계가 있습니다. 배치 크기가 클수록 더 안정적인 안정적인 그라데이션을 제공하여 학습률을 높일 수 있습니다. 이 관계는 선형스케일링 규칙에서 살펴볼 수 있습니다.
  • 최적화 알고리즘:최적화 도구(예:.., SGD 또는Adam)는 가중치를 업데이트하는 데 사용되는 특정 방법입니다. 학습률은 옵티마이저가 사용하는 매개변수입니다. 옵티마이저가 사용하는 매개변수입니다. 예를 들어, 표준 SGD 각 매개변수에 대해 개별적으로 학습 속도를 적용하는 반면, Adam 모든 매개변수에 대해 고정 비율을 적용합니다.
  • 에포크:에포크는 전체 학습 데이터에 대한 하나의 완전한 패스 전체 학습데이터 세트를 통과하는 것을 정의합니다. 학습 속도는 에포크 내의 각 단계에서 모델이 학습하는 양을 결정하지만, 에포크의 수 에 따라 학습 프로세스가 얼마나 오래 지속되는지가 결정됩니다.

최적화 역학에 대한 더 깊은 인사이트를 얻으려면 스탠포드CS231n 노트와같은 리소스 와 같은 리소스는 학습률이 손실 환경에 미치는 영향에 대한 훌륭한 시각적 설명을 제공합니다.

Ultralytics 커뮤니티 가입

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기