Yolo 비전 선전
선전
지금 참여하기
용어집

드롭아웃 레이어

드롭아웃 레이어가 일반화, 견고성 및 모델 성능을 향상시켜 신경망에서 과적합을 어떻게 방지하는지 알아보세요.

드롭아웃 레이어는 기본적인 정규화 기법으로 신경망(NN) 에서 사용되는 기본적인 정규화 기법으로 과적합을 방지하기 위해 사용되는 기본적인 정규화 기법입니다. 모델이 데이터 세트에 대해 학습될 때, 모델이 데이터 세트에 대해 학습할 때 기본 일반 데이터보다는 훈련 데이터의 노이즈와 특정 세부 사항을 패턴을 학습할 위험이 있습니다. 이러한 암기는 보이지 않는 새로운 데이터에 대한 성능 저하로 이어집니다. 드롭아웃은 이러한 문제를 해결하기 위해 무작위로 훈련의 각 단계에서 레이어에 있는 뉴런의 일부를 무작위로 비활성화하거나 "드롭아웃"함으로써 이 문제를 해결합니다. 처리합니다. 이 간단하면서도 효과적인 전략은 중요한 연구 논문에서 소개되었습니다. 동료들의 중요한 연구 논문에 소개되어 딥 러닝 분야를 크게 발전시켰습니다. 딥 러닝(DL).

드롭아웃 레이어의 작동 방식

드롭아웃 레이어의 메커니즘은 간단하지만 강력합니다. 모델 훈련 단계에서 모델 훈련 단계에서 이 레이어는 드롭아웃 비율이라고 하는 지정된 확률에 따라 마스크(드롭아웃 비율이라고 하는 지정된 확률에 따라 0과 1로 구성된 마스크)를 생성합니다. 이 비율이 0.5로 설정되어 있으면 뉴런의 약 50%가 해당 전진 및 후진 패스 동안 일시적으로 무시됩니다. 이렇게 하면 나머지 활성 뉴런이 독립적으로 강력한 기능을 학습하도록 하여 네트워크가 단일 뉴런에 너무 지나치게 의존하는 것을 방지합니다. 공동 적응.

추론 또는 테스트 단계에서는 일반적으로 드롭아웃 레이어는 일반적으로 꺼져 있습니다. 학습된 모델의 전체 용량을 활용하기 위해 모든 뉴런이 활성화됩니다. 전체 활성화 값이 총 활성화 값이 훈련 단계와 일관되게 유지되도록 하기 위해, 가중치는 프레임워크에 의해 프레임워크에 의해 자동으로 조정됩니다. 다음과 같은 최신 라이브러리는 PyTorch 와 같은 최신 라이브러리는 이러한 연산을 원활하게 처리합니다. 드롭아웃 구현에서 원활하게 처리합니다.

다음 사용자의 경우 ultralytics 패키지를 사용하여 다음과 같은 모델에 드롭아웃을 적용합니다. YOLO11 는 트레이닝 인수를 조정하는 것만큼이나 간단합니다.

from ultralytics import YOLO

# Load a standard YOLO11 model
model = YOLO("yolo11n.pt")

# Train the model on a dataset with a custom dropout rate of 0.2
# This helps prevent overfitting on smaller datasets
results = model.train(data="coco8.yaml", epochs=10, dropout=0.2)

실제 애플리케이션

드롭아웃은 다양한 영역에서 필수 불가결합니다. 인공 지능(AI)의 다양한 영역에서 모델이 많은 수의 매개변수나 제한된 데이터로 인해 과적합되기 쉬운 경우 필수적입니다.

  1. 컴퓨터 비전: 다음과 같은 작업에서 이미지 분류물체 감지 등의 작업에서 드롭아웃은 모델을 다양한 실제 환경에 더 잘 일반화할 수 있습니다. 예를 들어 자동차 AI 솔루션의 경우, 보행자를 인식하도록 훈련된 비전 모델은 보행자를 인식하도록 훈련된 비전 모델은 다양한 기상 조건과 조명에서도 안정적으로 작동해야 합니다. 드롭아웃은 모델이 특정 배경 텍스처를 암기하는 대신 필수적인 모양과 특징에 집중할 수 있도록 합니다. 벤치마크 데이터 세트.
  2. 자연어 처리(NLP): 드롭아웃은 다음 용도로 사용되는 트랜스포머 아키텍처의 표준 구성 요소입니다. 대규모 언어 모델(LLM)에 사용되는 표준 구성 요소입니다. 언제 기계 번역을 위한 모델 학습 또는 감정 분석을 위한 모델을 학습할 때 드롭아웃을 사용하면 네트워크가 특정 단어 시퀀스에 과도하게 의존하는 것을 방지하여 더 깊은 의미적 의미와 문법 구조.

관련 개념과의 차별성

드롭아웃이 다른 기법과 어떻게 다른지 이해하는 것이 효과적인 효과적인 하이퍼파라미터 튜닝을 위해서는

  • 드롭아웃 대 데이터 증강: 두 방법 모두 일반화를 개선하지만 데이터 증강은 인위적으로 회전 및 스케일링과 같은 변환을 통해 학습 집합을 확장하는 방식으로 작동합니다. 이와 대조적으로, 드롭아웃은 네트워크 아키텍처 자체를 동적으로 수정합니다. 예를 들어, 이 두 가지가 결합되는 경우가 많습니다, YOLO 데이터 증강은 모델의 견고성을 극대화하기 위해 드롭아웃과 함께 사용됩니다.
  • 드롭아웃과 배치 정규화 비교: 배치 정규화는 각 계층의 입력을 정규화하여 각 레이어의 입력을 정규화하여 학습 과정을 안정화하고 학습 속도를 높일 수 있습니다. 약간의 정규화 효과가 있지만, 주요 목표는 최적화 속도와 안정성인 반면, 드롭아웃은 모델의 복잡성을 줄이기 위해 명시적으로 설계된 복잡성을 줄이기 위해 명시적으로 설계되었습니다.
  • 드롭아웃 대 가중치 감쇠(L2 정규화): 웨이트 감쇠는 손실 함수의 크기에 비례하는 손실 함수에 페널티 함수를 추가하여 가중치의 크기에 비례하는 패널티 함수를 추가하여 0을 향해 축소합니다. 하지만 드롭아웃은 앙상블 효과: 모든 에포크에서 효과적으로 다른 서브네트워크를 효과적으로 훈련시켜 앙상블 효과를 생성하며, 각기 다른 각도의 정규화. 이러한 차이점에 대한 자세한 내용은 다음에서 확인할 수 있습니다. 스탠포드 CS231n 강의 노트.

Ultralytics 커뮤니티 가입

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기