Yolo 비전 선전
선전
지금 참여하기
용어집

데이터 증강

데이터 증강을 통해 머신러닝 모델을 개선하세요. 정확도를 높이고, 과적합을 줄이며, 견고성을 향상시키는 기법을 알아보세요.

데이터 증강은 다음과 같은 분야에서 전략적 기법입니다. 머신러닝(ML) 의 전략적 기술입니다. 인위적으로 데이터의 크기와 다양성을 확장하는 데 사용되는 전략적 기법입니다. 훈련 데이터 세트 새로운 원시 데이터를 수집할 필요 없이 새로운 원시 데이터를 수집하지 않아도 됩니다. 개발자는 기존 데이터 샘플에 다양한 변환을 적용하여 이미지, 텍스트 또는 오디오의 수정되었지만 이미지, 텍스트 또는 오디오의 사실적인 버전을 만들 수 있습니다. 이 프로세스는 다음을 줄이는 데 필수적입니다. 과적합즉, 모델이 일반화 가능한 패턴을 학습하는 대신 훈련 예제를 암기하는 일반적인 문제를 줄이는 데 필수적입니다. 궁극적으로 효과적인 증강은 더 높은 정확도 정확도를 높이고 실제 환경에서 보이지 않는 데이터에 노출되었을 때 강력하게 작동합니다.

핵심 기술 및 방법

다음 분야에서 컴퓨터 비전(CV)증강에는 입력 이미지를 조작하여 다양한 조건을 시뮬레이션하는 작업이 포함됩니다. 이러한 변환을 통해 모델이 방향, 조명 및 스케일의 변화에 변하지 않도록 합니다.

  • 기하학적 변형: 이미지의 공간 레이아웃을 수정합니다. 일반적인 작업은 다음과 같습니다. 무작위 회전, 수평 뒤집기, 자르기 및 크기 조정. 예를 들어 OpenCV 기하학적 변환 을 사용하면 모델이 물체가 뒤집혀 있는지, 기울어져 있는지에 관계없이 인식할 수 있습니다.
  • 광도 변환: 지오메트리를 변경하지 않고 픽셀 값을 조정하여 시각적 모양을 변경합니다. 지오메트리를 변경하지 않습니다. 밝기, 대비, 채도를 조정하고 다음을 추가할 수 있습니다. 가우시안 노이즈 를 추가하면 모델이 다양한 조명 조건을 처리하는 데 도움이 됩니다.
  • 고급 믹싱: 모던 개체 감지 프레임워크 은 종종 모자이크, MixUp, 컷믹스와 같은 복잡한 기술을 활용합니다. 이러한 방법은 여러 이미지를 하나의 훈련 샘플로 결합하여 모델이 맥락적 관계를 학습하도록 유도합니다. 이러한 기법을 구현하는 방법은 를 통해 구현하는 방법을 살펴볼 수 있습니다. Ultralytics 알버멘테이션 통합.

실제 애플리케이션

데이터 증강은 고품질 데이터를 확보하기 어렵거나 비용이 많이 드는 산업에서 필수적인 요소입니다.

  1. 의료 영상: In 의료 영상 분석에서는 개인정보 보호법과 특정 질환의 희귀성으로 인해 데이터 세트 크기가 제한됩니다. 엑스레이나 MRI 스캔을 회전 및 탄성 변형으로 증강함으로써 회전 및 탄성 변형을 통해 연구자들은 다음과 같은 강력한 모델을 훈련할 수 있습니다. 종양 탐지AI가 환자의 위치나 기계 보정에 관계없이 이상 징후를 식별할 수 있도록 합니다.
  2. 자율 주행: 자율 주행 자동차는 예측할 수 없는 환경을 탐색해야 합니다. 모든 가능한 기상 조건에 대한 모든 기상 조건에 대한 데이터를 수집하는 것은 불가능합니다. 엔지니어는 증강 기술을 사용하여 맑은 날의 영상에서 비, 안개 또는 저조도 상황을 시뮬레이션합니다. 시나리오를 시뮬레이션하기 위해 증강 기능을 사용합니다. 이를 통해 다음을 준비합니다. 자율주행 차량 안전하게 반응할 수 있도록 악천후에도 안전하게 반응할 수 있도록 준비하여 다음과 같은 기관에서 설명하는 안전 기준을 크게 개선합니다. NHTSA.

Ultralytics 증강 구현하기YOLO

그리고 ultralytics 라이브러리를 사용하면 증강 기능 적용을 간소화할 수 있습니다. 모델 학습 파이프라인. 하이퍼파라미터를 조정하여 하이퍼파라미터를 조정하여 변환의 강도와 확률을 제어할 수 있습니다.

from ultralytics import YOLO

# Load the YOLO11 model
model = YOLO("yolo11n.pt")

# Train the model with custom data augmentation parameters
# These arguments modify the training data on-the-fly
model.train(
    data="coco8.yaml",
    epochs=5,
    degrees=30.0,  # Apply random rotations between -30 and +30 degrees
    fliplr=0.5,  # 50% probability of flipping images horizontally
    mosaic=1.0,  # Use Mosaic augmentation (combining 4 images)
    mixup=0.1,  # Apply MixUp augmentation with 10% probability
)

관련 개념 구분하기

데이터 증강을 유사한 데이터 전략과 차별화하는 것이 중요합니다:

  • 합성 데이터와 비교: 증강은 기존의 실제 데이터를 수정하는 반면, 합성 데이터 은 컴퓨터 시뮬레이션이나 컴퓨터 시뮬레이션을 사용하여 완전히 처음부터 생성하거나 생성 AI. 증강은 가지고 있는 것에 다양성을 더하고 합성 데이터는 없는 것을 만들어냅니다.
  • 대 데이터 전처리: 데이터 전처리 에는 다음이 포함됩니다. 데이터를 정리하고 서식 지정(예: 크기 조정, 정규화)하여 모델에 적합하게 만드는 작업입니다. 증강은 전처리 후에 전처리 후에 발생하며 형식보다는 데이터 집합의 다양성을 확장하는 데 중점을 둡니다.
  • 대 이전 학습: 이전 학습 활용 사전 학습된 모델(예: 학습된 ImageNet)의 지식을 활용하여 새로운 과제를 해결합니다. 종종 함께 사용되지만, 전이 학습은 모델 가중치와 관련이 있는 반면, 증강 는 입력 데이터와 관련이 있습니다.

최신 증강 라이브러리에 대해 자세히 알아보고 싶다면 문서화 문서 에서 PyTorch 및 YOLO11과 호환되는 광범위한 목록 사용 가능한 변환의 광범위한 목록을 제공합니다.

Ultralytics 커뮤니티 가입

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기