Yolo 비전 선전
선전
지금 참여하기
용어집

대조 학습

최소한의 레이블이 지정된 데이터를 사용하여 강력한 데이터 표현을 위한 자율 지도 학습 기술인 대조 학습의 힘을 알아보세요.

대조 학습은 강력한 강력한 머신 러닝(ML) 기법으로 모델이 수동으로 레이블을 지정할 필요 없이 데이터의 강력한 표현을 학습할 수 있게 해줍니다. 신경망에 신경망을 학습시켜 유사한 데이터 포인트와 이 접근 방식을 통해 알고리즘은 데이터 세트의 기본 구조를 이해할 수 있습니다. 대신 특정 카테고리를 직접 예측하는 대신, 모델은 예시 쌍을 비교하여 학습하고, 관련 항목의 표현을 가져옵니다. 양의 쌍으로 알려진 관련 항목들의 표현을 임베딩 공간에서 서로 가깝게 끌어당기고, 관련 없는 항목(네거티브 쌍을 더 멀리 밀어냅니다. 이 기능은 최신 자기 주도 학습의 초석이 되어 자기 지도 학습의 초석이 되어 개발자가 방대한 양의 라벨링되지 않은 데이터를 활용할 수 있게 해줍니다.

대조 학습의 작동 원리

대조 학습의 핵심 메커니즘은 사례 차별이라는 개념을 중심으로 이루어집니다. 훈련 프로세스에는 일반적으로 데이터 증강, 인코더 네트워크, 대조적 손실 기능입니다.

  • 데이터 증강: 양수 쌍을 만들기 위해 시스템은 원본 이미지('앵커')를 가져와 자르기, 색상 지터링과 같은 무작위 자르기, 뒤집기 또는 색상 지터링과 같은 임의의 변형을 적용합니다. 이러한 증강 보기는 동일한 의미의 콘텐츠를 나타내지만 콘텐츠를 나타내지만 픽셀 단위로는 다르게 보입니다.
  • 인코더 네트워크: A 컨볼루션 신경망(CNN) 또는 비전 트랜스포머(ViT)는 앵커와 증강 버전을 모두 처리하여 앵커와 그 증강 버전을 모두 처리하여 특징 벡터를 생성합니다. 다음과 같은 프레임워크 PyTorch 와 같은 프레임워크가 이러한 아키텍처를 구현하는 데 일반적으로 사용됩니다.
  • 대비 손실: 다음과 같은 손실 함수인 InfoNCE 손실과 같은 손실 함수는 양성 쌍 사이의 거리를 최소화하여 모델을 최적화합니다. 양성 쌍 사이의 거리를 최소화하고 앵커와 음성 샘플(일반적으로 동일한 배치 크기의 다른 이미지) 사이의 거리를 최대화하여 모델을 최적화합니다. 배치 크기). 다음과 같은 획기적인 연구 Google Research의 SimCLR은 이 방법이 얼마나 효과적인지 입증했습니다. 이 시각적 표현 학습에 얼마나 효과적인지 입증했습니다.

실제 애플리케이션

대조 방법을 통해 학습한 표현은 다운스트림 작업으로 쉽게 이전할 수 있습니다.

  1. 시각적 검색 및 추천: In 소매업의 AI, 대조적인 학습 능력 시맨틱 검색 엔진. 제품 이미지를 이미지를 시각적으로 유사한 항목들이 모여 있는 벡터 공간에 매핑함으로써, 이커머스 플랫폼은 사용자의 쿼리 이미지 스타일이나 특징과 일치하는 제품을 사용자가 검색한 이미지의 스타일이나 특징과 일치하는 제품을 추천하여 고객 경험을 개선할 수 있습니다.
  2. 객체 감지를 위한 사전 학습: 라벨이 지정되지 않은 대규모 데이터 세트에 대해 모델을 사전 학습할 수 있습니다. 대조 목표를 사용하여 대규모 데이터 세트에 대해 사전 학습한 후 다음과 같은 특정 작업에 맞게 물체 감지. 이 전략은 종종 다음과 같은 고급 아키텍처를 훈련하기 전에 YOLO11, 특히 레이블이 지정된 데이터가 부족할 때 성능과 융합 속도를 크게 향상시킵니다. 알려진 시나리오).

대조 학습과 관련 개념

대조 학습과 다른 패러다임의 차이점을 이해하면 올바른 접근 방식을 선택하는 데 유용합니다. 접근 방식을 선택하는 데 유용합니다.

  • 지도 학습: 기존의 지도 학습은 모든 이미지에 수동으로 데이터 라벨을 지정해야 하는 데이터 라벨링이 필요합니다. 대조 학습은 데이터 자체에서 자체 감독 신호를 생성하여 주석 비용을 절감합니다.
  • Vs. 자동 인코더: 둘 다 비감독 방식이지만, 자동 인코더는 일반적으로 입력 데이터를 픽셀 단위로 재구성하는 것을 목표로 합니다. 대조 학습은 서로 다른 인스턴스를 구분하는 판별 특징을 학습하는 데 중점을 두며, 이는 종종 분류 작업에 더 많은 분류 작업에 더 의미 있는 표현을 제공합니다.
  • Vs. CLIP: The CLIP(대조 언어-이미지 사전 학습) 모델은 대조 학습의 특정 응용 프로그램입니다. 표준 대조 학습이 이미지와 이미지를 비교하는 반면, CLIP은 이미지와 텍스트 설명을 비교하여 멀티모달 AI 기능을 지원합니다.

예시: 학습된 기능 사용

전체 대비 루프를 학습하려면 상당한 연산이 필요하지만, 유사한 사전 학습 기법을 통해 강력한 기능을 학습한 모델을 활용할 수 있습니다. 다음 예는 사전 학습된 이미지 분류 모델을 로드하여 이미지 분류 모델을 로드하여 이미지를 처리하기 위해 사전 학습된 이미지 분류 모델을 로드하는 방법을 보여줍니다.

from ultralytics import YOLO

# Load a pre-trained YOLO11 classification model
# The backbone of this model has learned to extract powerful features
model = YOLO("yolo11n-cls.pt")

# Run inference on a sample image
# This process utilizes the learned feature embeddings to predict the class
results = model("https://ultralytics.com/images/bus.jpg")

# Display the top predicted class names
print(results[0].names[results[0].probs.top1])

과제 및 향후 방향

성공에도 불구하고 대조 학습은 도전에 직면해 있습니다. 부정적인 쌍을 신중하게 선택해야 합니다. 부정적인 샘플을 너무 쉽게 구별할 수 있다면 모델은 효과적인 학습을 멈춥니다. 다음과 같은 방법 MoCo(모멘텀 콘트라스트) 는 메모리 뱅크를 도입해 대량의 음수 샘플을 많은 수의 부정적인 샘플을 효율적으로 처리하기 위해 메모리 뱅크를 도입했습니다. 또한 훈련에는 종종 상당한 컴퓨팅 리소스가 필요합니다, 고성능 GPU와 같은 컴퓨팅 리소스가 필요합니다. 연구가 진행됨에 따라 연구가 진행됨에 따라, Ultralytics 다음과 같은 향후 모델을 위한 R&D에서 이러한 기술을 계속 탐구하고 있습니다. 더 빠르고, 더 작고, 더 정확한 탐지 시스템을 목표로 하는 YOLO26 더 빠르고, 더 작고, 더 정확한 탐지 시스템을 제공하는 것을 목표로 하고 있습니다.

Ultralytics 커뮤니티 가입

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기