Yolo 비전 선전
선전
지금 참여하기
용어집

준지도 학습

준지도 학습이 레이블이 지정된 데이터와 레이블이 지정되지 않은 데이터를 결합하여 AI 모델을 개선하고, 레이블링 비용을 줄이며, 정확도를 높이는 방법을 알아보세요.

반지도 학습(SSL)은 머신 러닝의 강력한 패러다임으로 머신러닝(ML)의 강력한 패러다임입니다 . 완전 지도 학습과 비지도 학습 사이의 간극을 메워주는 강력한 패러다임입니다. 지도 학습 방법은 완전히 주석이 달린 데이터 세트가 필요하고 비지도 방법은 레이블 없이 작동하지만, SSL은 다음과 같은 방식으로 작동합니다. 소량의 레이블이 지정된 데이터와 훨씬 더 많은 레이블이 지정되지 않은 데이터 풀을 함께 활용합니다. 많은 실제 시나리오에서 원시 데이터를 확보하는 것은 상대적으로 저렴하지만 데이터 라벨링은 비용이 많이 들고 시간이 많이 소요되며 사람의 전문 지식이 필요합니다. SSL은 제한된 라벨링된 예제를 사용하여 학습 과정을 안내함으로써 이러한 병목 현상을 해결합니다. 프로세스를 안내하여 모델이 라벨링되지 않은 방대한 세그먼트에서 구조와 패턴을 추출할 수 있도록 함으로써 이러한 병목 현상을 해결하여 전반적인 모델 정확도와 일반화를 개선합니다.

준지도 학습 작동 방식

SSL의 기본 메커니즘은 레이블이 지정된 데이터에서 레이블이 지정되지 않은 데이터로 정보를 전파하는 것입니다. 이 프로세스는 일반적으로 레이블이 지정된 작은 데이터 세트에 대한 초기 모델을 학습하는 것으로 시작됩니다. 그런 다음 이 모델을 사용하여 라벨링되지 않은 데이터에 대한 예측하는 데 사용됩니다. 가장 확실한 예측(의사 레이블이라고도 함)은 근거 데이터로 취급되며 진실로 취급되며, 이 확장된 데이터 세트에 대해 모델이 재학습됩니다. 이 반복적인 주기를 통해 신경망은 의사 결정 경계를 학습하여 레이블이 지정된 데이터만으로 학습한 것보다 더 강력한 의사 결정 경계를 학습할 수 있습니다.

SSL에 사용되는 일반적인 기술은 다음과 같습니다:

  • 의사 라벨링: 모델이 레이블이 없는 데이터에 대한 레이블을 생성하고, 신뢰도가 높은 예측이 학습 데이터에 추가됩니다. 이 기능은 종종 신뢰 임계값과 함께 사용됩니다.
  • 일관성 정규화: 이 방법은 모델이 원본 이미지와 교란된 버전의 이미지에 대해 원본 이미지와 교란된 버전(예: 데이터 증강 적용 후 데이터 증강을 적용한 후). 모델이 물체를 이해하는 경우 객체를 이해하는 경우 이미지를 뒤집거나 약간 회전해도 분류가 변경되지 않습니다. 자세한 내용은 일관성 정규화 개념에 대해 자세히 알아보세요.
  • 그래프 기반 방법: 데이터 포인트는 그래프의 노드로 표시되며, 가장자리는 유사성을 반영하는 유사성을 반영합니다. 레이블은 레이블이 지정된 노드에서 레이블이 지정되지 않은 이웃 노드로 전파되며, 이 기법은 종종 그래프 신경망(GNN) 연구에서 자주 논의되는 기법입니다.

실제 애플리케이션

반지도 학습은 특히 데이터는 풍부하지만 전문가의 주석이 부족합니다.

  1. 의료 이미지 분석: 의료 분야에서는 다음과 같은 작업을 위해 다음과 같은 작업을 위해 라벨이 지정된 데이터 세트를 종양 탐지 같은 작업을 위해 라벨이 지정된 데이터세트를 생성하려면 고임금 영상의학 전문의가 MRI나 CT 스캔에 수동으로 주석을 달아야 합니다. SSL을 사용하면 연구자들은 다음을 대상으로 모델을 훈련시킬 수 있습니다. 모델을 학습시킨 다음 주석이 달리지 않은 수천 개의 병원 아카이브를 활용하여 성능을 개선할 수 있습니다. 성능을 개선할 수 있습니다. 이를 통해 다음과 같은 분야에서 높은 진단 표준을 유지하면서 비용을 크게 절감할 수 있습니다. 의료 분야의 AI.
  2. 음성 인식: 특수 음성 어시스턴트에는 방대한 양의 오디오 데이터가 필요합니다. 수천 시간의 오디오를 수천 시간의 오디오를 전사하는 것은 비현실적이지만, 기술 기업들은 소량의 전사된 음성을 사용하여 기본 모델을 훈련시킬 수 있습니다. 그런 다음 이 모델은 웹 데이터에서 발견되는 수백만 시간의 전사되지 않은 오디오의 뉘앙스에서 학습하여 다양한 억양과 방언을 이해하는 능력을 향상시킵니다. 다양한 억양과 방언을 이해하는 능력을 향상시킵니다.

관련 개념 차별화

SSL을 완전히 이해하려면 유사한 학습 패러다임과 구분하는 것이 도움이 됩니다:

  • SSL 대 자기 주도 학습: 두 용어는 약어를 공유하지만 서로 다른 개념입니다. 자기 지도 학습은 데이터에서 자체 레이블을 생성합니다. 구조(예: 문장의 다음 단어 또는 이미지에서 누락된 패치 예측)에서 사람의 레이블 없이 자체 레이블을 생성합니다. 반지도 학습은 여전히 사람이 제공한 레이블의 시드 세트에 의존하여 프로세스를 안내합니다.
  • SSL 대 능동적 학습: 에서 능동 학습에서 모델은 가장 혼란스러운 데이터 포인트를 식별하고 사람에게 명시적으로 레이블을 지정하도록 요청합니다. 레이블을 지정합니다. 반면 SSL은 라벨이 지정되지 않은 데이터에 대해 워크플로우를 중단하지 않고 자동으로 해결하려고 시도합니다. 워크플로우를 중단하지 않고 자동으로 해결하려고 시도합니다.
  • SSL 대 이전 학습: 전이 학습에는 소스 작업에서 소스 작업(예: ImageNet)에서 모델 가중치를 가져와서 에서 모델 가중치를 가져와서 대상 작업에 맞게 미세 조정합니다. SSL은 동일한 대상의 레이블이 없는 데이터를 사용하는 데 중점을 둡니다. 배포의 레이블이 없는 데이터를 사용하여 처음부터 학습을 개선하는 데 중점을 둡니다.

실제 구현

반지도형 워크플로우를 구현하려면 종종 '교사-학생' 루프 또는 반복적인 교육이 필요합니다. 아래 는 ultralytics Python 패키지를 사용하여 라벨이 없는 데이터에서 추론하는 방법을 보여줍니다. 레이블이 없는 데이터를 추론하여 추가 학습을 위한 의사 레이블로 사용할 수 있는 예측을 생성하는 방법을 보여줍니다.

from ultralytics import YOLO

# Initialize the YOLO11 model (Teacher)
model = YOLO("yolo11n.pt")

# Train initially on a small, available labeled dataset
model.train(data="coco8.yaml", epochs=10)

# Run inference on a directory of unlabeled images to generate predictions
# These results can be filtered by confidence to create 'pseudo-labels'
results = model.predict(source="./unlabeled_data", save_txt=True, conf=0.8)

# The saved text files from prediction can now be combined with the original
# dataset to retrain a robust 'Student' model.

도구 및 향후 전망

다음과 같은 딥 러닝 프레임워크 PyTorchTensorFlow 와 같은 딥러닝 프레임워크는 사용자 정의 SSL을 구현하는 데 필요한 빌딩 블록을 제공합니다. 루프와 손실 함수를 구현하는 데 필요한 빌딩 블록을 제공합니다. 모델이 점점 더 커지고 데이터를 많이 사용함에 따라 데이터 효율성을 극대화하기 위해 SSL과 같은 기술이 데이터 효율성을 극대화하기 위한 표준 관행이 되고 있습니다.

곧 출시될 Ultralytics 플랫폼은 이와 같은 워크플로우를 간소화하도록 설계되어 팀이 원시 데이터에서 모델 배포로 전환하는 과정을 원시 데이터에서 모델 배포로의 전환을 용이하게 함으로써 데이터 큐레이션 및 자동 주석 프로세스. 이로써 레이블이 지정되지 않은 데이터를 효과적으로 활용함으로써 조직은 다음과 같은 고성능 AI 솔루션을 배포할 수 있습니다. YOLO11 과 같은 고성능 AI 솔루션을 더 빠르고 저렴하게 배포할 수 있습니다. 보다 빠르고 저렴하게 배포할 수 있습니다.

Ultralytics 커뮤니티 가입

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기