Semi-Supervised Learning
준지도 학습(Semi-Supervised Learning)이 라벨링된 데이터와 라벨링되지 않은 데이터를 결합하여 모델 정확도를 높이는 방법을 알아보십시오. Ultralytics YOLO26으로 SSL 워크플로를 구현하는 방법을 배우십시오.
Semi-supervised learning (SSL) is a strategic paradigm in machine learning (ML) that acts as a bridge between two traditional training methods. While supervised learning relies entirely on fully annotated datasets and unsupervised learning attempts to find patterns in data without any tags, SSL operates by combining a small amount of labeled data with a significantly larger pool of unlabeled data. This approach is particularly valuable in real-world computer vision (CV) scenarios where collecting raw imagery—such as video footage from security cameras or satellites—is relatively inexpensive, but the process of data labeling by human experts is costly, slow, and labor-intensive. By effectively utilizing the structure hidden within the unlabeled examples, SSL can significantly improve model accuracy and generalization without requiring an exhaustive annotation budget.
Link to this section준지도 학습의 핵심 메커니즘#
SSL의 주요 목표는 레이블이 지정된 소규모 예제 집합에서 발견된 정보를 레이블이 지정되지 않은 더 큰 집합으로 전파하는 것입니다. 이를 통해 신경망은 데이터의 저밀도 영역을 통과하는 결정 경계를 학습할 수 있으며, 결과적으로 더 강력한 분류 또는 탐지 성능을 얻을 수 있습니다.
두 가지 널리 사용되는 기법이 대부분의 준지도 워크플로우를 주도합니다:
- 의사 레이블링(Pseudo-Labeling): 이 방법에서는 모델을 먼저 제한된 레이블 데이터로 학습시킵니다. 그런 다음 이 모델을 사용하여 레이블이 없는 데이터에 대해 추론을 수행합니다. 특정 신뢰도 임계값을 초과하는 예측은 "의사 레이블" 또는 그라운드 트루스로 간주됩니다. 이러한 높은 신뢰도의 예측은 학습 데이터에 추가되고 모델이 재학습되어 성능이 반복적으로 개선됩니다.
- 일관성 정규화(Consistency Regularization): 이 기법은 데이터 증강에 의존합니다. 핵심 아이디어는 모델이 원본 이미지와 해당 이미지의 약간 수정된(증강된) 버전에 대해 유사한 예측을 출력해야 한다는 것입니다. 원본과 증강 버전 간의 예측 차이를 최소화함으로써 모델은 노이즈보다는 객체의 핵심 특징에 집중하도록 학습하며, 과적합 처리 능력을 향상시킵니다.
Link to this sectionYOLO를 활용한 실용적인 구현#
다음 Python 예제는 ultralytics 패키지를 사용한 간단한 의사 레이블링 워크플로우를 보여줍니다. 여기서는 소규모 데이터셋으로 YOLO26 모델을 학습시킨 후, 이를 사용하여 레이블이 지정되지 않은 이미지 디렉토리에 대한 레이블을 생성합니다.
from ultralytics import YOLO
# Load the latest YOLO26 model
model = YOLO("yolo26n.pt")
# Train initially on a small available labeled dataset
model.train(data="coco8.yaml", epochs=10)
# Run inference on unlabeled data to generate pseudo-labels
# Setting save_txt=True saves the detections as text files for future training
results = model.predict(source="./unlabeled_images", save_txt=True, conf=0.85)Link to this section실제 애플리케이션 사례#
준지도 학습은 데이터는 풍부하지만 전문 지식은 부족한 산업 현장을 변화시키고 있습니다.
- 의료 영상: 의료 AI 분야에서 스캔(X-레이, MRI)을 획득하는 것은 표준 절차이지만, 전문 방사선 전문의가 종양 탐지를 위해 모든 픽셀에 주석을 다는 것은 비용이 너무 많이 듭니다. SSL을 사용하면 연구원들은 전문가가 주석을 단 사례의 일부만을 사용하여 고성능 모델을 학습시킬 수 있으며, 아카이브된 수천 개의 스캔을 활용하여 모델의 생물학적 구조 이해도를 높일 수 있습니다.
- 자율 주행: 자율 주행 자동차 기업들은 매일 차량 운행을 통해 방대한 양의 비디오 데이터를 수집합니다. 객체 탐지 및 의미론적 분할을 위해 모든 프레임에 레이블을 지정하는 것은 불가능합니다. SSL을 통해 시스템은 레이블이 없는 대다수의 주행 시간 동안 학습하여 복잡한 도로 환경, 기상 조건 및 드문 예외 사례를 더 잘 이해할 수 있습니다.
Link to this section관련 개념 구분#
AI 솔루션을 효과적으로 배포하려면 SSL이 유사한 전략들과 어떻게 다른지 이해하는 것이 중요합니다:
- 능동 학습과 비교: 두 기법 모두 레이블이 지정되지 않은 데이터를 다루지만 레이블링에 대한 접근 방식이 다릅니다. SSL은 모델 예측을 기반으로 자동으로 레이블을 할당합니다. 반면 능동 학습은 가장 "혼란스러운" 또는 불확실한 데이터 포인트를 식별하여 human-in-the-loop에게 명시적으로 레이블 지정을 요청함으로써, 인간의 참여를 완전히 제거하는 대신 작업 시간을 최적화합니다.
- 전이 학습과 비교: 전이 학습은 방대한 외부 데이터셋(ImageNet 등)에서 사전 학습된 모델을 가져와 특정 작업에 맞게 미세 조정하는 것을 포함합니다. 반면 SSL은 학습 과정 자체에서 사용자 고유의 데이터셋 분포 중 레이블이 없는 부분을 활용하는 데 중점을 둡니다.
- 자기주도 학습과 비교: 이름은 비슷하지만 자기주도 학습은 데이터가 외부 레이블 없이 스스로 감독 신호를 생성하는 "사전 작업(pretext tasks)"(예: 이미지 패치로 직소 퍼즐 풀기)을 의미하는 경우가 많습니다. SSL은 프로세스를 안내하기 위해 검증된 레이블의 작은 집합을 사용하는 것을 구체적으로 의미합니다.
Link to this section도구 및 향후 전망#
딥러닝(DL) 모델의 크기가 커짐에 따라 데이터 사용 효율성이 무엇보다 중요해졌습니다. PyTorch 및 TensorFlow와 같은 현대적인 프레임워크는 이러한 고급 학습 루프를 위한 계산 백엔드를 제공합니다. 또한 Ultralytics Platform과 같은 도구는 데이터셋 관리 수명 주기를 간소화하고 있습니다. 자동 주석과 같은 기능을 활용하면 팀은 준지도 워크플로우를 더 쉽게 구현하여 원시 데이터를 프로덕션 준비가 완료된 모델 가중치로 빠르게 전환할 수 있습니다. MLOps에서의 이러한 발전은 고정밀 비전 시스템 구축에 대한 진입 장벽을 지속적으로 낮추고 있습니다.






