준지도 학습이 레이블이 지정된 데이터와 레이블이 지정되지 않은 데이터를 결합하여 AI 모델을 개선하고, 레이블링 비용을 줄이며, 정확도를 높이는 방법을 알아보세요.
반지도 학습(SSL)은 머신 러닝의 강력한 패러다임으로 머신러닝(ML)의 강력한 패러다임입니다 . 완전 지도 학습과 비지도 학습 사이의 간극을 메워주는 강력한 패러다임입니다. 지도 학습 방법은 완전히 주석이 달린 데이터 세트가 필요하고 비지도 방법은 레이블 없이 작동하지만, SSL은 다음과 같은 방식으로 작동합니다. 소량의 레이블이 지정된 데이터와 훨씬 더 많은 레이블이 지정되지 않은 데이터 풀을 함께 활용합니다. 많은 실제 시나리오에서 원시 데이터를 확보하는 것은 상대적으로 저렴하지만 데이터 라벨링은 비용이 많이 들고 시간이 많이 소요되며 사람의 전문 지식이 필요합니다. SSL은 제한된 라벨링된 예제를 사용하여 학습 과정을 안내함으로써 이러한 병목 현상을 해결합니다. 프로세스를 안내하여 모델이 라벨링되지 않은 방대한 세그먼트에서 구조와 패턴을 추출할 수 있도록 함으로써 이러한 병목 현상을 해결하여 전반적인 모델 정확도와 일반화를 개선합니다.
SSL의 기본 메커니즘은 레이블이 지정된 데이터에서 레이블이 지정되지 않은 데이터로 정보를 전파하는 것입니다. 이 프로세스는 일반적으로 레이블이 지정된 작은 데이터 세트에 대한 초기 모델을 학습하는 것으로 시작됩니다. 그런 다음 이 모델을 사용하여 라벨링되지 않은 데이터에 대한 예측하는 데 사용됩니다. 가장 확실한 예측(의사 레이블이라고도 함)은 근거 데이터로 취급되며 진실로 취급되며, 이 확장된 데이터 세트에 대해 모델이 재학습됩니다. 이 반복적인 주기를 통해 신경망은 의사 결정 경계를 학습하여 레이블이 지정된 데이터만으로 학습한 것보다 더 강력한 의사 결정 경계를 학습할 수 있습니다.
SSL에 사용되는 일반적인 기술은 다음과 같습니다:
반지도 학습은 특히 데이터는 풍부하지만 전문가의 주석이 부족합니다.
SSL을 완전히 이해하려면 유사한 학습 패러다임과 구분하는 것이 도움이 됩니다:
반지도형 워크플로우를 구현하려면 종종 '교사-학생' 루프 또는 반복적인 교육이 필요합니다. 아래
는 ultralytics Python 패키지를 사용하여 라벨이 없는 데이터에서 추론하는 방법을 보여줍니다.
레이블이 없는 데이터를 추론하여 추가 학습을 위한 의사 레이블로 사용할 수 있는 예측을 생성하는 방법을 보여줍니다.
from ultralytics import YOLO
# Initialize the YOLO11 model (Teacher)
model = YOLO("yolo11n.pt")
# Train initially on a small, available labeled dataset
model.train(data="coco8.yaml", epochs=10)
# Run inference on a directory of unlabeled images to generate predictions
# These results can be filtered by confidence to create 'pseudo-labels'
results = model.predict(source="./unlabeled_data", save_txt=True, conf=0.8)
# The saved text files from prediction can now be combined with the original
# dataset to retrain a robust 'Student' model.
다음과 같은 딥 러닝 프레임워크 PyTorch 와 TensorFlow 와 같은 딥러닝 프레임워크는 사용자 정의 SSL을 구현하는 데 필요한 빌딩 블록을 제공합니다. 루프와 손실 함수를 구현하는 데 필요한 빌딩 블록을 제공합니다. 모델이 점점 더 커지고 데이터를 많이 사용함에 따라 데이터 효율성을 극대화하기 위해 SSL과 같은 기술이 데이터 효율성을 극대화하기 위한 표준 관행이 되고 있습니다.
곧 출시될 Ultralytics 플랫폼은 이와 같은 워크플로우를 간소화하도록 설계되어 팀이 원시 데이터에서 모델 배포로 전환하는 과정을 원시 데이터에서 모델 배포로의 전환을 용이하게 함으로써 데이터 큐레이션 및 자동 주석 프로세스. 이로써 레이블이 지정되지 않은 데이터를 효과적으로 활용함으로써 조직은 다음과 같은 고성능 AI 솔루션을 배포할 수 있습니다. YOLO11 과 같은 고성능 AI 솔루션을 더 빠르고 저렴하게 배포할 수 있습니다. 보다 빠르고 저렴하게 배포할 수 있습니다.

