자기 주도 학습
자가 지도 학습이 어떻게 레이블이 없는 데이터를 활용하여 효율적인 학습을 하고, 컴퓨터 비전, 자연어 처리 등의 분야에서 AI를 혁신하는지 알아보세요.
자가 지도 학습(SSL)은 라벨이 없는 방대한 양의 데이터에서 모델이 학습할 수 있도록 하는 머신 러닝 기법입니다. SSL은 사람이 제공한 레이블에 의존하는 대신 "구실 작업"을 생성하고 해결함으로써 데이터 자체에서 레이블을 자동으로 생성합니다. 이 프로세스를 통해 모델은 이미지의 질감과 모양 또는 텍스트의 문법 구조와 같은 데이터의 의미 있는 기본 패턴과 특징을 학습하게 됩니다. 이렇게 학습된 특징은 강력한 기반을 만들어 미세 조정 단계에서 훨씬 적은 레이블 데이터로 모델이 다운스트림 작업에서 탁월한 성능을 발휘할 수 있게 해줍니다. SSL은 데이터를 많이 사용하는 완전 지도 학습과 지도가 덜 필요한 순수 비지도 학습 사이의 간극을 메워줍니다.
자기 주도 학습의 작동 방식
SSL의 핵심 아이디어는 모델이 해결해야 하는 자체 생성 문제인 구실 작업입니다. 이 작업의 레이블은 입력 데이터에서 직접 파생됩니다. 구실 과제를 해결함으로써 신경망은 데이터의 본질적인 특성을 포착하는 가치 있는 표현, 즉 임베딩을 학습합니다.
컴퓨터 비전에서 일반적인 구실 작업은 다음과 같습니다:
- 이미지 회전 예측하기: 모델에 임의로 회전된 이미지(예: 0도, 90도, 180도 또는 270도)가 표시되고 회전 각도를 예측해야 합니다. 이를 올바르게 수행하려면 개체의 원래 방향을 인식해야 합니다.
- 이미지 인페인팅: 이미지의 일부가 마스킹되거나 제거되면 모델은 누락된 부분을 예측해야 합니다. 이를 통해 모델은 이미지의 컨텍스트와 질감을 학습할 수 있습니다.
- 대조 학습: 이 모델은 유사한(증강된) 이미지의 표현을 서로 가깝게 끌어당기고 다른 이미지의 표현을 더 멀리 밀어내도록 학습합니다. SimCLR과 같은 프레임워크가 이 접근 방식의 인기 있는 예입니다.
레이블이 지정되지 않은 데이터에 대한 사전 학습을 통해 보다 구체적인 작업을 위한 출발점으로 사용할 수 있는 강력한 모델 가중치가 생성됩니다.
SSL과 다른 학습 패러다임
SSL을 관련 머신 러닝 패러다임과 차별화하는 것이 중요합니다:
- 지도 학습: 각 입력이 올바른 출력과 짝을 이루는 레이블이 지정된 데이터에 전적으로 의존합니다. 반대로 SSL은 데이터 자체에서 자체 라벨을 생성하므로 수동 데이터 라벨링의 필요성이 크게 줄어듭니다.
- 비지도 학습: 미리 정의된 전제 작업 없이 라벨이 없는 데이터에서 패턴(예: 클러스터링)을 찾거나 차원을 줄이는 것을 목표로 합니다. SSL은 비지도 학습과 마찬가지로 레이블이 없는 데이터를 사용하지만, 표현 학습을 안내하기 위해 구실 작업을 통해 명시적인 감독 신호를 생성한다는 점에서 다릅니다.
- 반지도 학습: 소량의 레이블이 지정된 데이터와 대량의 레이블이 지정되지 않은 데이터를 조합하여 사용합니다. SSL 사전 학습은 종종 반지도 학습 미세 조정 전의 예비 단계가 될 수 있습니다.
- 능동적 학습: 라벨이 지정되지 않은 풀에서 사람이 라벨을 지정할 가장 유익한 데이터 포인트를 지능적으로 선택하는 데 중점을 둡니다. SSL은 사람의 개입 없이 레이블이 지정되지 않은 모든 데이터에서 학습합니다. 이 두 가지 방법은 데이터 중심 AI 워크플로우에서 상호 보완적으로 사용될 수 있습니다.
실제 애플리케이션
SSL은 다양한 영역에서 인공지능(AI) 기능을 크게 발전시켰습니다:
- 컴퓨터 비전 모델 발전: SSL 사전 학습을 통해 Ultralytics YOLO와 같은 모델은 자율 주행 차량의 물체 감지 또는 의료 이미지 분석과 같은 작업을 위해 미세 조정되기 전에 레이블이 지정되지 않은 대규모 이미지 데이터 세트에서 강력한 시각적 특징을 학습할 수 있습니다. SSL에서 파생된 사전 학습된 가중치를 사용하면 모델 학습 중에 더 나은 성능과 더 빠른 수렴을 얻을 수 있습니다.
- 대규모 언어 모델(LLM) 지원: GPT-4 및 BERT와 같은 기초 모델은 방대한 텍스트 코퍼스에 대한 사전 학습 단계에서 SSL 사전 작업(예: 마스킹 언어 모델링)에 크게 의존합니다. 이를 통해 언어 구조, 문법 및 문맥을 이해하여 정교한 챗봇과 기계 번역에서 텍스트 요약에 이르는 다양한 애플리케이션을 지원할 수 있습니다.
SSL은 값비싼 라벨이 붙은 데이터 세트에 대한 의존도를 크게 줄여 강력한 AI 모델 개발을 대중화합니다. PyTorch 및 TensorFlow와 같은 도구와 Ultralytics HUB와 같은 플랫폼은 최첨단 AI 솔루션 구축 및 배포를 위해 SSL 기술을 활용할 수 있는 환경을 제공합니다. SSL에 대한 최신 연구는 NeurIPS 및 ICML과 같은 유명 AI 컨퍼런스에서 확인할 수 있습니다.