YOLO Vision 2025를 놓치지 마세요!
2025년 9월 25일
10:00 — 18:00 BST
하이브리드 이벤트
Yolo Vision 2024
용어집

Zero-Shot 학습

Zero-Shot Learning을 경험해 보세요. 보이지 않는 데이터를 분류할 수 있는 최첨단 AI 접근 방식으로, 객체 감지, NLP 등을 혁신합니다.

제로샷 학습(ZSL)은 모델이 머신 러닝(ML)에서 학습 데이터 단계 동안 본 적이 없는 범주의 객체를 인식하고 분류할 수 있는 매력적인 기능입니다. 가능한 모든 클래스에 대한 명시적인 예제가 필요한 기존의 지도 학습과 달리 ZSL은 모델이 지식을 새롭고 보이지 않는 클래스로 일반화할 수 있도록 합니다. 이는 속성 또는 텍스트 임베딩과 같은 고급 의미 설명을 통해 관찰된 클래스와 관찰되지 않은 클래스를 연결하여 달성됩니다. 이를 통해 AI 모델은 특히 포괄적인 레이블이 지정된 데이터를 수집하는 것이 비현실적인 실제 시나리오에서 더욱 유연하고 확장 가능해집니다.

작동 방식

ZSL의 핵심 아이디어는 이미지의 시각적 특징과 텍스트의 의미 정보가 모두 표현될 수 있는 공유 임베딩 공간을 만드는 것입니다. 훈련 중에 모델은 클래스의 이미지를 해당 의미 벡터(속성 또는 단어 임베딩)에 매핑하는 방법을 학습합니다. 예를 들어, 모델은 '말'의 시각적 특징을 학습하고 이를 '다리가 4개 있다', '포유류이다', '탈 수 있다'와 같은 의미 설명에 연결합니다.

"얼룩말"과 같이 본 적이 없는 클래스의 이미지가 제공되면 모델은 시각적 특징을 추출합니다. 동시에 "얼룩말"의 의미론적 설명(예: "말과 유사함", "줄무늬가 있음")을 사용하여 임베딩 공간에서 찾습니다. 추출된 시각적 특징에 가장 가까운 의미론적 설명을 찾음으로써 모델은 얼룩말의 훈련 이미지가 하나도 없어도 이미지를 "얼룩말"로 올바르게 분류할 수 있습니다. 이 프로세스는 종종 비전과 언어를 연결하는 데 탁월한 강력한 사전 훈련된 다중 모드 모델(예: OpenAI의 CLIP)에 의존합니다.

제로샷 학습 대 다른 패러다임

ZSL을 관련된 학습 기법과 구별하는 것이 중요합니다.

  • Few-Shot Learning (FSL): FSL에서 모델은 각 새로운 클래스에 대해 매우 적은 수의 레이블이 지정된 예제(예: 1~5개)로 학습됩니다. 이는 대상 클래스의 예제가 전혀 없는 상태에서 작동하는 ZSL과는 다릅니다.
  • One-Shot Learning (OSL): 모델이 새로운 클래스의 예를 정확히 하나 받는 FSL의 하위 유형입니다. 일반적인 FSL보다 데이터 제약이 더 많지만 ZSL과는 달리 최소한 하나의 샘플이 필요합니다.
  • 전이 학습: ZSL은 전이 학습의 한 형태이지만 고유합니다. 표준 전이 학습은 일반적으로 사전 훈련된 모델을 새로운 (더 작은) 레이블이 지정된 데이터 세트에서 미세 조정하는 것을 포함하는 반면, ZSL은 해당 클래스의 레이블이 지정된 예제가 필요 없이 보조 의미 정보만 사용하여 새로운 클래스로 지식을 전송합니다.

실제 애플리케이션

ZSL은 수많은 실제 응용 분야를 가지고 있어 컴퓨터 비전 시스템을 더욱 역동적이고 적응력 있게 만듭니다.

  1. 개방형 어휘 객체 탐지: YOLO-World와 같은 모델은 ZSL을 활용하여 텍스트로 설명된 모든 객체를 탐지합니다. 사용자는 "파란색 셔츠를 입은 사람" 또는 "새는 파이프"와 같은 텍스트 프롬프트를 제공할 수 있으며, 모델은 이러한 특정 범주에 대해 명시적으로 학습하지 않고도 이미지 또는 비디오 스트림에서 이러한 객체를 찾을 수 있습니다. 이는 진정한 범용 비전 시스템을 만드는 데 중요한 단계입니다.
  2. 자율 종 식별: 야생 동물 보호를 위한 AI에서 ZSL은 희귀하거나 새로 발견된 종을 식별할 수 있습니다. 일반적인 동물에 대해 학습된 모델은 Wikipedia와 같은 지식 기반의 설명적 속성(예: "목이 길다", "점이 있다", "초식 동물이다")을 사용하여 기린 이미지가 원래 학습 세트에 없더라도 기린을 식별할 수 있습니다.

과제 및 향후 방향

잠재력에도 불구하고 ZSL은 허브니스 문제(의미 공간의 일부 점이 너무 많은 점에 가장 가까운 이웃이 되는 경우) 및 도메인 이동(특성과 속성 간의 관계가 보이는 클래스와 보이지 않는 클래스 간에 다른 경우)과 같은 문제에 직면해 있습니다. 이러한 문제를 해결하기 위해 연구자들은 모델이 추론 중에 보이는 클래스 보이지 않는 클래스를 모두 인식해야 하는 GZSL(Generalized Zero-Shot Learning)과 같은 보다 강력한 기술을 개발하고 있습니다. 기반 모델Ultralytics HUB와 같은 플랫폼의 발전은 ZSL의 통합 및 배포를 더욱 단순화하여 AI 시스템이 광범위한 데이터 레이블링에 덜 의존하고 인간과 유사한 추론에 더 부합하도록 할 것입니다.

Ultralytics 커뮤니티에 참여하세요

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기
클립보드에 링크가 복사되었습니다.