Zero-Shot Learning을 경험해 보세요. 보이지 않는 데이터를 분류할 수 있는 최첨단 AI 접근 방식으로, 객체 감지, NLP 등을 혁신합니다.
제로샷 학습(ZSL)은 모델이 머신 러닝(ML)에서 학습 데이터 단계 동안 본 적이 없는 범주의 객체를 인식하고 분류할 수 있는 매력적인 기능입니다. 가능한 모든 클래스에 대한 명시적인 예제가 필요한 기존의 지도 학습과 달리 ZSL은 모델이 지식을 새롭고 보이지 않는 클래스로 일반화할 수 있도록 합니다. 이는 속성 또는 텍스트 임베딩과 같은 고급 의미 설명을 통해 관찰된 클래스와 관찰되지 않은 클래스를 연결하여 달성됩니다. 이를 통해 AI 모델은 특히 포괄적인 레이블이 지정된 데이터를 수집하는 것이 비현실적인 실제 시나리오에서 더욱 유연하고 확장 가능해집니다.
ZSL의 핵심 아이디어는 이미지의 시각적 특징과 텍스트의 의미 정보가 모두 표현될 수 있는 공유 임베딩 공간을 만드는 것입니다. 훈련 중에 모델은 본 클래스의 이미지를 해당 의미 벡터(속성 또는 단어 임베딩)에 매핑하는 방법을 학습합니다. 예를 들어, 모델은 '말'의 시각적 특징을 학습하고 이를 '다리가 4개 있다', '포유류이다', '탈 수 있다'와 같은 의미 설명에 연결합니다.
"얼룩말"과 같이 본 적이 없는 클래스의 이미지가 제공되면 모델은 시각적 특징을 추출합니다. 동시에 "얼룩말"의 의미론적 설명(예: "말과 유사함", "줄무늬가 있음")을 사용하여 임베딩 공간에서 찾습니다. 추출된 시각적 특징에 가장 가까운 의미론적 설명을 찾음으로써 모델은 얼룩말의 훈련 이미지가 하나도 없어도 이미지를 "얼룩말"로 올바르게 분류할 수 있습니다. 이 프로세스는 종종 비전과 언어를 연결하는 데 탁월한 강력한 사전 훈련된 다중 모드 모델(예: OpenAI의 CLIP)에 의존합니다.
ZSL을 관련된 학습 기법과 구별하는 것이 중요합니다.
ZSL은 수많은 실제 응용 분야를 가지고 있어 컴퓨터 비전 시스템을 더욱 역동적이고 적응력 있게 만듭니다.
잠재력에도 불구하고 ZSL은 허브니스 문제(의미 공간의 일부 점이 너무 많은 점에 가장 가까운 이웃이 되는 경우) 및 도메인 이동(특성과 속성 간의 관계가 보이는 클래스와 보이지 않는 클래스 간에 다른 경우)과 같은 문제에 직면해 있습니다. 이러한 문제를 해결하기 위해 연구자들은 모델이 추론 중에 보이는 클래스 와 보이지 않는 클래스를 모두 인식해야 하는 GZSL(Generalized Zero-Shot Learning)과 같은 보다 강력한 기술을 개발하고 있습니다. 기반 모델 및 Ultralytics HUB와 같은 플랫폼의 발전은 ZSL의 통합 및 배포를 더욱 단순화하여 AI 시스템이 광범위한 데이터 레이블링에 덜 의존하고 인간과 유사한 추론에 더 부합하도록 할 것입니다.