제로 샷 학습: 모델이 보이지 않는 데이터를 분류하여 객체 감지, NLP 등을 혁신하는 최첨단 AI 접근 방식에 대해 알아보세요.
제로 샷 학습(ZSL)은 머신 러닝(ML) 에서 모델이 학습 데이터 단계에서 본 적이 없는 카테고리의 객체를 인식하고 분류할 수 있는 매력적인 기능입니다. 가능한 모든 클래스에 대해 명시적인 예제가 필요한 기존의 지도 학습과 달리, ZSL을 사용하면 모델이 이전에 보지 못한 새로운 클래스에 대한 지식을 일반화할 수 있습니다. 이는 속성이나 텍스트 임베딩과 같은 높은 수준의 의미적 설명을 통해 관찰된 클래스와 관찰되지 않은 클래스를 연결함으로써 달성할 수 있습니다. 이를 통해 특히 라벨링된 데이터를 모두 수집하는 것이 비현실적인 실제 시나리오에서 AI 모델의 유연성과 확장성을 높일 수 있습니다.
ZSL의 핵심 아이디어는 이미지의 시각적 특징과 텍스트의 의미적 정보를 모두 표현할 수 있는 공유 임베딩 공간을 만드는 것입니다. 학습 과정에서 모델은 보이는 클래스의 이미지를 해당 시맨틱 벡터(속성 또는 단어 임베딩)에 매핑하는 방법을 학습합니다. 예를 들어, 모델은 "말"의 시각적 특징을 학습하여 "다리가 4개", "포유류", "탈 수 있다"와 같은 의미론적 설명에 연결합니다.
'얼룩말'과 같이 보이지 않는 클래스의 이미지가 제시되면 모델은 시각적 특징을 추출합니다. 동시에 '얼룩말'에 대한 의미론적 설명(예: "말과 비슷하다", "줄무늬가 있다"와 같은)을 사용하여 임베딩 공간에서 얼룩말의 위치를 찾습니다. 추출된 시각적 특징과 가장 가까운 의미적 설명을 찾음으로써 모델은 얼룩말에 대한 학습 이미지가 하나도 없어도 이미지를 '얼룩말'로 정확하게 분류할 수 있습니다. 이 프로세스는 시각과 언어를 연결하는 데 탁월한 OpenAI의 CLIP과 같이 사전 학습된 강력한 멀티모달 모델을 사용하는 경우가 많습니다.
ZSL을 관련 학습 기법과 구별하는 것이 중요합니다:
ZSL은 컴퓨터 비전 시스템을 더욱 역동적이고 적응력 있게 만드는 수많은 실용적인 애플리케이션을 보유하고 있습니다.
이러한 잠재력에도 불구하고 ZSL은 허브 문제 (의미 공간의 일부 점이 너무 많은 점과 가장 가까운 이웃이 되는 경우)와 도메인 이동 (보이는 클래스와 보이지 않는 클래스 간에 특징과 속성 간의 관계가 달라지는 경우)과 같은 문제에 직면해 있습니다. 이러한 문제를 해결하기 위해 연구자들은 추론 중에 모델이 보이는 클래스와 보이지 않는 클래스를 모두 인식해야 하는 일반화된 제로 샷 학습(GZSL)과 같은 보다 강력한 기술을 개발하고 있습니다. 울트라틱스 허브와 같은 기반 모델과 플랫폼의 발전은 ZSL의 통합과 배포를 더욱 간소화하여 AI 시스템이 광범위한 데이터 라벨링에 덜 의존하고 인간과 유사한 추론에 더 부합하도록 만들 것입니다.