Yolo 비전 선전
선전
지금 참여하기
용어집

Zero-Shot 학습

제로 샷 학습: 모델이 보이지 않는 데이터를 classify 객체 감지, NLP 등을 혁신하는 최첨단 AI 접근 방식에 대해 알아보세요.

Zero-Shot Learning (ZSL) is a machine learning paradigm that enables artificial intelligence models to recognize, classify, or detect objects they have never encountered during their training phase. In traditional supervised learning, a model requires thousands of labeled examples for every specific category it needs to identify. ZSL eliminates this strict dependency by leveraging auxiliary information—typically text descriptions, semantic attributes, or embeddings—to bridge the gap between seen and unseen classes. This capability allows artificial intelligence (AI) systems to be significantly more flexible, scalable, and capable of handling dynamic environments where collecting exhaustive data for every possible object is impractical.

제로 샷 학습의 작동 방식

The core mechanism of ZSL involves transferring knowledge from familiar concepts to unfamiliar ones using a shared semantic space. Instead of learning to recognize a "zebra" solely by memorizing pixel patterns of black and white stripes, the model learns the relationship between visual features and semantic attributes (e.g., "horse-like shape," "striped pattern," "four legs") derived from natural language processing (NLP).

This process often relies on multi-modal models that align image and text representations. For instance, foundational research like OpenAI's CLIP demonstrates how models can learn visual concepts from natural language supervision. When a ZSL model encounters an unseen object, it extracts the visual features and compares them against a dictionary of semantic vectors. If the visual features align with the semantic description of the new class, the model can correctly classify it, effectively performing a "zero-shot" prediction. This approach is fundamental to modern foundation models which generalize across vast arrays of tasks.

실제 애플리케이션

제로샷 학습은 시스템이 초기 훈련 데이터를 넘어 일반화할 수 있도록 함으로써 다양한 산업 분야에서 혁신을 주도하고 있습니다.

  1. Open-Vocabulary Object Detection: Modern architectures like YOLO-World utilize ZSL to detect objects based on user-defined text prompts. This allows for object detection in scenarios where defining a fixed list of classes beforehand is impossible, such as searching for specific items in vast video archives. Researchers at Google Research continue to push the boundaries of these open-vocabulary capabilities.
  2. Medical Diagnostics: In AI in healthcare, obtaining labeled data for rare diseases is often difficult and expensive. ZSL models can be trained on common conditions and descriptions of rare symptoms from medical literature found in databases like PubMed, enabling the system to flag potential rare anomalies in medical imaging without requiring a massive dataset of positive cases.
  3. Wildlife Conservation: For AI in agriculture and ecology, identifying endangered species that are rarely photographed is critical. ZSL allows conservationists to detect these animals using attribute-based descriptions defined in biological databases like the Encyclopedia of Life.

Ultralytics 통한 제로 샷 탐지

Ultralytics YOLO 모델은 제로샷 학습의 실제 적용 사례를 보여줍니다. 이 모델은 사용자가 모델을 재훈련하지 않고도 런타임에 동적으로 사용자 정의 클래스를 정의할 수 있게 합니다. 이는 강력한 탐지 백본과 자연어를 이해하는 텍스트 인코더를 결합함으로써 달성됩니다.

The following Python example demonstrates how to use YOLO-World to detect objects that were not explicitly part of a standard training set using the ultralytics 패키지입니다.

from ultralytics import YOLOWorld

# Load a pre-trained YOLO-World model capable of Zero-Shot Learning
model = YOLOWorld("yolov8s-world.pt")

# Define custom classes via text prompts (e.g., specific accessories)
# The model adjusts to detect these new classes without retraining
model.set_classes(["blue backpack", "red apple", "sunglasses"])

# Run inference on an image to detect the new zero-shot classes
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Display the results
results[0].show()

관련 개념과의 차이점

ZSL을 완전히 이해하려면 다음에서 사용되는 유사한 학습 전략과 구별하는 것이 도움이 됩니다. 컴퓨터 비전(CV):

  • 소량 데이터 학습(FSL): ZSL이 대상 클래스의 예시를 전혀 필요로 하지 않는 반면, FSL은 모델이 적응할 수 있도록 극소량의 지원 세트 (일반적으로 1~5개의 예시)를 제공합니다. ZSL은 시각적 예시보다는 의미적 추론에 전적으로 의존하기 때문에 일반적으로 더 어려운 것으로 간주됩니다.
  • 원샷 학습: 의 하위 집합 FSL의 하위 집합으로, 모델이 정확히 하나의 레이블이 지정된 예제에서 학습합니다. ZSL은 새로운 카테고리의 이미지 하나 없이도 없이 작동한다는 점에서 근본적으로 다릅니다.
  • 이전 학습: 이 광범위한 용어는 한 작업에서 다른 작업으로 지식을 이전하는 것을 의미합니다. ZSL은 특정 유형의 전이 학습입니다. 시맨틱 속성을 사용하여 기존에는 볼 수 없었던 클래스에 지식을 전달합니다. 새로운 데이터에 대한 미세 조정.

과제 및 향후 전망

While ZSL offers immense potential, it faces challenges such as the domain shift problem, where the semantic attributes learned during training do not perfectly map to the visual appearance of unseen classes. Additionally, ZSL models can suffer from bias, where prediction accuracy is significantly higher for seen classes compared to unseen ones.

Research from organizations like Stanford University's AI Lab and the IEEE Computer Society continues to address these limitations. As computer vision tools become more robust, ZSL is expected to become a standard feature, reducing the reliance on massive data labeling efforts. For teams looking to manage datasets efficiently before deploying advanced models, the Ultralytics Platform offers comprehensive tools for annotation and dataset management.

Ultralytics 커뮤니티 가입

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기