Yolo 비전 선전
선전
지금 참여하기
용어집

CLIP (대조 언어-이미지 사전 훈련)

OpenAI의 CLIP이 제로샷 학습, 이미지-텍스트 정렬 및 컴퓨터 비전의 실제 애플리케이션을 통해 AI에 혁명을 일으키는 방법을 알아보세요.

CLIP(대조 언어-이미지 사전 훈련)은 획기적인 멀티 모달 모델 아키텍처로 컴퓨터 비전과 자연어 처리 사이의 간극을 메워주는 처리 사이의 간극을 메워주는 혁신적인 멀티모달 모델 아키텍처입니다. 사전 레이블이 지정된 고정된 카테고리 세트에 대해 훈련된 기존의 컴퓨터 비전 시스템과 달리 CLIP은 다음을 학습합니다. 인터넷에서 수집한 수억 개의 이미지-텍스트 쌍을 학습하여 이미지를 텍스트 설명과 연결합니다. 인터넷. 이러한 접근 방식을 통해 모델은 자연어 렌즈를 통해 시각적 개념을 이해할 수 있으며, 이를 통해 다음을 수행할 수 있습니다. 제로 샷 학습이라고 알려진 기능을 통해 모델이 학습 중에 명시적으로 본 적이 없는 카테고리로 이미지를 정확하게 classify 수 있습니다. 시각적 정보와 텍스트 정보를 시각적 및 텍스트 정보를 공유된 특징 공간에 정렬함으로써 CLIP은 다양한 다운로드를 위한 다양한 다운스트림 AI 작업의 다양한 기반 모델 역할을 합니다.

CLIP 작동 방식

CLIP의 핵심 메커니즘은 두 개의 개별 인코더에 의존합니다. 비전 트랜스포머(ViT) 또는 레스넷(ResNet)을 사용하여 이미지를 처리하는 비전 트랜스포머와 언어를 처리합니다. 이 모델은 대조 학습을 사용하여 이 두 가지 양식을 동기화합니다. 모달리티를 동기화합니다. 학습하는 동안 CLIP은 (이미지, 텍스트) 쌍을 일괄적으로 받아 어떤 텍스트 설명이 어떤 이미지와 일치하는지 을 예측하는 방법을 학습합니다. 그리고 매개변수를 최적화하여 올바른 쌍의 이미지와 텍스트의 코사인 유사도를 최대화하고 잘못된 쌍의 경우 유사도를 최소화하도록 파라미터를 최적화합니다.

이 훈련 과정을 통해 의미적으로 유사한 이미지와 텍스트가 서로 가까운 곳에 위치한 잠재 공간을 공유하게 됩니다. 서로 가깝게 위치하게 됩니다. 예를 들어, '골든 리트리버' 이미지의 벡터 표현은 '골든 리트리버 사진'이라는 텍스트 문자열의 벡터 표현과 텍스트 문자열 "골든 리트리버의 사진"의 벡터 표현과 매우 가깝습니다. 이러한 정렬을 통해 개발자는 다음과 같은 방법으로 이미지 분류를 수행할 수 있습니다. 잠재적인 텍스트 레이블 목록을 제공하기만 하면 모델이 입력 이미지와 비교하여 가장 적합한 일치하는 것을 찾습니다.

실제 애플리케이션

CLIP의 유연성 덕분에 다양한 산업과 애플리케이션에서 채택되고 있습니다:

  • 시맨틱 이미지 검색: 기존 검색은 메타데이터나 태그에 의존하지만, CLIP은 사용자가 이미지를 검색할 때 시맨틱 검색을 통해 사용자가 자연어 설명을 사용하여 이미지 데이터베이스를 쿼리할 수 있는 시맨틱 검색을 지원합니다. 예를 들어, "해질녘의 붐비는 해변"을 검색하면 을 검색하면 키워드가 아닌 시각적 콘텐츠를 기반으로 관련 이미지를 검색할 수 있으며, 이는 다음과 같은 분야에 유용한 기술입니다. 리테일 및 디지털 자산 관리 분야의 AI.
  • 제너레이티브 모델 안내: CLIP은 텍스트-이미지 생성기의 평가 및 안내에서 중요한 역할을 합니다. 텍스트-이미지 생성기의 평가 및 안내에 중요한 역할을 합니다. 생성된 이미지가 사용자의 프롬프트와 얼마나 잘 일치하는지를 점수화하여 생성된 이미지가 사용자의 프롬프트와 얼마나 잘 일치하는지 점수를 매겨 다음과 같은 모델의 조정 가능한 메트릭 역할을 합니다. 시각적 출력이 텍스트 의도와 일치하도록 보장하는 안정된 확산 및 VQGAN 의도와 일치하도록 보장합니다.
  • 콘텐츠 검토: 플랫폼은 CLIP을 사용하여 이미지를 다음 항목과 비교하여 부적절한 콘텐츠를 필터링합니다. 텍스트 설명과 비교하여 부적절한 콘텐츠를 필터링합니다. 이 자동화된 데이터 보안 조치는 수동 검토보다 수동 검토보다 더 효과적으로 확장됩니다.

물체 감지 클립

CLIP은 원래 분류용으로 설계되었지만, 텍스트 인코딩 기능이 최신의 개체 감지 아키텍처에 통합되어 개방형 어휘 감지가 가능합니다. YOLO 모델을 사용하면 사용자가 CLIP의 언어적 이해를 활용하여 런타임에 자연어 프롬프트를 사용하여 사용자 정의 클래스를 정의할 수 있습니다. 를 활용하여 재교육 없이 객체를 식별할 수 있습니다.

다음 예는 YOLO 모델에 ultralytics 패키지를 detect 사용자 정의 객체를 감지합니다:

from ultralytics import YOLO

# Load a pre-trained YOLO-World model utilizing CLIP-based text features
model = YOLO("yolov8s-world.pt")

# Define custom classes using natural language prompts
model.set_classes(["person wearing a hat", "red backpack"])

# Run inference on an image to detect the specified objects
results = model.predict("bus_stop.jpg")

# Display the detection results
results[0].show()

CLIP과 기존 비전 모델 비교

CLIP을 다음과 같은 표준 감독 모델과 구별하는 것이 중요합니다. ResNet 또는 이전 버전의 YOLO.

  • 기존 모델은 일반적으로 다음과 같은 폐쇄형 데이터 세트에서 학습됩니다. ImageNet 과 같이 고정된 수의 클래스(예: 1,000개 카테고리). 새로운 카테고리가 필요한 경우, 모델에 새로운 레이블이 지정된 데이터로 새 레이블이 지정된 데이터로 모델을 미세 조정해야 합니다.
  • CLIP은 개방형 어휘 학습기입니다. 텍스트로 설명할 수 있는 모든 개념으로 일반화할 수 있습니다. 다음과 같은 전문 모델은 YOLO11 과 같은 전문 모델은 특정 작업에 대해 뛰어난 속도 뛰어난 속도와 현지화 정확도를 제공하는 반면, CLIP은 일반화된 이해를 위한 탁월한 다목적성을 제공합니다.

최근 연구에서는 이러한 접근 방식을 결합하는 경우가 많습니다. 예를 들어 비전 언어 모델(VLM) 은 종종 CLIP을 백본으로 사용하여 의미론적 풍부함을 제공하는 반면, YOLO26과 같은 모델의 아키텍처 개선은 이러한 멀티모달 시스템의 속도를 향상시키는 것을 목표로 합니다. 와 같은 모델의 아키텍처 개선은 이러한 멀티 모달 시스템의 속도와 정밀도를 향상시키는 것을 목표로 합니다.

Ultralytics 커뮤니티 가입

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기