OpenAI의 CLIP이 제로샷 학습, 이미지-텍스트 정렬 및 컴퓨터 비전의 실제 애플리케이션을 통해 AI에 혁명을 일으키는 방법을 알아보세요.
CLIP(대조 언어-이미지 사전 훈련)은 획기적인 멀티 모달 모델 아키텍처로 컴퓨터 비전과 자연어 처리 사이의 간극을 메워주는 처리 사이의 간극을 메워주는 혁신적인 멀티모달 모델 아키텍처입니다. 사전 레이블이 지정된 고정된 카테고리 세트에 대해 훈련된 기존의 컴퓨터 비전 시스템과 달리 CLIP은 다음을 학습합니다. 인터넷에서 수집한 수억 개의 이미지-텍스트 쌍을 학습하여 이미지를 텍스트 설명과 연결합니다. 인터넷. 이러한 접근 방식을 통해 모델은 자연어 렌즈를 통해 시각적 개념을 이해할 수 있으며, 이를 통해 다음을 수행할 수 있습니다. 제로 샷 학습이라고 알려진 기능을 통해 모델이 학습 중에 명시적으로 본 적이 없는 카테고리로 이미지를 정확하게 classify 수 있습니다. 시각적 정보와 텍스트 정보를 시각적 및 텍스트 정보를 공유된 특징 공간에 정렬함으로써 CLIP은 다양한 다운로드를 위한 다양한 다운스트림 AI 작업의 다양한 기반 모델 역할을 합니다.
CLIP의 핵심 메커니즘은 두 개의 개별 인코더에 의존합니다. 비전 트랜스포머(ViT) 또는 레스넷(ResNet)을 사용하여 이미지를 처리하는 비전 트랜스포머와 언어를 처리합니다. 이 모델은 대조 학습을 사용하여 이 두 가지 양식을 동기화합니다. 모달리티를 동기화합니다. 학습하는 동안 CLIP은 (이미지, 텍스트) 쌍을 일괄적으로 받아 어떤 텍스트 설명이 어떤 이미지와 일치하는지 을 예측하는 방법을 학습합니다. 그리고 매개변수를 최적화하여 올바른 쌍의 이미지와 텍스트의 코사인 유사도를 최대화하고 잘못된 쌍의 경우 유사도를 최소화하도록 파라미터를 최적화합니다.
이 훈련 과정을 통해 의미적으로 유사한 이미지와 텍스트가 서로 가까운 곳에 위치한 잠재 공간을 공유하게 됩니다. 서로 가깝게 위치하게 됩니다. 예를 들어, '골든 리트리버' 이미지의 벡터 표현은 '골든 리트리버 사진'이라는 텍스트 문자열의 벡터 표현과 텍스트 문자열 "골든 리트리버의 사진"의 벡터 표현과 매우 가깝습니다. 이러한 정렬을 통해 개발자는 다음과 같은 방법으로 이미지 분류를 수행할 수 있습니다. 잠재적인 텍스트 레이블 목록을 제공하기만 하면 모델이 입력 이미지와 비교하여 가장 적합한 일치하는 것을 찾습니다.
CLIP의 유연성 덕분에 다양한 산업과 애플리케이션에서 채택되고 있습니다:
CLIP은 원래 분류용으로 설계되었지만, 텍스트 인코딩 기능이 최신의 개체 감지 아키텍처에 통합되어 개방형 어휘 감지가 가능합니다. YOLO 모델을 사용하면 사용자가 CLIP의 언어적 이해를 활용하여 런타임에 자연어 프롬프트를 사용하여 사용자 정의 클래스를 정의할 수 있습니다. 를 활용하여 재교육 없이 객체를 식별할 수 있습니다.
다음 예는 YOLO 모델에 ultralytics 패키지를 detect
사용자 정의 객체를 감지합니다:
from ultralytics import YOLO
# Load a pre-trained YOLO-World model utilizing CLIP-based text features
model = YOLO("yolov8s-world.pt")
# Define custom classes using natural language prompts
model.set_classes(["person wearing a hat", "red backpack"])
# Run inference on an image to detect the specified objects
results = model.predict("bus_stop.jpg")
# Display the detection results
results[0].show()
CLIP을 다음과 같은 표준 감독 모델과 구별하는 것이 중요합니다. ResNet 또는 이전 버전의 YOLO.
최근 연구에서는 이러한 접근 방식을 결합하는 경우가 많습니다. 예를 들어 비전 언어 모델(VLM) 은 종종 CLIP을 백본으로 사용하여 의미론적 풍부함을 제공하는 반면, YOLO26과 같은 모델의 아키텍처 개선은 이러한 멀티모달 시스템의 속도를 향상시키는 것을 목표로 합니다. 와 같은 모델의 아키텍처 개선은 이러한 멀티 모달 시스템의 속도와 정밀도를 향상시키는 것을 목표로 합니다.

