YOLO Vision 2025를 놓치지 마세요!
2025년 9월 25일
10:00 — 18:00 BST
하이브리드 이벤트
Yolo Vision 2024
용어집

CLIP (대조 언어-이미지 사전 훈련)

OpenAI의 CLIP이 제로샷 학습, 이미지-텍스트 정렬 및 컴퓨터 비전의 실제 애플리케이션을 통해 AI에 혁명을 일으키는 방법을 알아보세요.

CLIP(Contrastive Language-Image Pre-training)은 텍스트와 이미지를 이해의 공유 공간 내에서 연결하는 획기적인 다중 모드 모델로, OpenAI에서 개발했습니다. 이미지 분류와 같은 단일 작업을 위해 훈련된 기존 모델과 달리 CLIP은 자연어 설명에서 직접 시각적 개념을 학습합니다. 인터넷의 방대한 이미지-텍스트 쌍 데이터 세트에서 훈련되어 각 작업에 대해 특정 훈련이 필요 없이 광범위한 작업을 수행할 수 있습니다. 이를 제로샷 학습이라고 합니다. 이러한 접근 방식은 새로운 세대의 AI 애플리케이션을 위한 강력한 기반 모델이 됩니다.

작동 방식

CLIP의 핵심 아이디어는 이미지와 텍스트가 모두 벡터로 표현될 수 있는 공유 임베딩 공간을 학습하는 것입니다. 이를 위해 두 개의 개별 인코더, 즉 이미지를 위한 Vision Transformer(ViT) 또는 유사한 아키텍처와 텍스트를 위한 텍스트 Transformer를 사용합니다. 훈련하는 동안 모델은 이미지-텍스트 쌍의 배치를 제공받고 어떤 텍스트 캡션이 어떤 이미지에 해당하는지 예측하는 방법을 학습합니다. 이는 대조 학습을 통해 달성되며, 여기서 모델의 목표는 올바른 쌍에 대한 임베딩의 유사성을 최대화하고 잘못된 쌍에 대한 유사성을 최소화하는 것입니다. 원래 연구 논문에 자세히 설명된 결과는 시각적 데이터와 언어적 컨텍스트를 연결하는 개념에 대한 강력한 이해입니다. LAION-5B와 같은 데이터 세트에서 훈련된 오픈 소스 구현인 OpenCLIP은 이 기술을 널리 사용할 수 있도록 했습니다.

실제 애플리케이션

CLIP의 고유한 기능은 다음과 같은 여러 실제 용도에 적합합니다.

  • 시맨틱 이미지 검색: CLIP은 사용자가 키워드 태그 대신 자연어 쿼리를 사용하여 이미지를 찾을 수 있는 고급 검색 시스템을 지원합니다. 예를 들어, 사용자는 전자 상거래 카탈로그에서 "남성용 파란색 줄무늬 셔츠"를 검색하고 제품에 해당 단어가 명시적으로 태그되지 않은 경우에도 관련 결과를 얻을 수 있습니다. Ultralytics는 대규모 이미지 라이브러리에서 빠르고 정확한 검색을 위해 CLIP 및 FAISS(Facebook AI Similarity Search)를 사용하는 시맨틱 이미지 검색 솔루션을 제공합니다.
  • 콘텐츠 조정: 소셜 미디어 플랫폼은 CLIP을 사용하여 증오심 표현이나 폭력적인 이미지와 같이 정책에 설명된 콘텐츠를 묘사하는 이미지를 자동으로 플래그할 수 있습니다. 이는 가능한 모든 유형의 금지된 콘텐츠에 대해 미리 레이블이 지정된 데이터 세트가 필요하지 않으므로 기존 방법보다 더 유연합니다.
  • Guiding Generative AI: CLIP의 인코더는 DALL-E 또는 Stable Diffusion과 같은 생성적 AI 모델을 조종하는 데 매우 중요합니다. 사용자가 텍스트 프롬프트를 제공하면 CLIP은 생성된 이미지를 평가하여 프롬프트의 의미와 얼마나 잘 일치하는지 확인하고 모델이 더 정확하고 관련성 높은 시각적 자료를 생성하도록 안내합니다.
  • 접근성 향상(Improving Accessibility): 모델은 이미지에 대한 풍부하고 설명적인 캡션을 자동으로 생성할 수 있으며, 이는 시각 장애가 있는 사용자가 시각 콘텐츠를 설명하기 위해 화면 판독기에서 사용할 수 있어 웹 접근성(accessibility)을 크게 향상시킵니다.

CLIP vs. YOLO

CLIP을 Ultralytics YOLO와 같은 특수 컴퓨터 비전(CV) 모델과 구별하는 것이 중요합니다.

  • CLIP의미론적 이해에 탁월합니다. "생일 파티"라는 개념을 이해하는 것처럼 이미지가 광범위하고 개념적인 의미에서 무엇을 포함하는지 알고 있습니다. CLIP의 강점은 분류 및 검색과 같은 작업을 위해 언어를 시각 자료에 연결하는 데 있으며, 강력한 Vision Language Model입니다.
  • YOLO 모델정확한 위치 파악에 탁월합니다. 객체 탐지 및 분할을 위해 설계되었으며, 이미지 내 객체의 정확한 위치와 경계를 식별합니다(예: 생일 파티에서 모든 사람, 케이크, 풍선의 위치를 찾습니다).

서로 구별되지만 이러한 모델은 상호 보완적입니다. CV의 미래는 CLIP과 같은 모델의 의미론적 컨텍스트와 YOLO11과 같은 검출기의 위치 정확도를 결합하여 더욱 정교한 AI 시스템을 구축하는 데 있을 수 있습니다.

제한 사항 및 향후 방향

CLIP은 강력하지만 한계가 있습니다. 인터넷의 방대한 미정제 데이터로 학습되기 때문에 해당 데이터에서 발견되는 사회적 편견을 흡수하고 복제하여 AI의 공정성 및 잠재적인 알고리즘 편향에 대한 우려를 야기할 수 있습니다. 또한 객체를 정확하게 세는 것과 같이 세밀한 세부 사항이나 공간 추론이 필요한 특정 작업에 어려움을 겪습니다. Stanford의 CRFM(Center for Research on Foundation Models)과 같은 기관의 작업을 포함한 지속적인 연구는 이러한 편견을 완화하고 기능을 개선하는 데 중점을 둡니다. CLIP의 지식을 다양한 워크플로에 통합하는 것은 모델 및 데이터 세트 관리를 단순화하는 Ultralytics HUB와 같은 플랫폼으로 관리할 수 있습니다.

Ultralytics 커뮤니티에 참여하세요

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기
클립보드에 링크가 복사되었습니다.