용어집

CLIP(대비 언어-이미지 사전 교육)

OpenAI의 CLIP이 제로 샷 학습, 이미지-텍스트 정렬, 컴퓨터 비전 분야의 실제 애플리케이션을 통해 AI를 혁신하는 방법을 알아보세요.

CLIP(대조 언어-이미지 사전 학습)은 OpenAI에서 개발한 획기적인 멀티 모달 모델로, 텍스트와 이미지를 공유된 이해 공간 내에서 연결합니다. 이미지 분류와 같은 단일 작업을 위해 훈련된 기존 모델과 달리 CLIP은 자연어 설명에서 직접 시각적 개념을 학습합니다. 인터넷에서 이미지와 텍스트 쌍으로 구성된 방대한 데이터 세트를 학습하여 각각의 작업에 대한 특정 학습 없이도 다양한 작업을 수행할 수 있으며, 이를 제로 샷 학습이라고 합니다. 이러한 접근 방식은 차세대 AI 애플리케이션을 위한 강력한 기반 모델입니다.

작동 방식

CLIP의 핵심 아이디어는 이미지와 텍스트가 모두 벡터로 표현될 수 있는 공유 임베딩 공간을 학습하는 것입니다. 이미지에는 비전 트랜스포머(ViT) 또는 이와 유사한 아키텍처를, 텍스트에는 텍스트 트랜스포머를 사용하는 두 개의 개별 인코더를 사용합니다. 훈련 중에 모델은 이미지-텍스트 쌍을 일괄적으로 제공받고 어떤 텍스트 캡션이 어떤 이미지에 해당하는지 예측하는 방법을 학습합니다. 이는 대조 학습을 통해 이루어지며, 모델의 목표는 올바른 쌍의 경우 임베딩의 유사성을 최대화하고 잘못된 쌍의 경우 유사성을 최소화하는 것입니다. 원본 연구 논문에 자세히 설명되어 있는 이 결과는 시각적 데이터와 언어적 맥락을 연결하는 개념에 대한 강력한 이해입니다. LAION-5B와 같은 데이터 세트에서 학습된 오픈 소스 구현인 OpenCLIP을 통해 이 기술을 널리 이용할 수 있게 되었습니다.

실제 애플리케이션

CLIP의 고유한 기능은 여러 가지 실용적인 용도로 활용할 수 있습니다:

  • 시맨틱 이미지 검색: CLIP은 사용자가 키워드 태그 대신 자연어 쿼리를 사용하여 이미지를 찾을 수 있는 고급 검색 시스템을 지원합니다. 예를 들어, 사용자가 이커머스 카탈로그에서 '남성용 파란색 줄무늬 셔츠'를 검색하면 제품에 해당 단어가 명시적으로 태그되어 있지 않더라도 관련 검색 결과를 얻을 수 있습니다. Ultralytics는 대규모 이미지 라이브러리에서 빠르고 정확한 검색을 위해 CLIP과 FAISS(Facebook AI 유사성 검색)를 사용하는 시맨틱 이미지 검색 솔루션을 제공합니다.
  • 콘텐츠 검토: 소셜 미디어 플랫폼은 CLIP을 사용하여 혐오 상징이나 노골적인 폭력 등 정책에 명시된 콘텐츠를 묘사하는 이미지를 자동으로 신고할 수 있습니다. 이는 가능한 모든 유형의 금지 콘텐츠에 대해 사전 라벨이 지정된 데이터 세트 없이도 텍스트 설명을 기반으로 위반 사항을 식별할 수 있으므로 기존 방법보다 유연합니다.
  • 생성형 AI 안내: CLIP의 인코더는 DALL-E 또는 Stable Diffusion과 같은 생성형 AI 모델을 조정하는 데 매우 중요합니다. 사용자가 텍스트 프롬프트를 제공하면 CLIP은 생성된 이미지를 평가하여 프롬프트의 의미와 얼마나 잘 일치하는지 확인하여 모델이 보다 정확하고 관련성 높은 비주얼을 생성하도록 안내합니다.
  • 접근성 개선: 이 모델은 시각 장애가 있는 사용자에게 시각적 콘텐츠를 설명하기 위해 스크린 리더가 사용할 수 있는 풍부한 설명 캡션을 이미지에 자동으로 생성하여 웹 접근성을 크게 개선할 수 있습니다.

클립과 욜로

CLIP을 Ultralytics YOLO와 같은 특수 컴퓨터 비전(CV) 모델과 구별하는 것이 중요합니다.

  • CLIP은 의미 이해에 탁월합니다. 광범위한 개념적 의미에서 이미지에 포함된 내용을 파악합니다(예: '생일 파티'라는 개념을 이해). 분류 및 검색과 같은 작업을 위해 언어를 시각적 이미지와 연결하는 데 강점이 있어 강력한 비전 언어 모델입니다.
  • YOLO 모델은 로컬라이제이션에 탁월합니다. 객체 감지 및 분할을 위해 설계되어 이미지 내에서 객체의 정확한 위치와 경계를 식별합니다(예: 생일 파티에서 모든 사람, 케이크, 풍선 위치 파악).

이 모델들은 서로 다르지만 상호 보완적입니다. CV의 미래에는 CLIP과 같은 모델의 시맨틱 컨텍스트와 YOLO11과 같은 탐지기의 위치 정확도를 결합하여 더욱 정교한 AI 시스템을 구축할 수 있습니다.

제한 사항 및 향후 방향

CLIP은 강력한 성능에도 불구하고 한계가 있습니다. 인터넷에서 선별되지 않은 방대한 데이터로 학습하기 때문에 데이터에서 발견되는 사회적 편견을 흡수하고 복제할 수 있으며, 이로 인해 AI의 공정성과 잠재적인 알고리즘 편향에 대한 우려가 제기될 수 있습니다. 또한 물체를 정확하게 세는 것과 같이 세밀한 세부 사항이나 공간적 추론이 필요한 특정 작업에서도 어려움을 겪습니다. 스탠포드 기초 모델 연구 센터(CRFM)와 같은 기관에서 진행 중인 연구를 포함하여 지속적인 연구는 이러한 편향을 완화하고 기능을 개선하는 데 초점을 맞추고 있습니다. 모델 및 데이터 세트 관리를 간소화하는 Ultralytics HUB와 같은 플랫폼으로 CLIP의 지식을 다양한 워크플로우에 통합하여 관리할 수 있습니다.

울트라 애널리틱스 커뮤니티 가입

AI의 미래와 함께하세요. 글로벌 혁신가들과 연결, 협업, 성장하기

지금 가입하기
링크가 클립보드에 복사됨