OpenAI의 CLIP이 제로샷 학습, 이미지-텍스트 정렬 및 컴퓨터 비전의 실제 애플리케이션을 통해 AI에 혁명을 일으키는 방법을 알아보세요.
CLIP(Contrastive Language-Image Pre-training)은 텍스트와 이미지를 이해의 공유 공간 내에서 연결하는 획기적인 다중 모드 모델로, OpenAI에서 개발했습니다. 이미지 분류와 같은 단일 작업을 위해 훈련된 기존 모델과 달리 CLIP은 자연어 설명에서 직접 시각적 개념을 학습합니다. 인터넷의 방대한 이미지-텍스트 쌍 데이터 세트에서 훈련되어 각 작업에 대해 특정 훈련이 필요 없이 광범위한 작업을 수행할 수 있습니다. 이를 제로샷 학습이라고 합니다. 이러한 접근 방식은 새로운 세대의 AI 애플리케이션을 위한 강력한 기반 모델이 됩니다.
CLIP의 핵심 아이디어는 이미지와 텍스트가 모두 벡터로 표현될 수 있는 공유 임베딩 공간을 학습하는 것입니다. 이를 위해 두 개의 개별 인코더, 즉 이미지를 위한 Vision Transformer(ViT) 또는 유사한 아키텍처와 텍스트를 위한 텍스트 Transformer를 사용합니다. 훈련하는 동안 모델은 이미지-텍스트 쌍의 배치를 제공받고 어떤 텍스트 캡션이 어떤 이미지에 해당하는지 예측하는 방법을 학습합니다. 이는 대조 학습을 통해 달성되며, 여기서 모델의 목표는 올바른 쌍에 대한 임베딩의 유사성을 최대화하고 잘못된 쌍에 대한 유사성을 최소화하는 것입니다. 원래 연구 논문에 자세히 설명된 결과는 시각적 데이터와 언어적 컨텍스트를 연결하는 개념에 대한 강력한 이해입니다. LAION-5B와 같은 데이터 세트에서 훈련된 오픈 소스 구현인 OpenCLIP은 이 기술을 널리 사용할 수 있도록 했습니다.
CLIP의 고유한 기능은 다음과 같은 여러 실제 용도에 적합합니다.
CLIP을 Ultralytics YOLO와 같은 특수 컴퓨터 비전(CV) 모델과 구별하는 것이 중요합니다.
서로 구별되지만 이러한 모델은 상호 보완적입니다. CV의 미래는 CLIP과 같은 모델의 의미론적 컨텍스트와 YOLO11과 같은 검출기의 위치 정확도를 결합하여 더욱 정교한 AI 시스템을 구축하는 데 있을 수 있습니다.
CLIP은 강력하지만 한계가 있습니다. 인터넷의 방대한 미정제 데이터로 학습되기 때문에 해당 데이터에서 발견되는 사회적 편견을 흡수하고 복제하여 AI의 공정성 및 잠재적인 알고리즘 편향에 대한 우려를 야기할 수 있습니다. 또한 객체를 정확하게 세는 것과 같이 세밀한 세부 사항이나 공간 추론이 필요한 특정 작업에 어려움을 겪습니다. Stanford의 CRFM(Center for Research on Foundation Models)과 같은 기관의 작업을 포함한 지속적인 연구는 이러한 편견을 완화하고 기능을 개선하는 데 중점을 둡니다. CLIP의 지식을 다양한 워크플로에 통합하는 것은 모델 및 데이터 세트 관리를 단순화하는 Ultralytics HUB와 같은 플랫폼으로 관리할 수 있습니다.