OpenAI'nin CLIP'inin sıfır atış öğrenimi, görüntü-metin hizalaması ve bilgisayarlı görüde gerçek dünya uygulamaları ile AI'da nasıl devrim yarattığını keşfedin.
CLIP (Contrastive Language-Image Pre-training) çığır açan bir tarafından tanıtılan çok modlu model mimarisi Bilgisayar görüşü ve doğal dil arasındaki boşluğu dolduran OpenAI işleme. Önceden etiketlenmiş kategorilerden oluşan sabit kümeler üzerinde eğitilen geleneksel bilgisayarla görme sistemlerinin aksine, CLIP toplanan yüz milyonlarca görüntü-metin çifti üzerinde eğitim yaparak görüntüleri metin açıklamalarıyla ilişkilendirir. internet. Bu yaklaşım, modelin görsel kavramları doğal dil merceğinden anlamasını sağlayarak sıfır atışlı öğrenme olarak bilinen bir yetenektir. model, görüntüleri eğitim sırasında açıkça görmediği kategorilere doğru bir şekilde classify . Hizalayarak paylaşılan bir özellik uzayında görsel ve metinsel bilgiler, CLIP çok yönlü bir Geniş bir yelpazede aşağı akış yapay zeka için temel model görevler.
CLIP'in arkasındaki temel mekanizma iki ayrı kodlayıcıya dayanır: bir Görüntü Dönüştürücüsü (ViT) veya bir ResNet'ten görüntüleri işlemek için bir metin dönüştürücü ve Dil. Model şunları kullanır bu ikisini senkronize etmek için kontrastlı öğrenme modaliteler. Eğitim sırasında, CLIP bir grup (görüntü, metin) çifti alır ve hangi metin açıklamasını tahmin etmeyi öğrenir hangi görüntüyle eşleştiğini belirler. Aralarındaki kosinüs benzerliğini maksimize etmek için parametrelerini optimize eder. minimize ederken doğru çiftlerin gömülmelerini Yanlış eşleştirmeler için benzerlik.
Bu eğitim süreci, anlamsal olarak benzer görüntülerin ve metinlerin birbirine yakın konumlandığı paylaşılan bir gizli uzayla sonuçlanır. birbirlerine çok yakındır. Örneğin, bir "golden retriever" görüntüsünün vektör temsili birbirine çok yakın olacaktır "a photo of a golden retriever" metin dizesinin vektör temsiline hizalar. Bu hizalama şunları sağlar tarafından görüntü sınıflandırması yapmak için geliştiriciler modelin en iyiyi bulmak için giriş görüntüsüyle karşılaştırdığı potansiyel metin etiketlerinin bir listesini sağlamak Maç.
CLIP'in esnekliği, çok sayıda sektör ve uygulamada benimsenmesine yol açmıştır:
CLIP başlangıçta sınıflandırma için tasarlanmış olsa da, metin kodlama yetenekleri modern etkinleştirmek için nesne algılama mimarileri açık kelime tespiti. YOLO modeli şunları sağlar kullanıcıların CLIP'in dilsel anlayışından yararlanarak doğal dil istemlerini kullanarak çalışma zamanında özel sınıflar tanımlaması yeniden eğitim olmadan nesneleri tanımlamak için.
Aşağıdaki örnek, bir YOLO modelinin aşağıdakilerle birlikte nasıl kullanılacağını göstermektedir ultralytics detect
etmek için paket
metin tarafından tanımlanan özel nesneler:
from ultralytics import YOLO
# Load a pre-trained YOLO-World model utilizing CLIP-based text features
model = YOLO("yolov8s-world.pt")
# Define custom classes using natural language prompts
model.set_classes(["person wearing a hat", "red backpack"])
# Run inference on an image to detect the specified objects
results = model.predict("bus_stop.jpg")
# Display the detection results
results[0].show()
CLIP'i aşağıdaki gibi standart denetimli modellerden ayırmak önemlidir ResNet veya YOLO'nun önceki sürümleri.
Son araştırmalar genellikle bu yaklaşımları birleştirmektedir. Örneğin, Görme Dili Modelleri (VLM'ler) genellikle anlamsal zenginlik sağlamak için CLIP'i bir backbone olarak kullanırken, YOLO26 gibi modellerden mimari iyileştirmeler bu çok modlu sistemlerin hızını ve hassasiyetini artırmayı amaçlamaktadır.
