Görsel komut ayarlamasının, Görsel Dil Modellerinin insan talimatlarını nasıl takip etmesini sağladığını keşfedin. Ultralytics kullanarak gelişmiş yapay zeka iş akışları oluşturmayı öğrenin.
Görsel talimat ayarlaması, geleneksel doğal dil işleme yöntemlerini çok modlu alana genişleten, dönüştürücü bir makine öğrenimi tekniğidir. Geliştiriciler, bir Görsel Dil Modeli’ni (VLM) görüntü veya video girdilerine dayalı açık insan talimatlarını takip edecek şekilde eğiterek, görsel içeriği anlayan ve üzerinde mantık yürütme yeteneğine sahip yapay zeka asistanları oluşturabilirler. Önceden tanımlanmış bir kategori üreten standart görüntü sınıflandırma modellerinden farklı olarak, görsel talimat ayarlama, modellerin bir sahneyi tanımlamak, bir görüntüdeki metni okumak veya uzamsal ilişkilerle ilgili belirli soruları yanıtlamak gibi karmaşık, açık uçlu görevleri yerine getirmesini sağlar. Bu, metin tabanlı büyük dil modelleri (LLM'ler) ile geleneksel bilgisayar görme iş akışları arasındaki boşluğu doldurur.
Görsel talimat ayarlamasını kavramak için, bunu yapay zeka ekosistemindeki yakından ilişkili kavramlardan ayırmak faydalıdır:
Eğitim süreci genellikle, görüntü-metin-talimat üçlüleri şeklinde biçimlendirilmiş kapsamlı veri kümeleri kullanılarak önceden eğitilmiş çok modlu bir temel modelin ince ayarını içerir. LLaVA (Large Language-and-Vision Assistant) projesi gibi görsel talimat ayarlaması üzerine öncü arXiv araştırmaları, bu modellerin olağanüstü sıfır atış yeteneklerine ulaşabileceğini göstermiştir. Günümüzde, büyük AI kuruluşları bu tekniği, OpenAI GPT-4o, Anthropic 3.5 Sonnet ve Google Gemini dahil olmak üzere gelişmiş modelleri desteklemek için kullanmaktadır.
Çok modlu derin öğrenme mimarilerini insan niyetiyle uyumlu hale getirerek, görsel talimat ayarlaması çeşitli sektörlerde son derece etkileşimli uygulamaların önünü açar:
Bu yeteneklerden yararlanan sistemler geliştirmek için, geliştiriciler genellikle verileri bir VLM’ye aktarmadan önce görüntülerden yapısal bağlamı çıkarmak üzere sağlam nesne algılama modellerine başvururlar. Geliştiriciler, PyTorch belgelerini veya TensorFlow modellerini kullanarak hibrit iş akışları oluşturabilirler.
Örneğin, bir Ultralytics YOLO kullanarak bir sahneyi hızla algılayabilir ve sonraki aşamadaki bir VLM için bilgiye dayalı bir dil komutu oluşturabilirsiniz:
from ultralytics import YOLO
# Load an Ultralytics YOLO26 model to extract visual context
model = YOLO("yolo26n.pt")
# Perform inference to identify objects for a downstream VLM prompt
results = model("https://ultralytics.com/images/bus.jpg")
# Extract object names to dynamically build an instruction prompt
objects = [model.names[int(cls)] for cls in results[0].boxes.cls]
prompt = f"Please provide a detailed safety analysis of the scene containing these objects: {', '.join(objects)}"
print(prompt)
# Output: Please provide a detailed safety analysis of the scene containing these objects: bus, person, person...
Bu yeni nesil uygulamalar için gerekli olan karmaşık, çok modlu veri kümelerini yönetmek zorlu bir iş olabilir. Ultralytics , veri kümesi etiketleme, bulut üzerinde eğitim ve sorunsuz model dağıtımı için uçtan uca araçlar sunarak bu süreci basitleştirir. İster ACM dijital kütüphanesinde ister IEEE Xplore bilgisayar görme arşivlerinde en son makaleleri okuyun, talimatlara göre ayarlanmış, yüksek kapasiteli görme sistemlerine doğru olan geçiş, yapay zekanın en son teknolojisini temsil etmektedir. YOLO26 algılama sistemini ayarlanmış akıl yürütme modelleriyle birleştirerek, kuruluşlar inanılmaz derecede sağlam AI ajanları devreye alabilirler.
Makine öğreniminin geleceği ile yolculuğunuza başlayın