Yolo Vision Shenzhen
Shenzhen
Şimdi katılın
Sözlük

Görsel Öğretim Ayarlaması

Görsel komut ayarlamasının, Görsel Dil Modellerinin insan talimatlarını nasıl takip etmesini sağladığını keşfedin. Ultralytics kullanarak gelişmiş yapay zeka iş akışları oluşturmayı öğrenin.

Görsel talimat ayarlaması, geleneksel doğal dil işleme yöntemlerini çok modlu alana genişleten, dönüştürücü bir makine öğrenimi tekniğidir. Geliştiriciler, bir Görsel Dil Modeli’ni (VLM) görüntü veya video girdilerine dayalı açık insan talimatlarını takip edecek şekilde eğiterek, görsel içeriği anlayan ve üzerinde mantık yürütme yeteneğine sahip yapay zeka asistanları oluşturabilirler. Önceden tanımlanmış bir kategori üreten standart görüntü sınıflandırma modellerinden farklı olarak, görsel talimat ayarlama, modellerin bir sahneyi tanımlamak, bir görüntüdeki metni okumak veya uzamsal ilişkilerle ilgili belirli soruları yanıtlamak gibi karmaşık, açık uçlu görevleri yerine getirmesini sağlar. Bu, metin tabanlı büyük dil modelleri (LLM'ler) ile geleneksel bilgisayar görme iş akışları arasındaki boşluğu doldurur.

Kavramı ve Farklılıkları Anlamak

Görsel talimat ayarlamasını kavramak için, bunu yapay zeka ekosistemindeki yakından ilişkili kavramlardan ayırmak faydalıdır:

  • Talimat Ayarlaması: Genellikle sadece metin içeren büyük dil modellerinin (LLM'ler) insan niyetini güvenli ve doğru bir şekilde takip edecek şekilde uyarlanmasını ifade eder. Görsel talimat ayarlaması aynı metodolojiyi uygular, ancak komut satırına ve beklenen çıktıya görseller ekler.
  • Görsel Yönlendirme: Genellikle modelin odaklanmasını yönlendirmek için bir sınır kutusu çizmek, bir nokta yerleştirmek veya görüntü üzerinde bir alanı maskelemek gibi görsel ipuçları kullanarak bir yapay zeka ile etkileşime girmeyi içerir. Buna karşılık, görsel talimat ayarlaması büyük ölçüde görsel verilerle eşleştirilmiş doğal dil komutlarına dayanır.

Eğitim süreci genellikle, görüntü-metin-talimat üçlüleri şeklinde biçimlendirilmiş kapsamlı veri kümeleri kullanılarak önceden eğitilmiş çok modlu bir temel modelin ince ayarını içerir. LLaVA (Large Language-and-Vision Assistant) projesi gibi görsel talimat ayarlaması üzerine öncü arXiv araştırmaları, bu modellerin olağanüstü sıfır atış yeteneklerine ulaşabileceğini göstermiştir. Günümüzde, büyük AI kuruluşları bu tekniği, OpenAI GPT-4o, Anthropic 3.5 Sonnet ve Google Gemini dahil olmak üzere gelişmiş modelleri desteklemek için kullanmaktadır.

Gerçek Dünya Uygulamaları

Çok modlu derin öğrenme mimarilerini insan niyetiyle uyumlu hale getirerek, görsel talimat ayarlaması çeşitli sektörlerde son derece etkileşimli uygulamaların önünü açar:

  • Sağlık Tanı Süreçlerinde Yapay Zeka: Tıp uzmanları, Görsel Soru-Cevap (VQA) için talimatla ayarlanmış modelleri kullanabilir. Bir radyolog, sisteme bir röntgen görüntüsü ve "Sol alt lobdaki pnömoni belirtilerini vurgula ve açıkla" talimatını vererek, yapay zekanın işbirliğine dayalı bir tanı asistanı olarak görev yapmasını sağlayabilir.
  • Üretimde Kalite Kontrolünde Yapay Zeka: Operatörler, katı bir kusur tespit modelini sıfırdan eğitmek yerine, Microsoft gibi bir görüntü işleme sistemine "Bu yeni üretilmiş metal kasadaki mikroskobik çizikleri veya çukurları tespit et" diyerek talimat verebilirler.

Vizyon İş Akışları Oluşturma

Bu yeteneklerden yararlanan sistemler geliştirmek için, geliştiriciler genellikle verileri bir VLM’ye aktarmadan önce görüntülerden yapısal bağlamı çıkarmak üzere sağlam nesne algılama modellerine başvururlar. Geliştiriciler, PyTorch belgelerini veya TensorFlow modellerini kullanarak hibrit iş akışları oluşturabilirler.

Örneğin, bir Ultralytics YOLO kullanarak bir sahneyi hızla algılayabilir ve sonraki aşamadaki bir VLM için bilgiye dayalı bir dil komutu oluşturabilirsiniz:

from ultralytics import YOLO

# Load an Ultralytics YOLO26 model to extract visual context
model = YOLO("yolo26n.pt")

# Perform inference to identify objects for a downstream VLM prompt
results = model("https://ultralytics.com/images/bus.jpg")

# Extract object names to dynamically build an instruction prompt
objects = [model.names[int(cls)] for cls in results[0].boxes.cls]
prompt = f"Please provide a detailed safety analysis of the scene containing these objects: {', '.join(objects)}"

print(prompt)
# Output: Please provide a detailed safety analysis of the scene containing these objects: bus, person, person...

Bu yeni nesil uygulamalar için gerekli olan karmaşık, çok modlu veri kümelerini yönetmek zorlu bir iş olabilir. Ultralytics , veri kümesi etiketleme, bulut üzerinde eğitim ve sorunsuz model dağıtımı için uçtan uca araçlar sunarak bu süreci basitleştirir. İster ACM dijital kütüphanesinde ister IEEE Xplore bilgisayar görme arşivlerinde en son makaleleri okuyun, talimatlara göre ayarlanmış, yüksek kapasiteli görme sistemlerine doğru olan geçiş, yapay zekanın en son teknolojisini temsil etmektedir. YOLO26 algılama sistemini ayarlanmış akıl yürütme modelleriyle birleştirerek, kuruluşlar inanılmaz derecede sağlam AI ajanları devreye alabilirler.

Hadi birlikte yapay zekanın geleceğini şekillendirelim!

Makine öğreniminin geleceği ile yolculuğunuza başlayın