Visual Instruction Tuning
Görsel komut ayarlamanın, Vision Language Model'lerin insan direktiflerini izlemesini nasıl sağladığını keşfet. Ultralytics YOLO26 kullanarak gelişmiş AI iş akışları oluşturmayı öğren.
Görsel komut ayarlama, geleneksel doğal dil işleme yöntemlerini çok modlu alana genişleten dönüştürücü bir makine öğrenimi tekniğidir. Bir Vision Language Model (VLM) modelini, görüntü veya video girdilerine dayalı olarak açık insan direktiflerini izlemesi için eğiterek geliştiriciler, görsel içeriği anlayan ve bu konuda muhakeme yapabilen AI asistanları oluşturabilirler. Önceden tanımlanmış bir kategori çıktısı veren standart image classification modellerinin aksine, görsel komut ayarlama modelleri; bir sahneyi tanımlamak, bir görüntüdeki metni okumak veya uzamsal ilişkiler hakkında belirli soruları yanıtlamak gibi karmaşık ve açık uçlu görevleri yürütme konusunda güçlendirir. Bu, metin tabanlı large language models (LLMs) ile geleneksel computer vision süreçleri arasındaki boşluğu doldurur.
Link to this sectionKavramı ve Farklılıkları Anlamak#
Görsel komut ayarlamayı kavramak için, onu AI ekosistemindeki yakından ilişkili kavramlardan ayırmak yararlıdır:
- Instruction Tuning: Genellikle sadece metin içeren LLM'lerin insan niyetini güvenli ve doğru bir şekilde izleyecek şekilde hizalanmasını ifade eder. Görsel komut ayarlama aynı metodolojiyi uygular ancak görüntüleri isteme ve beklenen çıktıya dahil eder.
- Visual Prompting: Genellikle modelin odağını yönlendirmek için bir bounding box çizmek, bir nokta yerleştirmek veya bir görüntüdeki alanı maskelemek gibi görsel ipuçları kullanarak bir AI ile etkileşim kurmayı içerir. Buna karşılık, görsel komut ayarlama büyük ölçüde görsel verilerle eşleştirilmiş doğal dil komutlarına dayanır.
The training process generally involves fine-tuning a pre-trained multi-modal foundation model using extensive datasets formatted as image-text-instruction triplets. Pioneering arXiv research on visual instruction tuning, such as the LLaVA (Large Language-and-Vision Assistant) project, demonstrated that these models can achieve remarkable zero-shot capabilities. Today, major AI organizations employ this technique to power advanced models, including OpenAI GPT-4o, Anthropic Claude 3.5 Sonnet, and Google DeepMind Gemini.
Link to this sectionGerçek Dünya Uygulamaları#
multimodal deep learning mimarilerini insan niyetiyle hizalayarak, görsel komut ayarlama çeşitli endüstrilerde oldukça etkileşimli uygulamaların önünü açar:
- AI in Healthcare Diagnostics: Tıp uzmanları, komut ayarlı modelleri Visual Question Answering (VQA) için kullanabilirler. Bir radyolog, sisteme bir röntgen görüntüsü ve "Alt sol lobdaki zatürre belirtilerini vurgula ve açıkla" komutu vererek AI'nın işbirlikçi bir tanı asistanı olarak hareket etmesini sağlayabilir.
- AI in Manufacturing Quality Control: Operatörler, sıfırdan katı bir kusur tespit modeli eğitmek yerine, Microsoft Florence-2 gibi bir görüntüleme sistemine "Bu yeni üretilmiş metal kasadaki mikroskobik çizikleri veya ezikleri tanımla" diyerek talimat verebilirler.
Link to this sectionGörüntü İş Akışları Oluşturma#
Bu yeteneklerden yararlanan sistemler oluşturmak için geliştiriciler, verileri bir VLM'ye iletmeden önce görüntülerden yapısal bağlamı çıkarmak adına genellikle güçlü object detection modellerine güvenirler. PyTorch multi-modal documentation veya TensorFlow vision models kullanarak geliştiriciler hibrit süreçler oluşturabilirler.
Örneğin, bir sahneyi hızla algılamak ve sonraki bir VLM için bilinçli bir dil istemi oluşturmak amacıyla bir Ultralytics YOLO modeli kullanabilirsin:
from ultralytics import YOLO
# Load an Ultralytics YOLO26 model to extract visual context
model = YOLO("yolo26n.pt")
# Perform inference to identify objects for a downstream VLM prompt
results = model("https://ultralytics.com/images/bus.jpg")
# Extract object names to dynamically build an instruction prompt
objects = [model.names[int(cls)] for cls in results[0].boxes.cls]
prompt = f"Please provide a detailed safety analysis of the scene containing these objects: {', '.join(objects)}"
print(prompt)
# Output: Please provide a detailed safety analysis of the scene containing these objects: bus, person, person...Bu yeni nesil uygulamalar için gereken karmaşık, çok modlu veri kümelerini yönetmek zor olabilir. Ultralytics Platform, veri kümesi etiketleme, bulut eğitimi ve sorunsuz model dağıtımı için uçtan uca araçlar sağlayarak bu süreci basitleştirir. İster ACM digital library üzerindeki en son makaleleri okuyor ol ister IEEE Xplore computer vision arşivlerini inceliyor ol, komut ayarlı, yüksek yetenekli görüntüleme sistemlerine geçiş, yapay zekanın en ileri noktasını temsil eder. YOLO26 algısını ayarlı muhakeme modelleriyle eşleştirerek kuruluşlar inanılmaz derecede sağlam AI aracıları dağıtabilir.






