Multimodal RAG
Metin, görüntü ve videoyu işlemek için Çok Modlu RAG'ı keşfet. Ultralytics YOLO26'nın daha doğru, bağlama duyarlı yanıtlar için yapay zeka alma iş akışlarını nasıl geliştirdiğini öğren.
Çok Modlu Erişimle Güçlendirilmiş Üretim (Çok Modlu RAG), geleneksel RAG sistemlerini metin, resim, video ve ses gibi çeşitli veri türlerini işleyecek ve bunlar üzerinde mantık yürütecek şekilde genişleten gelişmiş bir yapay zeka (YZ) çerçevesidir. Standart Erişimle Güçlendirilmiş Üretim (RAG), ilgili metinsel belgeleri getirerek bir Büyük Dil Modelinin (LLM) doğruluğunu artırırken, Çok Modlu RAG modellerin karma ortamlı bir bilgi tabanından bağlam getirerek "görmesini" ve "duymasını" sağlar. Bu yaklaşım, modelin üretimini somut görsel veya işitsel kanıtlara dayandırır, LLM'lerdeki halüsinasyonları önemli ölçüde azaltır ve özel veri kümeleri üzerinde görsel soru cevaplama gibi karmaşık görevleri mümkün kılar. Çok modlu öğrenmeden yararlanan bu sistemler, kullanıcının sorgusundan (örneğin metin) ve getirilen varlıklardan (örneğin bir şema veya güvenlik kamerası karesi) gelen bilgileri sentezleyerek kapsamlı ve bağlama duyarlı yanıtlar üretebilir.
Link to this sectionÇok Modlu RAG Nasıl Çalışır?#
Bir Çok Modlu RAG sisteminin mimarisi genellikle standart "Önce Getir, Sonra Üret" işlem hattını yansıtır ancak bunu metin dışı veriler için uyarlar. Bu süreç büyük ölçüde vektör veritabanlarına ve paylaşılan anlamsal alanlara dayanır.
-
İndeksleme: PDF'ler, videolar, sunum dosyaları gibi çeşitli kaynaklardan gelen veriler işlenir. Özellik çıkarımı modelleri, bu farklı modları gömme olarak bilinen yüksek boyutlu sayısal vektörlere dönüştürür. Örneğin, OpenAI'ın CLIP modeli, bir köpek resmi ile "köpek" kelimesinin matematiksel olarak yakın olması için resim ve metin gömmelerini hizalar.
-
Erişim: Bir kullanıcı bir soru sorduğunda (örneğin, "Bana bu devre kartındaki kusuru göster"), sistem, sorgunun amacı ile en alakalı resimleri veya video kliplerini bulmak için vektör veritabanı üzerinde anlamsal bir arama gerçekleştirir.
-
Üretim: Getirilen görsel bağlam, bir Görsel-Dil Modeline (VLM) beslenir. VLM, hem kullanıcının metin istemini hem de getirilen resim özelliklerini işleyerek verilerle etkili bir şekilde "sohbet ederek" nihai cevabı üretir.
Link to this sectionGerçek Dünya Uygulamaları#
Çok Modlu RAG, YZ temsilcilerinin görsel veriler aracılığıyla fiziksel dünyayla etkileşime girmesini sağlayarak endüstrileri dönüştürüyor.
- Endüstriyel Bakım ve Üretim: Üretimde YZ alanında teknisyenler, kırık bir makine parçasının fotoğrafıyla sisteme sorgu gönderebilir. Çok Modlu RAG sistemi, onarım sürecine rehberlik etmek için benzer geçmiş bakım günlüklerini, teknik şemaları ve video eğitimlerini getirir. Bu, duruş süresini azaltır ve uzman bilgisini erişilebilir kılar.
- Perakende ve E-Ticaret Keşfi: Perakendede YZ kullanan uygulamalar, müşterilerin beğendikleri bir kıyafetin resmini yüklemelerine olanak tanır. Sistem, mevcut envanterden görsel olarak benzer öğeleri getirir ve stil önerileri veya ürün karşılaştırmaları oluşturarak son derece kişiselleştirilmiş bir alışveriş deneyimi yaratır.
Link to this sectionİlgili Terimleri Ayırt Etme#
Çok Modlu RAG'in özel nişini anlamak için onu ilgili kavramlardan ayırt etmek yararlıdır:
- Çok Modlu RAG vs. Çok Modlu Model: Çok modlu bir model (GPT-4o veya Gemini gibi) yanıtı oluşturur. Çok Modlu RAG, bu modele eğitilmediği harici, özel verileri (resimler, belgeler) besleyen mimaridir. Model motordur; RAG ise yakıt hattıdır.
- Çok Modlu RAG vs. İnce Ayar: İnce ayar, yeni bir görev veya stil öğrenmek için model ağırlıklarını kalıcı olarak günceller. RAG ise çıkarım anında geçici bilgi sağlar. RAG, sık sık yeniden eğitmenin pratik olmadığı dinamik veriler (örneğin günlük envanter) için tercih edilir.
Link to this sectionUltralytics ile Uygulama#
Geliştiriciler, Ultralytics YOLO kullanarak bir Çok Modlu RAG hattının erişim bileşenini oluşturabilirler. Resim içindeki nesneleri tespit edip sınıflandırarak YOLO, metin tabanlı erişim için indekslenebilen veya bir VLM için ilgili resim bölgelerini kırpmak amacıyla kullanılan yapılandırılmış meta veriler sağlar. Ultralytics Platform, özel alanın için kritik öneme sahip özel nesneleri tanıması amacıyla bu özelleşmiş görme modellerini eğitmeyi basitleştirir.
Aşağıdaki örnek, bir resimden görsel bağlamı (tespit edilen nesneler) çıkarmak için YOLO26'nın kullanılmasını göstermektedir; bu bağlam daha sonra bir RAG iş akışının parçası olarak bir LLM'e aktarılabilir.
from ultralytics import YOLO
# Load the YOLO26 model (smaller, faster, and more accurate)
model = YOLO("yolo26n.pt")
# Run inference on an image to 'retrieve' visual content
results = model("https://ultralytics.com/images/bus.jpg")
# Extract detected class names to form a text context
detected_objects = results[0].boxes.cls.tolist()
object_names = [model.names[int(cls)] for cls in detected_objects]
print(f"Retrieved Context: Image contains {', '.join(object_names)}")
# Output: Retrieved Context: Image contains bus, person, person, personLink to this sectionDaha Fazla Okuma ve Kaynaklar#
- LangChain Dokümantasyonu: Çok modlu destek dahil olmak üzere erişim hatları oluşturmaya yönelik kapsamlı bir rehber.
- LlamaIndex Çok Modlu Rehberi: LLM'ler için karmaşık veri türlerinin indekslenmesi ve getirilmesi hakkında ayrıntılı dokümantasyon.
- Google Cloud Vertex AI Arama: Ölçeklenebilir RAG uygulamaları oluşturmak için kurumsal düzeyde vektör arama yetenekleri.
- Ultralytics Çözümleri: Bilgisayarlı görünün çeşitli endüstrilerde daha geniş YZ sistemleriyle nasıl entegre olduğunu keşfet.






