Metin, görüntü ve videoları işlemek için Multimodal RAG'yi keşfedin. Ultralytics , daha doğru ve bağlamı dikkate alan yanıtlar için AI arama süreçlerini nasıl geliştirdiğini öğrenin.
Multimodal Retrieval Augmented Generation (Multimodal RAG), geleneksel RAG sistemlerini metin, görüntü, video ve ses gibi çeşitli veri türlerini işlemek ve bunlardan sonuç çıkarmak için genişleten gelişmiş bir yapay zeka (AI) çerçevesidir . Standart Retrieval Augmented Generation (RAG) , ilgili metin belgelerini geri getirerek Büyük Dil Modelinin (LLM) doğruluğunu artırırken, Multimodal RAG, karışık medya bilgi tabanından bağlamı geri getirerek modellerin "görmesini" ve "duymasını" sağlar. Bu yaklaşım, modelin üretimini somut görsel veya işitsel kanıtlara dayandırarak, LLM'lerdeki halüsinasyonları önemli ölçüde azaltır ve özel veri kümeleri üzerinde görsel soru cevaplama gibi karmaşık görevleri mümkün kılar. Çoklu modlu öğrenmeyi kullanarak, bu sistemler kullanıcının sorgusundan (ör. metin) ve alınan varlıklardan (ör. diyagram veya gözetim çerçevesi) bilgileri sentezleyerek kapsamlı, bağlam farkında yanıtlar üretebilir. *
Multimodal RAG sisteminin mimarisi genellikle standart "Al ve Oluştur" sürecini yansıtır ancak bunu metin dışı verilere uyarlar. Bu süreç büyük ölçüde vektör veritabanlarına ve paylaşılan semantik alanlara dayanır.
Multimodal RAG, AI ajanlarının görsel veriler aracılığıyla fiziksel dünyayla etkileşime girmesini sağlayarak endüstrileri dönüştürüyor.
Multimodal RAG'ın özel nişini anlamak için, onu ilgili kavramlardan ayırmak faydalı olacaktır:
Geliştiriciler, Multimodal RAG boru hattının geri alma bileşenini Ultralytics YOLOkullanarak bir Multimodal RAG boru hattının geri alma bileşenini oluşturabilirler. Görüntülerdeki nesneleri algılayıp sınıflandırarak, YOLO , metin tabanlı geri alma için indekslenebilen veya VLM için ilgili görüntü bölgelerini kırpmak için kullanılabilen yapılandırılmış meta veriler YOLO . Ultralytics , belirli alanınız için önemli olan özel nesneleri tanımak üzere bu özel görme modellerinin eğitimini basitleştirir.
Aşağıdaki örnek, YOLO26 kullanarak bir görüntüden görsel bağlamı (algılanan nesneleri) ayıklamayı göstermektedir. Bu görsel bağlam daha sonra bir RAG iş akışının parçası olarak bir LLM'ye aktarılabilir.
from ultralytics import YOLO
# Load the YOLO26 model (smaller, faster, and more accurate)
model = YOLO("yolo26n.pt")
# Run inference on an image to 'retrieve' visual content
results = model("https://ultralytics.com/images/bus.jpg")
# Extract detected class names to form a text context
detected_objects = results[0].boxes.cls.tolist()
object_names = [model.names[int(cls)] for cls in detected_objects]
print(f"Retrieved Context: Image contains {', '.join(object_names)}")
# Output: Retrieved Context: Image contains bus, person, person, person