Yolo Vision Shenzhen
Shenzhen
Şimdi katılın
Sözlük

Çok modlu RAG

Metin, görüntü ve videoları işlemek için Multimodal RAG'yi keşfedin. Ultralytics , daha doğru ve bağlamı dikkate alan yanıtlar için AI arama süreçlerini nasıl geliştirdiğini öğrenin.

Multimodal Retrieval Augmented Generation (Multimodal RAG), geleneksel RAG sistemlerini metin, görüntü, video ve ses gibi çeşitli veri türlerini işlemek ve bunlardan sonuç çıkarmak için genişleten gelişmiş bir yapay zeka (AI) çerçevesidir . Standart Retrieval Augmented Generation (RAG) , ilgili metin belgelerini geri getirerek Büyük Dil Modelinin (LLM) doğruluğunu artırırken, Multimodal RAG, karışık medya bilgi tabanından bağlamı geri getirerek modellerin "görmesini" ve "duymasını" sağlar. Bu yaklaşım, modelin üretimini somut görsel veya işitsel kanıtlara dayandırarak, LLM'lerdeki halüsinasyonları önemli ölçüde azaltır ve özel veri kümeleri üzerinde görsel soru cevaplama gibi karmaşık görevleri mümkün kılar. Çoklu modlu öğrenmeyi kullanarak, bu sistemler kullanıcının sorgusundan (ör. metin) ve alınan varlıklardan (ör. diyagram veya gözetim çerçevesi) bilgileri sentezleyerek kapsamlı, bağlam farkında yanıtlar üretebilir. *

Multimodal RAG Nasıl Çalışır?

Multimodal RAG sisteminin mimarisi genellikle standart "Al ve Oluştur" sürecini yansıtır ancak bunu metin dışı verilere uyarlar. Bu süreç büyük ölçüde vektör veritabanlarına ve paylaşılan semantik alanlara dayanır.

  1. Dizinleme: PDF, video, slayt sunumu gibi çeşitli kaynaklardan gelen veriler işlenir. Özellik çıkarma modelleri, bu farklı modaliteleri, gömme olarak bilinen yüksek boyutlu sayısal vektörlere dönüştürür. Örneğin, OpenAI'nin CLIP gibi bir model, köpek resmi ve "köpek" kelimesinin matematiksel olarak birbirine yakın olması için görüntü ve metin gömmelerini hizalar. Bu, bir kullanıcı "köpek" kelimesini arattığında, arama motorunun "köpek" kelimesini içeren tüm sayfaları bulmasını sağlar.
  2. Geri alma: Bir kullanıcı bir soru sorduğunda (örneğin, "Bu devre kartındaki kusuru göster "), sistem, sorgunun amacına en uygun görüntüleri veya video klipleri bulmak için vektör veritabanında anlamsal arama yapar .
  3. Üretim: Alınan görsel bağlam bir Görsel-Dil Modeline (VLM) beslenir. VLM, kullanıcının metin komutunu ve alınan görüntü özelliklerini işleyerek nihai cevabı üretir ve verilerle etkili bir şekilde "sohbet eder".

Gerçek Dünya Uygulamaları

Multimodal RAG, AI ajanlarının görsel veriler aracılığıyla fiziksel dünyayla etkileşime girmesini sağlayarak endüstrileri dönüştürüyor.

  • Endüstriyel Bakım ve Üretim: Üretimde yapay zeka, teknisyenler bozuk bir makine parçasının fotoğrafını sisteme yükleyerek sorgulama yapabilirler. Multimodal RAG sistemi, onarım sürecine rehberlik etmek için benzer geçmiş bakım kayıtlarını, teknik şemaları ve video eğitimlerini geri getirir. Bu, arıza süresini azaltır ve uzman bilgisini demokratikleştirir.
  • Perakende ve E-Ticaret Keşfi: Perakendede yapay zeka kullanan uygulamalar, müşterilerin beğendikleri bir kıyafetin resmini yüklemelerine olanak tanır. Sistem, mevcut envanterden görsel olarak benzer ürünleri alır ve stil önerileri veya ürün karşılaştırmaları oluşturarak son derece kişiselleştirilmiş bir alışveriş deneyimi sunar. .

İlgili Terimlerin Farklılaştırılması

Multimodal RAG'ın özel nişini anlamak için, onu ilgili kavramlardan ayırmak faydalı olacaktır:

  • Multimodal RAG vs. Multi-Modal Model: Bir multimodal model (GPT-4o veya Gemini gibi) yanıtı oluşturur. Multimodal RAG, bu modele eğitilmediği harici, özel verileri (görüntüler, belgeler) besleyen mimaridir. Model motor, RAG ise yakıt hattıdır.
  • Multimodal RAG ve İnce Ayar: İnce ayar, yeni bir görevi veya stili öğrenmek için model ağırlıklarını kalıcı olarak günceller. RAG, çıkarım sırasında geçici bilgi sağlar. RAG, sık sık yeniden eğitim yapmanın pratik olmadığı dinamik veriler (ör. günlük envanter) için tercih edilir.

Ultralytics ile Uygulama

Geliştiriciler, Multimodal RAG boru hattının geri alma bileşenini Ultralytics YOLOkullanarak bir Multimodal RAG boru hattının geri alma bileşenini oluşturabilirler. Görüntülerdeki nesneleri algılayıp sınıflandırarak, YOLO , metin tabanlı geri alma için indekslenebilen veya VLM için ilgili görüntü bölgelerini kırpmak için kullanılabilen yapılandırılmış meta veriler YOLO . Ultralytics , belirli alanınız için önemli olan özel nesneleri tanımak üzere bu özel görme modellerinin eğitimini basitleştirir.

Aşağıdaki örnek, YOLO26 kullanarak bir görüntüden görsel bağlamı (algılanan nesneleri) ayıklamayı göstermektedir. Bu görsel bağlam daha sonra bir RAG iş akışının parçası olarak bir LLM'ye aktarılabilir.

from ultralytics import YOLO

# Load the YOLO26 model (smaller, faster, and more accurate)
model = YOLO("yolo26n.pt")

# Run inference on an image to 'retrieve' visual content
results = model("https://ultralytics.com/images/bus.jpg")

# Extract detected class names to form a text context
detected_objects = results[0].boxes.cls.tolist()
object_names = [model.names[int(cls)] for cls in detected_objects]

print(f"Retrieved Context: Image contains {', '.join(object_names)}")
# Output: Retrieved Context: Image contains bus, person, person, person

Daha Fazla Okuma ve Kaynak

  • LangChain Belgeleri: Çok modlu destek dahil olmak üzere, bilgi alma boru hatları oluşturmaya yönelik kapsamlı bir kılavuz.
  • LlamaIndex Multimodal Kılavuzu: LLM'ler için karmaşık veri türlerinin indekslenmesi ve geri getirilmesi hakkında ayrıntılı belgeler.
  • Google Vertex AI Search: Ölçeklenebilir RAG uygulamaları oluşturmak için kurumsal düzeyde vektör arama yetenekleri.
  • Ultralytics : Bilgisayar görüşünün çeşitli endüstrilerdeki daha geniş AI sistemleriyle nasıl entegre olduğunu keşfedin.

Ultralytics topluluğuna katılın

Yapay zekanın geleceğine katılın. Küresel yenilikçilerle bağlantı kurun, işbirliği yapın ve birlikte büyüyün

Şimdi katılın