RAG ve bilgisayarlı görü ile yapay zeka uygulamalarını geliştirme
Bilgi getirme destekli üretim (RAG) yönteminin bilgisayarlı görü ile birleştirilmesinin, yapay zeka sistemlerinin belgeleri, görselleri ve karmaşık gerçek dünya içeriğini yorumlamasına nasıl yardımcı olduğunu öğren.

ChatGPT veya Gemini gibi yapay zeka araçlarını kullanmak, bilgi bulmanın hızlı bir yolu haline geliyor. Bir mesaj taslağı hazırlarken, bir belgeyi özetlerken veya bir soruyu yanıtlarken, bu araçlar genellikle daha hızlı ve daha kolay bir çözüm sunar.
Ancak büyük dil modellerini (LLM'ler) birkaç kez kullandıysan, muhtemelen sınırlamalarını fark etmişsindir. Çok spesifik veya zamana duyarlı sorgular sorulduğunda, genellikle kendilerinden emin bir şekilde yanlış cevaplar verebilirler.
Bu durum, bağımsız LLM'lerin yalnızca eğitildikleri verilere güvenmelerinden kaynaklanır. Bu veri kümesinin ötesindeki en son güncellemelere veya uzmanlık bilgisine erişimleri yoktur. Sonuç olarak, verdikleri yanıtlar güncelliğini yitirmiş veya hatalı olabilir.
Bunu çözmeye yardımcı olmak için araştırmacılar erişim destekli üretim (RAG) adı verilen bir yöntem geliştirdiler. RAG, dil modellerinin sorguları yanıtlarken güvenilir kaynaklardan güncel ve ilgili bilgileri çekmesini sağlayarak modelleri geliştirir.
Bu makalede, RAG'ın nasıl çalıştığını ve ilgili, güncel bilgileri alarak yapay zeka araçlarını nasıl geliştirdiğini keşfedeceğiz. Ayrıca, sistemlerin sadece metni değil, aynı zamanda görselleri, mizanpajları ve görsel olarak karmaşık belgeleri de anlamalarına yardımcı olmak için yapay zekanın görsel verileri yorumlamaya odaklanan bir alanı olan bilgisayarlı görü ile nasıl birlikte çalıştığına bakacağız.
Link to this sectionErişim destekli üretimi (RAG) anlamak#
Bir yapay zeka sohbet robotuna soru sorarken, genellikle kulağa hoş gelen bir yanıttan fazlasını bekleriz. İdeal olarak, iyi bir yanıt net, doğru ve gerçekten yararlı olmalıdır. Bunu sağlamak için, yapay zeka modelinin dil becerilerinden fazlasına; özellikle spesifik veya zamana duyarlı konular için doğru bilgilere erişime ihtiyacı vardır.
RAG, bu boşluğu doldurmaya yardımcı olan bir tekniktir. Dil modelinin metni anlama ve oluşturma yeteneğini, harici kaynaklardan ilgili bilgileri alma gücüyle birleştirir. Model, yalnızca eğitim verilerine güvenmek yerine, yanıtını oluştururken güvenilir bilgi tabanlarından destekleyici içerikleri aktif olarak çeker.

Şekil 1. Temel RAG kullanım durumları. Görsel: yazar.
Bunu, birine soru sormak ve yanıtlamadan önce güvenilir bir kaynağa danışmasını sağlamak gibi düşünebilirsin. Yanıtları yine kendi kelimeleriyle olur ancak en ilgili ve güncel bilgilerle desteklenmiştir.
Bu yaklaşım, LLM'lerin daha eksiksiz, doğru ve kullanıcının sorgusuna göre uyarlanmış yanıtlar vermesine yardımcı olur ve onları doğruluğun gerçekten önemli olduğu gerçek dünya uygulamalarında çok daha güvenilir hale getirir.
Link to this sectionRAG'ın nasıl çalıştığına bir bakış#
RAG, iki temel adımı tanıtarak büyük bir dil modelinin nasıl yanıt verdiğini geliştirir: erişim ve üretim. İlk olarak, harici bir bilgi tabanından ilgili bilgileri alır. Ardından, bu bilgiyi iyi biçimlendirilmiş, bağlama duyarlı bir yanıt oluşturmak için kullanır.
Bu sürecin nasıl çalıştığını görmek için basit bir örneğe bakalım. Kişisel finansını yönetmek için bir yapay zeka asistanı kullandığını ve aylık harcama hedefin dahilinde kalıp kalmadığını kontrol etmek istediğini hayal et.
Süreç, asistana "Bu ay bütçeme sadık kaldım mı?" gibi bir soru sorduğunda başlar. Sistem, eğitim sırasında öğrendiklerine güvenmek yerine, en son finansal kayıtlarını (banka ekstreleri veya işlem özetleri gibi) aramak için bir erişim aracı kullanır. Sorununun arkasındaki niyeti anlamaya odaklanır ve en ilgili bilgileri toplar.
Bu bilgi alındıktan sonra, dil modeli kontrolü devralır. Hem sorunu hem de kayıtlarından çekilen verileri işleyerek net ve yardımcı bir yanıt oluşturur. Yanıt, ham detayları listelemek yerine harcamalarını özetler ve sana doğrudan, anlamlı bir içgörü sunar; örneğin hedefine ulaşıp ulaşmadığını doğrular ve temel harcama alanlarına dikkat çeker.
Bu yaklaşım, LLM'nin yalnızca doğru değil, aynı zamanda gerçek ve güncel bilgilerinle temellendirilmiş yanıtlar vermesine yardımcı olur ve deneyimi yalnızca statik eğitim verileriyle çalışan bir modele göre çok daha kullanışlı hale getirir.

Şekil 2. RAG'ın nasıl çalıştığını anlamak.
Link to this sectionÇok modlu RAG sistemlerine duyulan ihtiyaç#
Genellikle bilgiler her zaman düz metin olarak paylaşılmaz. Tıbbi taramalardan diyagramlara, sunum slaytlarından taranmış belgelere kadar görseller genellikle önemli detaylar taşır. Çoğunlukla metni okumak ve anlamak için oluşturulan geleneksel LLM'ler, bu tür içeriklerle zorlanabilir.
Ancak RAG, bu boşluğu doldurmak için bilgisayarlı görü ile birlikte kullanılabilir. İkisi bir araya getirildiğinde, hem metni hem de görselleri işleyebilen, yapay zeka sohbet robotlarının daha doğru ve eksiksiz yanıtlar vermesine yardımcı olan çok modlu bir RAG sistemi oluştururlar.
Bu yaklaşımın merkezinde, her iki girdi türünü işlemek ve bunlar üzerinde muhakeme yapmak için tasarlanmış görsel-dil modelleri (VLM'ler) bulunur. Bu kurulumda RAG, büyük veri kaynaklarından en ilgili bilgileri alırken, bilgisayarlı görü ile desteklenen VLM, görselleri, mizanpajları ve diyagramları yorumlar.
Bu, özellikle taranmış formlar, tıbbi raporlar veya sunum slaytları gibi gerçek dünya belgeleri için yararlıdır; çünkü hayati detaylar hem metinde hem de görsellerde bulunabilir. Örneğin, görsellerin tablolar ve paragrafların yanı sıra yer aldığı bir belgeyi analiz ederken, çok modlu bir sistem görsel unsurları çıkarabilir, ne gösterdiklerine dair bir özet oluşturabilir ve daha eksiksiz ve yararlı bir yanıt sunmak için bunu çevreleyen metinle birleştirebilir.

Şekil 3. Çok modlu RAG, daha iyi yanıtlar sağlamak için görseller ve metin kullanır.
Link to this sectionGörsel veriler için RAG uygulamaları#
RAG'ın ne olduğunu ve bilgisayarlı görü ile nasıl çalıştığını tartıştığımıza göre, bu yaklaşımın nasıl kullanıldığını gösteren bazı gerçek dünya örneklerine ve araştırma projelerine göz atalım.
Link to this sectionVisRAG ile görsel belgeleri anlamak#
Bir finansal rapordan veya taranmış bir yasal belgeden içgörüler çıkarmaya çalıştığını varsayalım. Bu tür dosyalar genellikle sadece metin değil, aynı zamanda bilgiyi açıklamaya yardımcı olan tablolar, grafikler ve mizanpajlar da içerir. Basit bir dil modeli bu görsel unsurları gözden kaçırabilir veya yanlış yorumlayabilir, bu da eksik veya hatalı yanıtlara yol açabilir.
VisRAG, bu zorluğu ele almak için araştırmacılar tarafından oluşturulmuştur. Sadece metni işlemek yerine her sayfayı bir görsel olarak ele alan, VLM tabanlı bir RAG işlem hattıdır. Bu, sistemin hem içeriği hem de görsel yapısını anlamasını sağlar. Sonuç olarak, en ilgili bölümleri bulabilir ve belgenin tam bağlamına dayalı olarak daha net, daha doğru yanıtlar verebilir.

Şekil 4. VisRAG, metin içeriğini ve mizanpajı yakalamak için belgeleri görsel olarak okuyabilir.
Link to this sectionRAG ile görsel soru cevaplama#
Görsel soru cevaplama (VQA), bir yapay zeka sisteminin görseller hakkındaki soruları yanıtladığı bir görevdir. Mevcut birçok VQA sistemi, ek bilgi arama ihtiyacı duymadan tek bir belge hakkındaki soruları yanıtlamaya odaklanır; buna kapalı ayar denir.
VDocRAG, daha gerçekçi bir yaklaşım benimseyen bir RAG çerçevesidir. VQA'yı önce ilgili belgeleri alma yeteneği ile entegre eder. Bu, bir kullanıcının sorusunun birçok belgeden birine uygulanabileceği ve sistemin yanıtlamadan önce doğru olanı bulması gereken gerçek dünya durumlarında kullanışlıdır. Bunu yapmak için VDocRAG, VLM'leri belgeleri görsel olarak analiz etmek için kullanır ve hem metinlerini hem de görsel yapılarını korur.
Bu, VDocRAG'ı kurumsal arama, belge otomasyonu ve müşteri desteği gibi uygulamalarda özellikle etkili kılar. Ekiplerin, kılavuzlar veya politika dosyaları gibi görsel olarak biçimlendirilmiş karmaşık belgelerden yanıtları hızlıca çıkarmasına yardımcı olabilir; bu tür belgelerde mizanpajı anlamak, kelimeleri okumak kadar önemlidir.

Şekil 5. VDocRAG ve LLM tabanlı çözümler arasındaki fark.
Link to this sectionRAG ile görsel altyazılamayı iyileştirmek#
Görsel altyazılama, bir görselde neler olduğuna dair yazılı bir açıklama oluşturmayı içerir. Çevrimiçi içeriği daha erişilebilir hale getirmekten görsel arama yapmaya ve içerik denetleme ile öneri sistemlerini desteklemeye kadar çeşitli uygulamalarda kullanılır.
Ancak doğru altyazılar oluşturmak yapay zeka modelleri için her zaman kolay değildir. Özellikle görsel, modelin eğitildiğinden farklı bir şey gösterdiğinde bu durum daha da zorlaşır. Birçok altyazılama sistemi eğitim verilerine yoğun bir şekilde güvenir, bu nedenle alışılmadık sahnelerle karşılaştıklarında altyazıları belirsiz veya hatalı olabilir.
Bunu ele almak için araştırmacılar, görsel altyazılamaya erişim destekli üretimi (RAG) getiren bir yöntem olan Re-ViLM geliştirdiler. Re-ViLM, sıfırdan bir altyazı oluşturmak yerine, bir veritabanından benzer görsel-metin çiftlerini alır ve altyazı çıktısına rehberlik etmek için bunları kullanır.
Bu erişim tabanlı yaklaşım, modelin açıklamalarını ilgili örneklerle temellendirmesine yardımcı olarak hem doğruluğu hem de akıcılığı artırır. İlk sonuçlar, Re-ViLM'in gerçek örnekleri kullanarak daha doğal, bağlama duyarlı altyazılar oluşturduğunu ve belirsiz veya hatalı açıklamaların azaltılmasına yardımcı olduğunu göstermektedir.

Şekil 6. Re-ViLM, görsel-metin örnekleri alarak görsel altyazılarını iyileştirir.
Link to this sectionGörsel verileri anlamak için RAG kullanmanın avantajları ve dezavantajları#
Görsel bilgileri almak ve kullanmak için erişim destekli üretim tekniklerini uygulamanın faydalarına hızlı bir bakış:
- Gelişmiş özetleme yetenekleri: Özetler, yalnızca metni değil, görsellerden (grafik trendleri veya infografik unsurları gibi) gelen içgörüleri de içerebilir.
- Daha sağlam arama ve erişim: Erişim adımları, görsel tabanlı anlamayı kullanarak metinde anahtar kelimeler bulunmadığında bile ilgili görsel sayfaları tanımlayabilir.
- Taranmış, el yazısı veya görsel tabanlı belgeler için destek: VLM'ler tarafından desteklenen RAG işlem hatları, yalnızca metin tabanlı modellerin okuyamayacağı içerikleri işleyebilir.
Bu avantajlara rağmen, görsel verilerle çalışmak için RAG kullanırken akılda tutulması gereken birkaç sınırlama hala mevcuttur. İşte ana olanlardan bazıları:
- Yüksek bilgi işlem gereksinimleri: Hem görselleri hem de metni analiz etmek daha fazla bellek ve işlem gücü kullanır, bu da performansı yavaşlatabilir veya maliyetleri artırabilir.
- Veri gizliliği ve güvenlik endişeleri: Görsel belgeler, özellikle sağlık veya finans gibi sektörlerde, erişim ve işleme iş akışlarını karmaşıklaştıran hassas bilgiler içerebilir.
- Daha uzun çıkarım süreleri: Görsel işleme karmaşıklığı artırdığından, yanıt oluşturmak yalnızca metin tabanlı sistemlere kıyasla daha fazla zaman alabilir.
Link to this sectionÖne çıkanlar#
Erişim destekli üretim, büyük dil modellerinin harici kaynaklardan ilgili, güncel bilgileri almasına izin vererek soruları yanıtlama biçimini iyileştiriyor. Bilgisayarlı görü ile eşleştirildiğinde, bu sistemler sadece metni değil, aynı zamanda grafikler, tablolar, görseller ve taranmış belgeler gibi görsel içerikleri de işleyebilir, bu da daha doğru ve çok yönlü yanıtlara yol açar.
Bu yaklaşım, LLM'leri karmaşık belgeler içeren gerçek dünya görevleri için daha uygun hale getirir. Erişimi ve görsel anlayışı bir araya getirerek, bu modeller çeşitli formatları daha etkili bir şekilde yorumlayabilir ve pratik, günlük bağlamlarda daha yararlı içgörüler sağlayabilir.
Büyüyen topluluğumuza katıl! Yapay zekanın derinliklerine inmek için GitHub depomuzu keşfet. Kendi bilgisayarlı görü projelerine başlamaya hazır mısın? Lisanslama seçeneklerimize göz at. Çözüm sayfalarımızda sağlıkta yapay zeka ve perakendede bilgisayarlı görü hakkında daha fazla bilgi keşfet!






