"Tüm Çerezleri Kabul Et" seçeneğine tıklayarak, sitede gezinmeyi geliştirmek, site kullanımını analiz etmek ve pazarlama çabalarımıza yardımcı olmak için cihazınızda çerezlerin saklanmasını kabul edersiniz. Daha fazla bilgi
Çerez Ayarları
"Tüm Çerezleri Kabul Et" seçeneğine tıklayarak, sitede gezinmeyi geliştirmek, site kullanımını analiz etmek ve pazarlama çabalarımıza yardımcı olmak için cihazınızda çerezlerin saklanmasını kabul edersiniz. Daha fazla bilgi
Erişim destekli üretimi (RAG) bilgisayarla görmeyle birleştirmenin yapay zeka sistemlerinin belgeleri, görselleri ve karmaşık gerçek dünya içeriklerini yorumlamasına nasıl yardımcı olduğunu öğrenin.
ChatGPT veya Gemini gibi yapay zeka araçlarını kullanmak hızla bilgi bulmanın yaygın bir yolu haline geliyor. İster bir mesaj hazırlıyor, ister bir belgeyi özetliyor veya bir soruyu yanıtlıyor olun, bu araçlar genellikle daha hızlı ve daha kolay bir çözüm sunar.
Ancak büyük dil modellerini (LLM'ler) birkaç kez kullandıysanız, muhtemelen sınırlamalarını fark etmişsinizdir. Son derece spesifik veya zamana duyarlı sorgular sorulduğunda, genellikle kendinden emin bir şekilde yanlış yanıtlar verebilirler.
Bunun nedeni, bağımsız LLM'lerin yalnızca üzerinde eğitildikleri verilere dayanmasıdır. En son güncellemelere veya bu veri kümesinin ötesindeki özel bilgilere erişimleri yoktur. Sonuç olarak, verdikleri yanıtlar güncelliğini yitirebilir veya yanlış olabilir.
Araştırmacılar bu sorunu çözmeye yardımcı olmak için, erişim destekli üretim (retrieval-augmented generation - RAG) adı verilen bir yöntem geliştirdiler. RAG, dil modellerini geliştirerek sorgulara yanıt verirken güvenilir kaynaklardan yeni ve ilgili bilgileri çekmelerini sağlıyor.
Bu makalede, RAG'ın nasıl çalıştığını ve ilgili, güncel bilgileri alarak yapay zeka araçlarını nasıl geliştirdiğini inceleyeceğiz. Ayrıca, sistemlerin yalnızca metinleri değil, görüntüleri, düzenleri ve görsel olarak karmaşık belgeleri de anlamasına yardımcı olmak için görsel verileri yorumlamaya odaklanan bir yapay zeka alanı olan bilgisayarla görme ile birlikte nasıl çalıştığına da bakacağız.
Geri alma destekli üretimi (RAG) anlama
Bir yapay zeka sohbet robotuna soru sorarken, genellikle kulağa hoş gelen bir yanıttan daha fazlasını bekleriz. İdeal olarak, iyi bir yanıt net, doğru ve gerçekten yardımcı olmalıdır. Bunu sağlamak için, yapay zeka modelinin dil becerilerinden daha fazlasına ihtiyacı vardır; ayrıca, özellikle belirli veya zamana duyarlı konular için doğru bilgilere erişmesi gerekir.
RAG, bu boşluğu doldurmaya yardımcı olan bir tekniktir. Dil modelinin metni anlama ve üretme becerisi ile harici kaynaklardan ilgili bilgileri alma gücünü bir araya getirir. Model, yalnızca eğitim verilerine güvenmek yerine, yanıtını oluştururken güvenilir bilgi tabanlarından aktif olarak destekleyici içerik çeker.
Şekil 1. Temel RAG kullanım durumları. Yazar tarafından resim.
Bunu birine bir soru sormak ve yanıt vermeden önce güvenilir bir referansa başvurmasını sağlamak gibi düşünebilirsiniz. Cevapları yine kendi kelimeleriyle olur, ancak en alakalı ve güncel bilgilerle bilgilendirilir.
Bu yaklaşım, LLM'lerin daha eksiksiz, doğru ve kullanıcının sorgusuna göre uyarlanmış yanıtlar vermesine yardımcı olarak, doğruluğun gerçekten önemli olduğu gerçek dünya uygulamalarında onları çok daha güvenilir hale getirir.
RAG'ın nasıl çalıştığına bir bakış
RAG, iki temel adım getirerek büyük bir dil modelinin nasıl yanıt verdiğini geliştirir: alma ve üretme. İlk olarak, harici bir bilgi tabanından ilgili bilgileri alır. Ardından, bu bilgileri iyi biçimlendirilmiş, bağlama duyarlı bir yanıt oluşturmak için kullanır.
Bu sürecin nasıl işlediğini görmek için basit bir örneğe göz atalım. Kişisel mali durumunuzu yönetmek için bir yapay zeka asistanı kullandığınızı ve bu ay için harcama hedefiniz dahilinde kalıp kalmadığınızı kontrol etmek istediğinizi düşünün.
Süreç, asistana "Bu ay bütçeme sadık kaldım mı?" gibi bir soru sorduğunuzda başlar. Sistem, yalnızca eğitim sırasında öğrendiklerine güvenmek yerine, en son mali kayıtlarınızı (banka ekstreleri veya işlem özetleri gibi şeyler) aramak için bir retriever kullanır. Sorunuzun arkasındaki amacı anlamaya odaklanır ve en alakalı bilgileri toplar.
Bu bilgiler alındıktan sonra dil modeli devreye girer. Hem sorunuzu hem de kayıtlarınızdan alınan verileri işleyerek net ve faydalı bir yanıt oluşturur. Yanıt, ham ayrıntıları listelemek yerine, harcamalarınızı özetler ve hedefinize ulaşıp ulaşmadığınızı doğrulamak ve önemli harcama alanlarına işaret etmek gibi doğrudan, anlamlı bir fikir verir.
Bu yaklaşım, LLM'nin yalnızca doğru değil, aynı zamanda gerçek, güncel bilgilerinize dayanan yanıtlar vermesine yardımcı olarak, deneyimi yalnızca statik eğitim verileriyle çalışan bir modelden çok daha yararlı hale getirir.
Genellikle bilgiler her zaman düz metin olarak paylaşılmaz. Tıbbi taramalar ve diyagramlardan sunum slaytlarına ve taranmış belgelere kadar, görseller genellikle önemli ayrıntılar taşır. Esas olarak metinleri okumak ve anlamak için tasarlanmış olan geleneksel LLM'ler bu tür içeriklerle mücadele edebilir.
Ancak RAG, bu boşluğu doldurmak için bilgisayarla görmenin yanında kullanılabilir. İkisi bir araya getirildiğinde, çok modlu RAG sistemi olarak bilinen şeyi oluştururlar - hem metni hem de görselleri işleyebilen bir kurulum, AI sohbet robotlarının daha doğru ve eksiksiz cevaplar vermesine yardımcı olur.
Bu yaklaşımın özünde, her iki girdi türünü de işlemek ve muhakeme etmek için tasarlanmış görsel-dil modelleri (VLM'ler) bulunmaktadır. Bu kurulumda, RAG büyük veri kaynaklarından en alakalı bilgileri alırken, bilgisayar görüşü tarafından etkinleştirilen VLM görüntüleri, düzenleri ve diyagramları yorumlar.
Bu özellikle taranmış formlar, tıbbi raporlar veya sunum slaytları gibi hem metinde hem de görsellerde önemli ayrıntıların bulunabileceği gerçek dünya belgeleri için kullanışlıdır. Örneğin, tablolar ve paragrafların yanı sıra görseller de içeren bir belgeyi analiz ederken, çok modlu bir sistem görsel öğeleri çıkarabilir, gösterdiklerinin bir özetini oluşturabilir ve daha eksiksiz ve yararlı bir yanıt sunmak için bunu çevreleyen metinle birleştirebilir.
Şekil 3. Multimodal RAG, daha iyi yanıtlar sağlamak için görüntüleri ve metni kullanır.
Görsel veriler için RAG uygulamaları
RAG'nin ne olduğunu ve bilgisayarla görmede nasıl çalıştığını tartıştığımıza göre, şimdi bu yaklaşımın nasıl kullanıldığını gösteren bazı gerçek dünya örneklerine ve araştırma projelerine bakalım.
VisRAG ile görsel belgeleri anlama
Diyelim ki bir finansal rapordan veya taranmış bir yasal belgeden bilgi çıkarmaya çalışıyorsunuz. Bu tür dosyalar genellikle yalnızca metin değil, aynı zamanda bilgileri açıklamaya yardımcı olan tablolar, grafikler ve düzenler de içerir. Basit bir dil modeli bu görsel unsurları gözden kaçırabilir veya yanlış yorumlayabilir, bu da eksik veya hatalı yanıtlara yol açabilir.
VisRAG, bu zorluğun üstesinden gelmek için araştırmacılar tarafından oluşturulmuştur. Yalnızca metni işlemek yerine her sayfayı bir görüntü olarak ele alan VLM tabanlı bir RAG işlem hattıdır. Bu, sistemin hem içeriği hem de görsel yapısını anlamasını sağlar. Sonuç olarak, en alakalı kısımları bulabilir ve daha net, daha doğru ve belgenin tüm bağlamına dayanan yanıtlar verebilir.
Şekil 4. VisRAG, metin içeriğini ve düzeni yakalamak için belgeleri görüntü olarak okuyabilir.
RAG ile görsel soru yanıtlama
Görsel soru yanıtlama (VQA), bir yapay zeka sisteminin görüntüler hakkındaki soruları yanıtladığı bir görevdir. Mevcut birçok VQA sistemi, ek bilgi aramaya gerek kalmadan tek bir belge hakkındaki soruları yanıtlamaya odaklanır - bu kapalı bir ortam olarak bilinir.
VDocRAG daha gerçekçi bir yaklaşım benimseyen bir RAG çerçevesidir. VQA'yı önce ilgili belgeleri alma yeteneği ile bütünleştirir. Bu, bir kullanıcının sorusunun birçok belgeden birine uygulanabileceği ve sistemin yanıtlamadan önce doğru olanı bulması gereken gerçek dünya durumlarında kullanışlıdır. Bunu yapmak için VDocRAG, belgeleri hem metinlerini hem de görsel yapılarını koruyarak görüntü olarak analiz etmek için VLM'leri kullanır.
Bu da VDocRAG'i özellikle kurumsal arama, belge otomasyonu ve müşteri desteği gibi uygulamalarda etkili kılıyor. Ekiplerin, düzeni anlamanın kelimeleri okumak kadar önemli olduğu kılavuzlar veya politika dosyaları gibi karmaşık, görsel olarak biçimlendirilmiş belgelerden yanıtları hızlı bir şekilde çıkarmasına yardımcı olabilir.
Şekil 5. VDocRAG ve LLM tabanlı çözümler arasındaki fark.
RAG ile görüntü altyazısını iyileştirme
Resim altyazısı, bir resimde neler olduğuna dair yazılı bir açıklama oluşturmayı içerir. Çevrimiçi içeriği daha erişilebilir hale getirmekten görsel aramayı güçlendirmeye, içerik moderasyonunu ve öneri sistemlerini desteklemeye kadar çeşitli uygulamalarda kullanılır.
Ancak, doğru altyazılar oluşturmak yapay zeka modelleri için her zaman kolay değildir. Özellikle de görüntü, modelin üzerinde eğitildiğinden farklı bir şey gösterdiğinde bu daha da zorlaşıyor. Birçok altyazı sistemi büyük ölçüde eğitim verilerine dayandığından, alışık olmadıkları sahnelerle karşılaştıklarında altyazıları belirsiz veya yanlış çıkabilir.
Bunun üstesinden gelmek için araştırmacılar, görüntü altyazısına geri getirme destekli üretim (RAG) getiren bir yöntem olan Re-ViLM'yi geliştirdiler. Sıfırdan bir resim yazısı oluşturmak yerine, Re-ViLM bir veritabanından benzer resim-metin çiftlerini alır ve bunları resim yazısı çıktısını yönlendirmek için kullanır.
Bu erişim tabanlı yaklaşım, modelin açıklamalarını ilgili örneklere dayandırmasına yardımcı olarak hem doğruluğu hem de akıcılığı artırır. İlk sonuçlar, Re-ViLM'in gerçek örnekler kullanarak daha doğal, bağlama duyarlı altyazılar ürettiğini ve belirsiz veya yanlış açıklamaları azaltmaya yardımcı olduğunu gösteriyor.
Şekil 6. Re-ViLM, görsel-metin örneklerini alarak resim altyazılarını iyileştirir.
Görsel verileri anlamak için RAG kullanmanın artıları ve eksileri
İşte görsel bilgileri almak ve kullanmak için geri getirme destekli üretim tekniklerini uygulamanın faydalarına hızlı bir bakış:
Geliştirilmiş ÖZETLEME yetenekler: Özetler sadece metinlerden değil, görsellerden (grafik trendleri veya infografik öğeler gibi) elde edilen içgörüleri de içerebilir.
Daha sağlam arama ve erişim: Geri alma adımları, anahtar kelimeler metinde bulunmasa bile görüntü tabanlı anlayış kullanarak ilgili görsel sayfaları belirleyebilir.
Taranmış, el yazısı veya görüntü tabanlı belgeler için destek: VLM'ler tarafından etkinleştirilen RAG ardışık düzenleri, yalnızca metin modellerinin okuyamayacağı içerikleri işleyebilir.
Bu avantajlara rağmen, görsel verilerle çalışmak için RAG kullanırken akılda tutulması gereken birkaç sınırlama vardır. İşte bunlardan birkaçı:
Yüksek bilgi işlem gereksinimleri: Hem görüntülerin hem de metinlerin analiz edilmesi daha fazla bellek ve işlem gücü kullanır, bu da performansı yavaşlatabilir veya maliyetleri artırabilir.
Veri gizliliği ve güvenlik endişeleri: Özellikle sağlık veya finans gibi sektörlerdeki görsel belgeler, alma ve işleme iş akışlarını zorlaştıran hassas bilgiler içerebilir.
Daha uzun çıkarım süreleri: Görsel işleme karmaşıklık kattığından, yanıtların oluşturulması yalnızca metin içeren sistemlere kıyasla daha fazla zaman alabilir.
Önemli çıkarımlar
Geri alma ile güçlendirilmiş nesil, büyük dil modellerinin harici kaynaklardan ilgili, güncel bilgileri getirmelerine izin vererek soruları yanıtlama şeklini geliştiriyor. Bilgisayar görüşü ile eşleştirildiğinde, bu sistemler yalnızca metni değil, aynı zamanda grafikler, tablolar, resimler ve taranmış belgeler gibi görsel içeriği de işleyerek daha doğru ve çok yönlü yanıtlar verebilir.
Bu yaklaşım, LLM'leri karmaşık belgeler içeren gerçek dünya görevleri için daha uygun hale getirir. Bu modeller, erişim ve görsel anlamayı bir araya getirerek farklı formatları daha etkili bir şekilde yorumlayabilir ve pratik, günlük bağlamlarda daha yararlı olan içgörüler sağlayabilir.