Yeşil çek
Panoya kopyalanan bağlantı

RAG ve bilgisayarlı görüş ile AI uygulamalarının geliştirilmesi

Geri çağırma-artırılmış üretim (RAG) teknolojisinin bilgisayarlı görüşle birleştirilmesinin, yapay zeka sistemlerinin belgeleri, görselleri ve karmaşık gerçek dünya içeriklerini yorumlamasına nasıl yardımcı olduğunu öğrenin.

AI araçlarını kullanarak ChatGPT veya Gemini, bilgi bulmanın yaygın bir yolu haline geliyor. İster bir mesaj taslağı hazırlayın, ister bir belgeyi özetleyin veya bir soruyu yanıtlayın, bu araçlar genellikle daha hızlı, daha kolay bir çözüm sunar. 

Ancak büyük dil modellerini (LLM'ler) birkaç kez kullandıysanız, muhtemelen sınırlamalarını fark etmişsinizdir. Son derece spesifik veya zamana duyarlı sorgularla istendiğinde, genellikle kendinden emin bir şekilde yanlış yanıtlarla yanıt verebilirler.

Bunun nedeni, bağımsız LLM'lerin yalnızca eğitim aldıkları verilere güvenmeleridir. Bu veri setinin ötesinde en son güncellemelere veya uzmanlaşmış bilgiye erişimleri yoktur. Sonuç olarak, cevapları güncelliğini yitirmiş veya yanlış olabilir.

Bunu çözmeye yardımcı olmak için araştırmacılar, geri çağırma-artırılmış nesil (RAG) adı verilen bir yöntem geliştirdiler. RAG, sorgulara yanıt verirken güvenilir kaynaklardan yeni, ilgili bilgileri çekmelerini sağlayarak dil modellerini geliştirir.

Bu makalede, RAG'ın nasıl çalıştığını ve ilgili, güncel bilgileri alarak AI araçlarını nasıl geliştirdiğini inceleyeceğiz. Ayrıca, sistemlerin yalnızca metni değil, aynı zamanda görüntüleri, düzenleri ve görsel olarak karmaşık belgeleri de anlamasına yardımcı olmak için görsel verileri yorumlamaya odaklanan bir yapay zeka alanı olan bilgisayarlı görüşle birlikte nasıl çalıştığına da bakacağız.

Geri çağırma-artırılmış üretimi (RAG) anlamak

Bir AI sohbet robotuna soru sorduğumuzda, genellikle kulağa hoş gelen bir yanıttan daha fazlasını bekleriz. İdeal olarak, iyi bir yanıt açık, doğru ve gerçekten yardımcı olmalıdır. Bunu sağlamak için, AI modelinin dil becerilerinden daha fazlasına ihtiyacı vardır; ayrıca, özellikle belirli veya zamana duyarlı konular için doğru bilgilere erişime de ihtiyacı vardır.

RAG, bu boşluğu kapatmaya yardımcı olan bir tekniktir. Dil modelinin metni anlama ve üretme becerisini, harici kaynaklardan ilgili bilgileri alma gücüyle bir araya getirir. Model, yalnızca eğitim verilerine güvenmek yerine, yanıtını oluştururken güvenilir bilgi tabanlarından destekleyici içerikleri aktif olarak çeker.

Şekil 1. Önemli RAG kullanım örnekleri. Görsel yazara aittir.

Bunu, birine bir soru sormak ve cevap vermeden önce güvenilir bir referansa danışmak gibi düşünebilirsiniz. Cevapları yine kendi sözcükleriyledir, ancak en alakalı ve güncel bilgilerle desteklenmiştir.

Bu yaklaşım, Hukuk Yüksek Lisansı (LL.M.) programlarının daha eksiksiz, doğru ve kullanıcının sorgusuna göre uyarlanmış yanıtlarla yanıt vermelerine yardımcı olur ve doğruluğun gerçekten önemli olduğu gerçek dünya uygulamalarında onları çok daha güvenilir hale getirir.

RAG'ın nasıl çalıştığına bir göz atın

RAG, iki temel adımı tanıtarak büyük bir dil modelinin nasıl yanıt verdiğini geliştirir: alma ve oluşturma. İlk olarak, harici bir bilgi tabanından ilgili bilgileri alır. Daha sonra, bu bilgileri iyi biçimlendirilmiş, bağlam farkında bir yanıt oluşturmak için kullanır.

Bu sürecin nasıl işlediğini görmek için basit bir örneğe bakalım. Kişisel finanslarınızı yönetmek için bir yapay zeka asistanı kullandığınızı ve ay boyunca harcama hedefinizin içinde kalıp kalmadığınızı kontrol etmek istediğinizi düşünün.

Süreç, asistana "Bu ay bütçeme sadık kaldım mı?" gibi bir soru sorduğunuzda başlar. Sistem, yalnızca eğitim sırasında öğrendiklerine güvenmek yerine, en son finansal kayıtlarınızı (banka ekstreleri veya işlem özetleri gibi şeyler) aramak için bir alıcı kullanır. Sorunuzun ardındaki amacı anlamaya odaklanır ve en alakalı bilgileri toplar.

Bu bilgi alındığında, dil modeli devreye girer. Hem sorunuzu hem de kayıtlarınızdan çekilen verileri işleyerek net ve faydalı bir cevap üretir. Ham ayrıntıları listelemek yerine, yanıt harcamalarınızı özetler ve size doğrudan, anlamlı bir içgörü sunar - örneğin hedefinize ulaşıp ulaşmadığınızı teyit etmek ve temel harcama alanlarını belirtmek gibi.

Bu yaklaşım, LLM'nin yalnızca doğru değil aynı zamanda gerçek ve güncel bilgilerinize dayanan yanıtlar sağlamasına yardımcı olur ve bu da deneyimi, yalnızca statik eğitim verileriyle çalışan bir modelden çok daha faydalı hale getirir.

Şekil 2. RAG'ın nasıl çalıştığını anlamak.

Çok modlu RAG sistemlerine ihtiyaç var

Genellikle, bilgiler her zaman düz metin olarak paylaşılmaz. Tıbbi taramalardan ve diyagramlardan sunum slaytlarına ve taranmış belgelere kadar görseller genellikle önemli ayrıntılar taşır. Esas olarak metni okumak ve anlamak için oluşturulmuş geleneksel LLM'ler bu tür içeriklerle başa çıkmakta zorlanabilir.

Ancak, RAG bu boşluğu kapatmak için bilgisayarlı görüşle birlikte kullanılabilir. İkisi bir araya getirildiğinde, çok modlu bir RAG sistemi olarak bilinen şeyi oluştururlar - hem metni hem de görselleri işleyebilen, AI sohbet robotlarının daha doğru ve eksiksiz yanıtlar vermesine yardımcı olan bir kurulum.

Bu yaklaşımın özünde, her iki girdi türünü de işlemek ve üzerinde mantık yürütmek üzere tasarlanmış olan vizyon-dil modelleri (VLM'ler) yer alır. Bu kurulumda, RAG büyük veri kaynaklarından en alakalı bilgileri alırken, bilgisayar vizyonuyla etkinleştirilen VLM görüntüleri, düzenleri ve diyagramları yorumlar.

Bu, taranmış formlar, tıbbi raporlar veya sunum slaytları gibi hem metinde hem de görsellerde hayati ayrıntıların bulunabileceği gerçek dünya belgeleri için özellikle yararlıdır. Örneğin, tablolar ve paragrafların yanında resimler içeren bir belgeyi analiz ederken, çok modlu bir sistem görsel öğeleri çıkarabilir, gösterdikleri şeyin bir özetini oluşturabilir ve bunu çevreleyen metinle birleştirerek daha eksiksiz ve yararlı bir yanıt sağlayabilir.

Şekil 3. Çok modlu RAG daha iyi yanıtlar sağlamak için görseller ve metinler kullanır.

RAG'ın görsel veriler için uygulamaları 

RAG'ın ne olduğunu ve bilgisayarlı görüşle nasıl çalıştığını tartıştığımıza göre, bu yaklaşımın nasıl kullanıldığını gösteren bazı gerçek dünya örneklerine ve araştırma projelerine bakalım.

VisRAG ile görsel belgeleri anlama

Diyelim ki bir finansal rapordan veya taranmış bir yasal belgeden içgörüler çıkarmaya çalışıyorsunuz. Bu tür dosyalar genellikle yalnızca metin değil, aynı zamanda bilgileri açıklamaya yardımcı olan tablolar, grafikler ve düzenler de içerir. Basit bir dil modeli bu görsel öğeleri gözden kaçırabilir veya yanlış yorumlayabilir ve bu da eksik veya yanlış yanıtlarla sonuçlanabilir.

VisRAG , araştırmacılar tarafından bu zorluğun üstesinden gelmek için yaratıldı. Bu, yalnızca metni işlemek yerine her sayfayı bir resim olarak ele alan VLM tabanlı bir RAG işlem hattıdır. Bu, sistemin hem içeriği hem de görsel yapısını anlamasını sağlar. Sonuç olarak, en alakalı kısımları bulabilir ve daha net, daha doğru ve belgenin tam bağlamına dayalı yanıtlar verebilir.

Şekil 4. VisRAG, metinsel içeriği ve düzeni yakalamak için belgeleri görüntü olarak okuyabilir.

RAG ile görsel soru cevaplama

Görsel soru cevaplama (VQA), bir AI sisteminin görsellerle ilgili soruları cevapladığı bir görevdir. Mevcut VQA sistemlerinin çoğu, ek bilgi aramaya gerek kalmadan tek bir belgeyle ilgili soruları cevaplamaya odaklanır - buna kapalı ayar denir.

VDocRAG , daha gerçekçi bir yaklaşım benimseyen bir RAG çerçevesidir. VQA'yı, ilgili belgeleri önce alma yeteneğiyle bütünleştirir. Bu, bir kullanıcının sorusunun birçok belgeden birine uygulanabileceği ve sistemin cevap vermeden önce doğru olanı bulması gereken gerçek dünya durumlarında faydalıdır. Bunu yapmak için VDocRAG, belgeleri hem metinlerini hem de görsel yapılarını koruyarak görüntüler olarak analiz etmek için VLM'leri kullanır.

Bu, VDocRAG'ı kurumsal arama, belge otomasyonu ve müşteri desteği gibi uygulamalarda özellikle etkili hale getirir. Ekiplerin, düzenin anlaşılmasının sözcükleri okumak kadar önemli olduğu kılavuzlar veya politika dosyaları gibi karmaşık, görsel olarak biçimlendirilmiş belgelerden hızla yanıtlar çıkarmasına yardımcı olabilir.

Şekil 5. VDocRAG ve LLM tabanlı çözümler arasındaki fark.

RAG ile resim altyazılarının iyileştirilmesi

Resim yazısı, bir resimde ne olduğunun yazılı bir açıklamasını oluşturmayı içerir. Çeşitli uygulamalarda kullanılır - çevrimiçi içeriği daha erişilebilir hale getirmekten resim aramasını güçlendirmeye ve içerik denetimi ve öneri sistemlerini desteklemeye kadar.

Ancak, AI modelleri için doğru altyazılar oluşturmak her zaman kolay değildir. Özellikle görüntü, modelin eğitildiği şeyden farklı bir şey gösterdiğinde zordur. Birçok altyazı sistemi eğitim verilerine büyük ölçüde güvenir, bu nedenle tanıdık olmayan sahnelerle karşılaştıklarında altyazıları belirsiz veya yanlış çıkabilir.

Araştırmacılar, bunu ele almak için, görüntü başlığına geri alma-artırılmış üretim (RAG) getiren bir yöntem olan Re-ViLM'yi geliştirdiler. Sıfırdan bir başlık oluşturmak yerine, Re-ViLM benzer görüntü-metin çiftlerini bir veritabanından alır ve bunları başlık çıktısını yönlendirmek için kullanır. 

Bu geri çağırma tabanlı yaklaşım, modelin açıklamalarını ilgili örneklere dayandırmasına yardımcı olarak hem doğruluğu hem de akıcılığı artırır. İlk sonuçlar, Re-ViLM'nin gerçek örnekler kullanarak daha doğal, bağlam farkında başlıklar ürettiğini ve belirsiz veya yanlış açıklamaları azaltmaya yardımcı olduğunu göstermektedir.

Şekil 6. Re-ViLM görsel metin örneklerini alarak resim altyazılarını iyileştiriyor.

Görsel verileri anlamak için RAG kullanmanın avantajları ve dezavantajları

Görsel bilgileri almak ve kullanmak için geri alma-artırılmış üretim tekniklerinin uygulanmasının faydalarına kısaca bir göz atalım: 

  • Gelişmiş özetleme yetenekleri: Özetler yalnızca metinden değil, görsellerden (grafik eğilimleri veya infografik öğeler gibi) gelen içgörüleri de içerebilir.
  • Daha sağlam arama ve erişim : Erişim adımları, anahtar kelimeler metinde mevcut olmasa bile, resim tabanlı anlayışı kullanarak ilgili görsel sayfaları belirleyebilir.
  • Taranan, el yazısıyla yazılan veya görüntü tabanlı belgeler için destek: VLM'ler tarafından etkinleştirilen RAG hatları, yalnızca metin içeren modellerde okunamayacak içerikleri işleyebilir.

Bu faydalara rağmen, görsel verilerle çalışmak için RAG kullanırken akılda tutulması gereken birkaç sınırlama daha vardır. İşte bunlardan birkaçı:

  • Yüksek bilgi işlem gereksinimleri: Hem görsellerin hem de metinlerin analiz edilmesi daha fazla bellek ve işlem gücü kullanır; bu da performansı yavaşlatabilir veya maliyetleri artırabilir.
  • Veri gizliliği ve güvenliği endişeleri: Özellikle sağlık veya finans gibi sektörlerdeki görsel belgeler, erişim ve işleme iş akışlarını zorlaştıran hassas bilgiler içerebilir.
  • Daha uzun çıkarım süreleri: Görsel işleme karmaşıklık kattığı için, yanıt üretmek yalnızca metin içeren sistemlere kıyasla daha uzun sürebilir.

Önemli çıkarımlar

Geri çağırma-artırılmış üretim, büyük dil modellerinin soruları yanıtlama biçimini, harici kaynaklardan ilgili ve güncel bilgileri almalarına izin vererek geliştiriyor. Bilgisayarlı görüşle eşleştirildiğinde, bu sistemler yalnızca metni değil, grafikler, tablolar, resimler ve taranmış belgeler gibi görsel içerikleri de işleyebilir ve bu da daha doğru ve çok yönlü yanıtlar sağlar.

Bu yaklaşım, LLM'leri karmaşık belgeleri içeren gerçek dünya görevleri için daha uygun hale getirir. Bu modeller, geri çağırma ve görsel anlayışı bir araya getirerek çeşitli formatları daha etkili bir şekilde yorumlayabilir ve pratik, günlük bağlamlarda daha yararlı olan içgörüler sağlayabilir.

Büyüyen topluluğumuza katılın! AI'ya daha derinlemesine dalmak için GitHub havuzumuzu keşfedin. Kendi bilgisayarlı görüş projelerinizi başlatmaya hazır mısınız? Lisanslama seçeneklerimize göz atın. Çözümler sayfalarımızda sağlık hizmetlerinde AI ve perakendede bilgisayarlı görüş hakkında daha fazla bilgi edinin!

LinkedIn logosuTwitter logosuFacebook logosuKopya-bağlantı sembolü

Bu kategoride daha fazlasını okuyun

Yapay zekanın gelecekteki
adresini birlikte inşa edelim!

Makine öğreniminin geleceği ile yolculuğunuza başlayın