"Tüm Çerezleri Kabul Et" seçeneğine tıklayarak, sitede gezinmeyi geliştirmek, site kullanımını analiz etmek ve pazarlama çabalarımıza yardımcı olmak için cihazınızda çerezlerin saklanmasını kabul edersiniz. Daha fazla bilgi
Çerez Ayarları
"Tüm Çerezleri Kabul Et" seçeneğine tıklayarak, sitede gezinmeyi geliştirmek, site kullanımını analiz etmek ve pazarlama çabalarımıza yardımcı olmak için cihazınızda çerezlerin saklanmasını kabul edersiniz. Daha fazla bilgi
Bilgiye erişimle desteklenmiş üretimin (RAG) bilgisayarlı görü ile birleşerek yapay zeka sistemlerinin belgeleri, görselleri ve karmaşık gerçek dünya içeriğini nasıl yorumlamasına yardımcı olduğunu öğrenin.
ChatGPT veya Gemini gibi yapay zeka araçlarını kullanmak, bilgi bulmanın yaygın bir yolu haline geliyor. İster bir mesaj taslağı hazırlıyor, ister bir belgeyi özetliyor, ister bir soruyu yanıtlıyor olun, bu araçlar genellikle daha hızlı, daha kolay bir çözüm sunar.
Ancak büyük dil modellerini (LLM'ler) birkaç kez kullandıysanız, sınırlamalarını fark etmişsinizdir. Son derece spesifik veya zamana duyarlı sorgularla karşılaştıklarında, genellikle kendilerinden emin bir şekilde yanlış cevaplar verebilirler.
Bunun nedeni, bağımsız LLM'lerin yalnızca eğitildikleri verilere güvenmeleridir. Bu veri kümesinin ötesinde en son güncellemelere veya özel bilgilere erişimleri yoktur. Sonuç olarak, yanıtları güncel veya doğru olmayabilir.
Bunu çözmeye yardımcı olmak için araştırmacılar, retrieval-augmented generation (RAG) adı verilen bir yöntem geliştirdiler. RAG, dil modellerini, sorgulara yanıt verirken güvenilir kaynaklardan yeni ve alakalı bilgiler çekmelerini sağlayarak geliştirir.
Bu makalede, RAG'ın nasıl çalıştığını ve alakalı, güncel bilgileri alarak yapay zeka araçlarını nasıl geliştirdiğini inceleyeceğiz. Ayrıca, sistemlerin yalnızca metni değil, aynı zamanda görüntüleri, düzenleri ve görsel olarak karmaşık belgeleri anlamasına yardımcı olmak için görsel verileri yorumlamaya odaklanan bir yapay zeka alanı olan bilgisayar görüşü ile birlikte nasıl çalıştığına da bakacağız.
Retrieval-augmented generation'ı (RAG) anlamak
Bir yapay zeka sohbet robotuna bir soru sorarken, genellikle kulağa hoş gelen bir yanıttan daha fazlasını bekleriz. İdeal olarak, iyi bir cevap açık, doğru ve gerçekten yardımcı olmalıdır. Bunu sağlamak için, yapay zeka modelinin dil becerilerinden daha fazlasına ihtiyacı vardır; özellikle belirli veya zamana duyarlı konular için doğru bilgilere de erişmesi gerekir.
RAG, bu boşluğu doldurmaya yardımcı olan bir tekniktir. Dil modelinin metni anlama ve üretme yeteneğini, harici kaynaklardan ilgili bilgileri alma gücüyle birleştirir. Model, yalnızca eğitim verilerine güvenmek yerine, yanıtını oluştururken güvenilir bilgi tabanlarından destekleyici içerik çeker.
Şekil 1. Temel RAG kullanım durumları. Yazarın görseli.
Bunu, birine bir soru sormak ve onların yanıt vermeden önce güvenilir bir kaynağa danışması gibi düşünebilirsiniz. Cevapları hala kendi kelimeleriyle, ancak en alakalı ve güncel bilgilerle destekleniyor.
Bu yaklaşım, LLM'lerin daha eksiksiz, doğru ve kullanıcının sorgusuna göre uyarlanmış yanıtlar vermesine yardımcı olarak, doğruluğun gerçekten önemli olduğu gerçek dünya uygulamalarında onları çok daha güvenilir hale getirir.
RAG'ın nasıl çalıştığına bir bakış
RAG, büyük bir dil modelinin yanıt verme şeklini iki temel adımı tanıtarak geliştirir: alma ve oluşturma. İlk olarak, harici bir bilgi tabanından ilgili bilgileri alır. Ardından, iyi biçimlendirilmiş, bağlama duyarlı bir yanıt oluşturmak için bu bilgileri kullanır.
Bu sürecin nasıl çalıştığını görmek için basit bir örneğe göz atalım. Kişisel finansınızı yönetmek için bir yapay zeka asistanı kullandığınızı ve o ayki harcama hedefinize uyup uymadığınızı kontrol etmek istediğinizi hayal edin.
Süreç, asistana "Bu ay bütçeme sadık kaldım mı?" gibi bir soru sorduğunuzda başlar. Sistem, yalnızca eğitim sırasında öğrendiklerine güvenmek yerine, en son finansal kayıtlarınızda (banka ekstreleri veya işlem özetleri gibi) arama yapmak için bir alıcı kullanır. Sorunuzun arkasındaki niyeti anlamaya odaklanır ve en alakalı bilgileri toplar.
Bu bilgiler alındıktan sonra, dil modeli devreye girer. Net, yardımcı bir yanıt oluşturmak için hem sorunuzu hem de kayıtlarınızdan çekilen verileri işler. Ham ayrıntıları listelemek yerine, yanıt harcamalarınızı özetler ve hedefinize ulaşıp ulaşmadığınızı teyit etmek ve önemli harcama alanlarını belirtmek gibi doğrudan, anlamlı bir içgörü sağlar.
Bu yaklaşım, LLM'nin yalnızca doğru değil, aynı zamanda gerçek, güncel bilgilerinize dayanan yanıtlar vermesine yardımcı olarak, deneyimi yalnızca statik eğitim verileriyle çalışan bir modelden çok daha kullanışlı hale getirir.
Tipik olarak, bilgiler her zaman düz metin olarak paylaşılmaz. Tıbbi taramalardan ve diyagramlardan sunum slaytlarına ve taranmış belgelere kadar, görseller genellikle önemli ayrıntılar taşır. Esas olarak metni okumak ve anlamak için oluşturulmuş geleneksel LLM'ler, bu tür içeriklerle mücadele edebilir.
Ancak RAG, bu boşluğu doldurmak için bilgisayar görüşü ile birlikte kullanılabilir. İkisi bir araya getirildiğinde, yapay zeka sohbet robotlarının daha doğru ve eksiksiz yanıtlar vermesine yardımcı olan, hem metni hem de görselleri işleyebilen bir kurulum olan çok modlu bir RAG sistemi oluştururlar.
Bu yaklaşımın merkezinde, her iki girdi türünü de işlemek ve üzerinde akıl yürütmek için tasarlanmış görüntü-dil modelleri (VLM'ler) bulunur. Bu kurulumda, RAG büyük veri kaynaklarından en alakalı bilgileri alırken, bilgisayar görüşü tarafından etkinleştirilen VLM, görüntüleri, düzenleri ve diyagramları yorumlar.
Bu, özellikle taranmış formlar, tıbbi raporlar veya sunum slaytları gibi hayati ayrıntıların hem metinde hem de görsellerde bulunabileceği gerçek dünya belgeleri için kullanışlıdır. Örneğin, tabloların ve paragrafların yanı sıra görüntüler içeren bir belgeyi analiz ederken, çok modlu bir sistem görsel öğeleri çıkarabilir, ne gösterdiklerinin bir özetini oluşturabilir ve daha eksiksiz ve yardımcı bir yanıt sunmak için bunu çevreleyen metinle birleştirebilir.
Şekil 3. Çok modlu RAG, daha iyi yanıtlar sağlamak için görüntüleri ve metni kullanır.
Görsel veriler için RAG uygulamaları
RAG'nin ne olduğunu ve bilgisayar görüşüyle nasıl çalıştığını ele aldığımıza göre, bu yaklaşımın nasıl kullanıldığını gösteren bazı gerçek dünya örneklerine ve araştırma projelerine göz atalım.
VisRAG ile görsel belgeleri anlama
Diyelim ki bir finans raporundan veya taranmış bir yasal belgeden içgörüler elde etmeye çalışıyorsunuz. Bu tür dosyalar genellikle yalnızca metin değil, aynı zamanda bilgileri açıklamaya yardımcı olan tablolar, grafikler ve düzenler de içerir. Basit bir dil modeli, bu görsel öğeleri gözden kaçırabilir veya yanlış yorumlayabilir, bu da eksik veya yanlış yanıtlara yol açabilir.
VisRAG, araştırmacılar tarafından bu zorluğun üstesinden gelmek için oluşturuldu. Her sayfayı yalnızca metni işlemek yerine bir görüntü olarak ele alan, VLM tabanlı bir RAG hattıdır. Bu, sistemin hem içeriği hem de görsel yapısını anlamasını sağlar. Sonuç olarak, en alakalı kısımları bulabilir ve belgenin tüm bağlamına dayalı olarak daha net, daha doğru yanıtlar verebilir.
Şekil 4. VisRAG, metinsel içeriği ve düzeni yakalamak için belgeleri resim olarak okuyabilir.
RAG ile görsel soru cevaplama
Görsel soru cevaplama (VQA), bir yapay zeka sisteminin görüntülerle ilgili soruları yanıtladığı bir görevdir. Mevcut VQA sistemlerinin çoğu, ek bilgi aramaya gerek kalmadan tek bir belgeyle ilgili soruları yanıtlamaya odaklanır - bu, kapalı ortam olarak bilinir.
VDocRAG, daha gerçekçi bir yaklaşım benimseyen bir RAG çerçevesidir. VQA'yı önce ilgili belgeleri alma yeteneği ile entegre eder. Bu, bir kullanıcının sorusunun birçok belgeden birine uygulanabileceği ve sistemin yanıtlamadan önce doğru olanı bulması gereken gerçek dünya durumlarında kullanışlıdır. Bunu yapmak için VDocRAG, belgeleri hem metinlerini hem de görsel yapılarını koruyarak görüntü olarak analiz etmek için VLM'leri kullanır.
Bu, VDocRAG'ı kurumsal arama, belge otomasyonu ve müşteri desteği gibi uygulamalarda özellikle etkili kılar. Ekiplerin, düzenin kelimeleri okumak kadar önemli olduğu kılavuzlar veya politika dosyaları gibi karmaşık, görsel olarak biçimlendirilmiş belgelerden hızlı bir şekilde yanıtlar çıkarmasına yardımcı olabilir.
Şekil 5. VDocRAG ve LLM tabanlı çözümler arasındaki fark.
RAG ile görüntü altyazılarını iyileştirme
Görüntü altyazısı oluşturma, bir görüntüde neler olup bittiğinin yazılı bir açıklamasını oluşturmayı içerir. Çevrimiçi içeriği daha erişilebilir hale getirmekten, görüntü aramayı güçlendirmeye ve içerik denetleme ve öneri sistemlerini desteklemeye kadar çeşitli uygulamalarda kullanılır.
Ancak, yapay zeka modelleri için doğru altyazılar oluşturmak her zaman kolay değildir. Özellikle görüntü, modelin üzerinde eğitildiği şeyden farklı bir şey gösterdiğinde zordur. Birçok altyazı sistemi büyük ölçüde eğitim verilerine güvenir, bu nedenle bilinmeyen sahnelerle karşılaştıklarında, altyazıları belirsiz veya yanlış olabilir.
Bununla başa çıkmak için araştırmacılar, görüntü altyazısına alma-artırılmış üretimi (RAG) getiren bir yöntem olan Re-ViLM'i geliştirdiler. Re-ViLM, sıfırdan bir altyazı oluşturmak yerine, bir veritabanından benzer görüntü-metin çiftlerini alır ve bunları altyazı çıktısına rehberlik etmek için kullanır.
Bu alma tabanlı yaklaşım, modelin açıklamalarını ilgili örneklerde temellendirmesine yardımcı olarak hem doğruluğu hem de akıcılığı artırır. İlk sonuçlar, Re-ViLM'in gerçek örnekler kullanarak daha doğal, bağlam duyarlı altyazılar oluşturduğunu ve belirsiz veya yanlış açıklamaları azaltmaya yardımcı olduğunu gösteriyor.
Şekil 6. Re-ViLM, görsel-metin örneklerini alarak resim altyazılarını iyileştirir.
Görsel verileri anlamak için RAG kullanmanın artıları ve eksileri
İşte görsel bilgileri almak ve kullanmak için alma-artırılmış üretim tekniklerini uygulamanın faydalarına hızlı bir bakış:
Gelişmiş özetleme yetenekleri: Özetler, yalnızca metin değil, görsellerden (grafik trendleri veya infografik öğeleri gibi) elde edilen içgörüleri de içerebilir.
Daha sağlam arama ve alma: Alma adımları, görüntü tabanlı anlayışı kullanarak, metinde anahtar kelimeler bulunmasa bile ilgili görsel sayfaları tanımlayabilir.
Taranmış, el yazısıyla yazılmış veya görüntü tabanlı belgeler için destek: VLM'ler tarafından etkinleştirilen RAG işlem hatları, yalnızca metin modelleri için okunamayan içeriği işleyebilir.
Bu faydalara rağmen, görsel verilerle çalışmak için RAG kullanırken akılda tutulması gereken birkaç sınırlama vardır. İşte ana olanlardan birkaçı:
Yüksek işlem gereksinimleri: Hem görüntüleri hem de metni analiz etmek daha fazla bellek ve işlem gücü kullanır, bu da performansı yavaşlatabilir veya maliyetleri artırabilir.
Veri gizliliği ve güvenlik endişeleri: Görsel belgeler, özellikle sağlık veya finans gibi sektörlerde, alma ve işleme iş akışlarını karmaşıklaştıran hassas bilgiler içerebilir.
Daha uzun çıkarım süreleri: Görsel işleme karmaşıklık kattığı için, yanıt oluşturmak yalnızca metin tabanlı sistemlere kıyasla daha uzun sürebilir.
Önemli çıkarımlar
Elde etme destekli üretim, büyük dil modellerinin harici kaynaklardan alakalı ve güncel bilgiler almasına olanak tanıyarak soruları yanıtlama şeklini geliştiriyor. Bilgisayar görüşü ile eşleştirildiğinde, bu sistemler yalnızca metni değil, aynı zamanda çizelgeler, tablolar, resimler ve taranmış belgeler gibi görsel içerikleri de işleyebilir ve bu da daha doğru ve kapsamlı yanıtlara yol açar.
Bu yaklaşım, LLM'leri karmaşık belgeler içeren gerçek dünya görevleri için daha uygun hale getirir. Geri alma ve görsel anlayışı bir araya getirerek, bu modeller çeşitli formatları daha etkili bir şekilde yorumlayabilir ve pratik, günlük bağlamlarda daha kullanışlı olan içgörüler sağlayabilir.