YOLO Vision 2025'i kaçırmayın!
25 Eylül 2025
10:00 — 18:00 BST
Hibrit etkinlik
Yolo Vision 2024

Doğal dil işleme ve bilgisayar görüşünü bir araya getirme

Abirami Vina

4 dakika okuma

28 Kasım 2024

Doğal dil işlemenin (NLP) ve bilgisayarlı görünün (CV) daha akıllı, çapraz modal yapay zeka sistemleriyle sektörleri dönüştürmek için nasıl birlikte çalışabileceğini öğrenin.

Doğal dil işleme (DDİ) ve bilgisayarlı görü (BG), son yıllarda büyük popülerlik kazanan iki ayrı yapay zeka (YZ) dalıdır. YZ'deki gelişmeler sayesinde, bu iki dal artık her zamankinden daha fazla birbirine bağlı durumda.

Bunun harika bir örneği otomatik görüntü altyazılamasıdır. Bilgisayarlı görü, bir görüntünün içeriğini analiz etmek ve anlamak için kullanılabilirken, doğal dil işleme, onu tanımlamak için bir altyazı oluşturmak için kullanılabilir. Otomatik görüntü altyazılaması, erişilebilirliği iyileştirmek için sosyal medya platformlarında ve görüntüleri verimli bir şekilde düzenlemeye ve etiketlemeye yardımcı olmak için içerik yönetim sistemlerinde yaygın olarak kullanılır.

NLP ve Görüntü İşleme (Vision AI) alanındaki yenilikler, çeşitli sektörlerde bu türden birçok kullanım örneğine yol açmıştır. Bu makalede, NLP ve bilgisayar görüşüne daha yakından bakacak ve her ikisinin de nasıl çalıştığını tartışacağız. Ayrıca, bu teknolojilerin her ikisini de birlikte kullanan ilginç uygulamaları keşfedeceğiz. Haydi başlayalım!

NLP ve görme yapay zekasını anlamak

NLP, bilgisayarlar ve insan dili arasındaki etkileşime odaklanır. Makinelerin anlamlı bir şekilde metni veya konuşmayı anlamasını, yorumlamasını ve üretmesini sağlar. Çeviri, duygu analizi veya özetleme gibi görevleri gerçekleştirmek için kullanılabilir. 

Bu arada, bilgisayarlı görü, makinelerin görüntüleri ve videoları analiz etmesine ve bunlarla çalışmasına yardımcı olur. Bir fotoğraftaki nesneleri algılama, yüz tanıma, nesne takibi veya görüntü sınıflandırma gibi görevler için kullanılabilir. Görüntü yapay zeka teknolojisi, makinelerin görsel dünyayı daha iyi anlamasını ve etkileşim kurmasını sağlar.

__wf_reserved_inherit
Şekil 1. Görüntü sınıflandırmasına bir örnek.

Bilgisayar görüşü ile entegre edildiğinde, NLP, metin ve görüntüleri birleştirerek görsel verilere anlam katabilir ve daha derin bir anlayış sağlayabilir. Atasözünün dediği gibi, "bir resim bin kelimeye bedeldir" ve metinle eşleştirildiğinde, daha da güçlü hale gelir ve daha zengin içgörüler sunar.

NLP ve bilgisayar görüşünün birlikte çalışmasına örnekler

NLP ve bilgisayarlı görü uygulamalarının, telefonunuzun bir resimdeki metni çevirmesi gibi, farkına bile varmadan günlük araçlarda birlikte çalıştığını muhtemelen görmüşsünüzdür.

Aslında, Google Translate, resimlerdeki metinleri çevirmek için hem doğal dil işlemeyi hem de bilgisayarlı görü kullanır. Başka bir dildeki bir sokak tabelasının fotoğrafını çektiğinizde, bilgisayarlı görü metni tanımlar ve çıkarır, NLP ise onu tercih ettiğiniz dile çevirir. 

NLP ve CV, sürecin sorunsuz ve verimli olmasını sağlamak için birlikte çalışır ve kullanıcıların farklı dillerdeki bilgileri gerçek zamanlı olarak anlamalarına ve etkileşimde bulunmalarına olanak tanır. Bu kusursuz teknoloji entegrasyonu, iletişim engellerini ortadan kaldırır.

__wf_reserved_inherit
Şekil 2. Google'ın Çeviri özelliği.

İşte NLP ve bilgisayarlı görünün birlikte çalıştığı diğer bazı uygulamalar:

  • Otonom sürüşlü arabalar: Bilgisayarlı görü, yol işaretlerini, şeritleri ve engelleri tespit etmek için kullanılabilirken, doğal dil işleme sözlü komutları veya yol işaretlerindeki metni işleyebilir.
  • Belge okuyucular: Görüntü yapay zekası, taranmış belgelerden veya el yazısından metni tanıyabilir ve doğal dil işleme, bilgileri yorumlayıp özetleyebilir.
  • Alışveriş uygulamalarında görsel arama: Bilgisayarlı görü, fotoğraflardaki ürünleri tanımlayabilirken, NLP, önerileri iyileştirmek için arama terimlerini işler.
  • Eğitim araçları: Bilgisayarlı görü, el yazısı notları veya görsel girdileri tanıyabilir ve NLP, içeriğe dayalı açıklamalar veya geri bildirim sağlayabilir.

Bilgisayar görüşü ve NLP'yi birbirine bağlayan temel kavramlar

Artık bilgisayar görüşü ve doğal dil işlemenin nasıl kullanıldığını gördüğümüze göre, bunların nasıl bir araya gelerek çapraz modal yapay zekayı mümkün kıldığını keşfedelim. 

Çapraz modal yapay zeka, metin ve resimlerdeki bilgileri işlemek ve bağlamak için bilgisayarlı görüden görsel anlayışı, NLP'den dil anlama ile birleştirir. Örneğin, sağlık hizmetlerinde, çapraz modal yapay zeka bir röntgeni analiz etmeye ve potansiyel sorunların açık, yazılı bir özetini oluşturmaya yardımcı olarak doktorların daha hızlı ve daha doğru kararlar almasına yardımcı olabilir.

Doğal Dil Anlama (NLU)

Doğal Dil Anlama, metnin amacını, bağlamını, semantiğini, tonunu ve yapısını analiz ederek metinden anlam çıkarma ve yorumlamaya odaklanan özel bir DDİ alt kümesidir. DDİ ham metni işlerken, DDA makinelerin insan dilini daha etkili bir şekilde anlamasını sağlar. Örneğin, ayrıştırma, yazılı metni makinelerin anlayabileceği yapılandırılmış bir formata dönüştüren bir DDA tekniğidir. 

__wf_reserved_inherit
Şekil 3. NLP ve NLU arasındaki ilişki.

NLU, görsel veriler anlaşılması gereken metin içerdiğinde bilgisayar görüşü ile birlikte çalışır. Bilgisayar görüşü, optik karakter tanıma (OCR) gibi teknolojileri kullanarak görüntü, belge veya videolardan metin çıkarır. Bu, bir fişi tarama, bir tabeladaki metni okuma veya el yazısı notları dijitalleştirme gibi görevleri içerebilir. 

NLU daha sonra anlamını, bağlamını ve niyetini anlamak için çıkarılan metni işler. Bu kombinasyon, sistemlerin metni tanımaktan daha fazlasını yapmasını mümkün kılar. Fişlerden giderleri kategorize edebilir veya tonu ve duyguyu analiz edebilirler. Bilgisayar görüşü ve NLU birlikte, görsel metni anlamlı, eyleme geçirilebilir bilgilere dönüştürür.

İstem mühendisliği

İstem mühendisliği, üretken YZ sistemlerini (büyük dil modelleri (LLM'ler) ve görme-dil modelleri (VLM'ler) gibi) istenen çıktıları üretmede yönlendirmek için net, kesin ve ayrıntılı girdi istemleri tasarlama sürecidir. Bu istemler, YZ modelinin kullanıcının amacını anlamasına yardımcı olan talimatlar görevi görür.

Etkili istem mühendisliği, modelin yeteneklerini anlamayı ve doğru, yaratıcı veya anlayışlı yanıtlar üretme yeteneğini en üst düzeye çıkaran girdiler oluşturmayı gerektirir. Bu, özellikle hem metin hem de görüntülerle çalışan AI modelleri söz konusu olduğunda önemlidir.

Örneğin, OpenAI'ın DALL·E modelini ele alalım. Ondan “at üzerinde bir astronotun fotogerçekçi bir görüntüsünü” oluşturmasını isterseniz, açıklamanıza göre tam olarak bunu oluşturabilir. Bu beceri, profesyonellerin metin fikirlerini hızla görsel maketlere dönüştürebildiği, zamandan tasarruf sağladığı ve üretkenliği artırdığı grafik tasarım gibi alanlarda çok kullanışlıdır.

__wf_reserved_inherit
Şekil 4. OpenAI'nin DALL-E'si kullanılarak oluşturulmuş bir görsel.

Bunun bilgisayarla görü ile nasıl bağlantılı olduğunu merak ediyor olabilirsiniz - bu sadece üretken yapay zeka değil mi? İkisi aslında yakından ilişkili. Üretken yapay zeka, tamamen yeni görsel çıktılar oluşturmak için bilgisayarla görünün temelleri üzerine inşa edilir.

Metin istemlerinden görüntüler oluşturan Üretken yapay zeka modelleri, metinsel açıklamalarla eşleştirilmiş geniş görüntü veri kümeleri üzerinde eğitilir. Bu, dil ile nesneler, dokular ve uzamsal ilişkiler gibi görsel kavramlar arasındaki ilişkileri öğrenmelerini sağlar. 

Bu modeller, geleneksel bilgisayar görüşü sistemlerinin yaptığı gibi görsel verileri aynı şekilde yorumlamaz, örneğin gerçek dünya görüntülerinde nesneleri tanıma. Bunun yerine, bu kavramlara ilişkin öğrendikleri anlayışı, istemlere dayalı olarak yeni görseller oluşturmak için kullanırlar. Üretken yapay zeka, bu bilgiyi iyi hazırlanmış istemlerle birleştirerek, kullanıcının girdisiyle eşleşen gerçekçi ve ayrıntılı görüntüler üretebilir. 

Soru cevaplama (QA)

Soru-cevap sistemleri, doğal dil sorularını anlamak ve doğru, alakalı yanıtlar sağlamak için tasarlanmıştır. Sorguları yorumlamak ve yanıtlamak için bilgi erişimi, semantik anlama ve derin öğrenme gibi teknikler kullanırlar. 

OpenAI'ın GPT-4o'su gibi gelişmiş modeller, görsel soru-cevaplamayı (VQA) işleyebilir, yani görüntüleri analiz edebilir ve görüntülerle ilgili soruları yanıtlayabilir. Ancak, GPT-4o doğrudan bilgisayarlı görü görevlerini gerçekleştirmez. Bunun yerine, görüntüleri işlemek, özellikleri çıkarmak ve bunları dil anlayışıyla birleştirmek için özel bir görüntü kodlayıcı kullanır.

__wf_reserved_inherit
Şekil 5. ChatGPT'nin görsel soru-cevaplama yeteneği. Görüntü: yazar.

Diğer sistemler, bilgisayarlı görü yeteneklerini tam olarak entegre ederek bir adım öteye gidebilir. Bu sistemler, nesneleri, sahneleri veya metinleri tanımlamak için görüntüleri veya videoları doğrudan analiz edebilir. Doğal dil işleme ile birleştirildiğinde, görsel içerikle ilgili daha karmaşık soruları ele alabilirler. Örneğin, görsel öğeleri algılayıp yorumlayarak “Bu görüntüdeki nesneler nelerdir?” veya “Bu kayıtta kim var?” gibi soruları yanıtlayabilirler. 

Sıfır Atışlı Öğrenme (ZSL)

Sıfır atışlı öğrenme (ZSL), yapay zeka modellerinin, üzerinde özel olarak eğitilmeden yeni, görülmemiş görevleri ele almasını sağlayan bir makine öğrenimi yöntemidir. Bunu, modelin zaten bildiği (görülen sınıflar) ile yeni, görülmemiş kategorileri birbirine bağlamak için açıklamalar veya semantik ilişkiler gibi ek bilgiler kullanarak yapar. 

Doğal dil işlemede, ZSL, modellerin kelimeler ve kavramlar arasındaki ilişkilere dayanarak eğitilmedikleri konuları anlamalarına ve bunlarla çalışmalarına yardımcı olur. Benzer şekilde, bilgisayarlı görüde ZSL, modellerin kanatlar veya tüyler gibi görsel özellikleri kuşlar gibi bilinen kavramlarla ilişkilendirerek daha önce hiç karşılaşmadıkları nesneleri tanımasına veya sahneleri tanımasına olanak tanır.

ZSL, dil anlayışını görsel tanımayla birleştirerek NLP ve CV'yi birbirine bağlar ve bu da onu her ikisini de içeren görevler için özellikle yararlı kılar. Örneğin, görsel soru cevaplamada, bir model doğru bir yanıt sağlamak için ilgili bir soruyu anlarken bir görüntüyü analiz edebilir. Ayrıca görüntü açıklaması gibi görevler için de kullanışlıdır.

Önemli çıkarımlar

Doğal dil işleme ve bilgisayar görüşünün bir araya gelmesi, hem metni hem de görüntüleri anlayabilen yapay zeka sistemlerine yol açmıştır. Bu kombinasyon, kendi kendini süren arabaların yol işaretlerini okumasına yardımcı olmaktan, tıbbi teşhisleri iyileştirmeye ve sosyal medyayı daha güvenli hale getirmeye kadar birçok sektörde kullanılmaktadır. Bu teknolojiler geliştikçe, hayatı kolaylaştırmaya ve çok çeşitli alanlarda yeni fırsatlar yaratmaya devam edecekler.

Daha fazla bilgi edinmek için GitHub depomuzu ziyaret edin ve topluluğumuzla etkileşim kurun. Çözüm sayfalarımızda kendi kendini süren arabalarda ve tarımda yapay zeka uygulamalarını keşfedin. 🚀

Gelin, yapay zekanın geleceğini
birlikte inşa edelim!

Makine öğreniminin geleceği ile yolculuğunuza başlayın

Ücretsiz başlayın
Bağlantı panoya kopyalandı