YOLO26 ile tanış: yeni nesil görsel AI.
Ultralytics
Yapay Zeka Görüşü

Doğal dil işleme ve bilgisayarlı görü arasında köprü kurmak

Doğal dil işleme (NLP) ve bilgisayarlı görünün (CV), daha akıllı, çok modlu yapay zeka sistemleri ile endüstrileri dönüştürmek için nasıl birlikte çalışabileceğini öğren.

ABAbirami Vina
4 min read
Doğal dil işleme ve bilgisayarlı görü arasında köprü kurmak

Doğal dil işleme (NLP) ve bilgisayarlı görü (CV), son yıllarda oldukça popüler hale gelen iki ayrı yapay zeka (AI) dalıdır. Yapay zekadaki gelişmeler sayesinde, bu iki dal artık her zamankinden daha bağlantılı.

Bunun harika bir örneği otomatik görsel altyazılama işlemidir. Bilgisayarlı görü, bir görselin içeriğini analiz edip anlamak için kullanılırken, doğal dil işleme de onu betimleyen bir altyazı oluşturmak için kullanılabilir. Otomatik görsel altyazılama, sosyal medya platformlarında erişilebilirliği iyileştirmek ve içerik yönetim sistemlerinde görselleri verimli bir şekilde düzenleyip etiketlemek için yaygın olarak kullanılır.

NLP ve Vision AI alanındaki yenilikler, çeşitli endüstrilerde birçok benzer kullanım örneğine yol açtı. Bu makalede NLP ve bilgisayarlı görü konularını daha yakından inceleyecek ve her ikisinin nasıl çalıştığını ele alacağız. Ayrıca, bu teknolojilerin her ikisini de birlikte kullanan ilginç uygulamaları keşfedeceğiz. Başlayalım!

Link to this sectionNLP ve Vision AI'yı anlamak#

NLP, bilgisayarlar ile insan dili arasındaki etkileşime odaklanır. Makinelerin metin veya konuşmayı anlamlı bir şekilde anlamasını, yorumlamasını ve metin oluşturmasını sağlar. Çeviri, duygu analizi veya özetleme gibi görevleri gerçekleştirmek için kullanılabilir.

Bu sırada bilgisayarlı görü, makinelerin görseller ve videolarla analiz yapmasına ve çalışmasına yardımcı olur. Fotoğraflarda nesne algılama, yüz tanıma, nesne takibi veya görsel sınıflandırma gibi görevler için kullanılabilir. Vision AI teknolojisi, makinelerin görsel dünyayı daha iyi anlamasını ve onunla etkileşime girmesini sağlar.

Görüntü sınıflandırma örneği

Şekil 1. Görsel sınıflandırma örneği.

Bilgisayarlı görü ile entegre edildiğinde NLP, metin ve görselleri birleştirerek görsel verilere anlam katabilir ve daha derin bir kavrayış sağlayabilir. "Bir resim bin söze bedeldir" sözünde olduğu gibi, metinle eşleştirildiğinde daha da güçlü hale gelerek zengin içgörüler sunar.

Link to this sectionNLP ve bilgisayarlı görünün birlikte çalıştığı örnekler#

NLP ve bilgisayarlı görünün günlük araçlarda birlikte çalıştığını fark etmeden muhtemelen görmüşsündür; örneğin telefonun bir resimdeki metni çevirdiğinde.

Aslında Google Translate, resimlerdeki metinleri çevirmek için hem doğal dil işlemeden hem de bilgisayarlı görüden yararlanır. Başka bir dildeki sokak tabelasının fotoğrafını çektiğinde, bilgisayarlı görü metni tanımlayıp çıkarır, NLP ise onu tercih ettiğin dile çevirir.

NLP ve CV, süreci akıcı ve verimli hale getirmek için birlikte çalışarak kullanıcıların diller arası bilgileri gerçek zamanlı olarak anlamalarını ve etkileşime girmelerini sağlar. Bu teknolojilerin kesintisiz entegrasyonu iletişim engellerini ortadan kaldırır.

Google Translate özelliğinin bir görseldeki metni çevirmesi

Şekil 2. Google Translate özelliği.

İşte NLP ve bilgisayarlı görünün birlikte çalıştığı diğer uygulamalardan bazıları:

  • Sürücüsüz araçlar: CV, yol tabelalarını, şeritleri ve engelleri tespit etmek için kullanılabilirken, NLP sesli komutları veya yol tabelalarındaki metinleri işleyebilir.
  • Belge okuyucular: Vision AI taranmış belgelerdeki veya el yazısındaki metinleri tanıyabilir, doğal dil işleme ise bilgiyi yorumlayıp özetleyebilir.
  • Alışveriş uygulamalarında görsel arama: Bilgisayarlı görü fotoğraflardaki ürünleri tanımlayabilir, NLP ise önerileri iyileştirmek için arama terimlerini işler.
  • Eğitim araçları: CV el yazısı notları veya görsel girdileri tanıyabilir, NLP ise içeriğe dayalı açıklamalar veya geri bildirimler sağlayabilir.

Link to this sectionBilgisayarlı görü ve NLP'yi birbirine bağlayan temel kavramlar#

Artık bilgisayarlı görü ve doğal dil işlemenin nasıl kullanıldığını gördüğümüze göre, çapraz modlu yapay zekayı etkinleştirmek için nasıl bir araya geldiklerini keşfedelim.

Çapraz modlu yapay zeka, metin ve görsellerdeki bilgileri işlemek ve birbirine bağlamak için bilgisayarlı görüden gelen görsel kavrayışı NLP'den gelen dil anlama yeteneğiyle birleştirir. Örneğin, sağlık hizmetlerinde, çapraz modlu yapay zeka bir röntgen filmini analiz etmeye ve potansiyel sorunların net, yazılı bir özetini oluşturmaya yardımcı olarak doktorların daha hızlı ve doğru kararlar almasını sağlayabilir.

Link to this sectionDoğal Dil Anlama (NLU)#

Doğal Dil Anlama (NLU), metindeki niyeti, bağlamı, anlambilimi, tonu ve yapıyı analiz ederek metinden anlam çıkarmaya odaklanan NLP'nin özel bir alt kümesidir. NLP ham metni işlerken, NLU makinelerin insan dilini daha etkili bir şekilde kavramasını sağlar. Örneğin, ayrıştırma (parsing), yazılı metni makinelerin anlayabileceği yapılandırılmış bir formata dönüştüren bir NLU tekniğidir.

NLP ve NLU arasındaki ilişkiyi gösteren şema

Şekil 3. NLP ve NLU arasındaki ilişki.

NLU, görsel veriler anlaşılması gereken metinler içerdiğinde bilgisayarlı görü ile birlikte çalışır. Bilgisayarlı görü, optik karakter tanıma (OCR) gibi teknolojileri kullanarak görsellerden, belgelerden veya videolardan metin çıkarır. Bu, bir makbuzu taramak, bir tabeladaki metni okumak veya el yazısı notları dijitalleştirmek gibi görevleri içerebilir.

Ardından NLU, çıkarılan metni anlamını, bağlamını ve niyetini anlamak için işler. Bu kombinasyon, sistemlerin sadece metni tanımaktan daha fazlasını yapmasını mümkün kılar. Makbuzlardaki giderleri kategorize edebilir veya ton ve duygu analizi yapabilirler. Bilgisayarlı görü ve NLU birlikte, görsel metni anlamlı ve eyleme dönüştürülebilir bilgilere dönüştürür.

Link to this sectionİstem mühendisliği (Prompt engineering)#

İstem mühendisliği, büyük dil modelleri (LLM'ler) ve görsel-dil modelleri (VLM'ler) gibi üretken yapay zeka sistemlerini istenen çıktıları üretmeleri için yönlendirecek net, kesin ve ayrıntılı girdi istemleri tasarlama sürecidir. Bu istemler, yapay zeka modelinin kullanıcının niyetini anlamasına yardımcı olan talimatlar görevi görür.

Etkili istem mühendisliği, modelin yeteneklerini anlamayı ve doğru, yaratıcı veya içgörü dolu yanıtlar üretme kapasitesini en üst düzeye çıkaran girdiler oluşturmayı gerektirir. Bu, hem metin hem de görsellerle çalışan yapay zeka modelleri söz konusu olduğunda özellikle önemlidir.

Örneğin OpenAI'ın DALL·E modelini ele alalım. Ona "ata binen bir astronotun fotogerçekçi bir görselini" oluşturmasını söylersen, açıklamana dayanarak tam olarak bunu üretebilir. Bu beceri, profesyonellerin metin fikirlerini hızlı bir şekilde görsel taslaklara dönüştürerek zamandan tasarruf edebildiği ve üretkenliği artırabildiği grafik tasarımı gibi alanlarda oldukça kullanışlıdır.

OpenAI’ın DALL-E aracı kullanılarak oluşturulan bir görsel

Şekil 4. OpenAI'ın DALL-E'si kullanılarak oluşturulmuş bir görsel.

Bunun bilgisayarlı görü ile nasıl bağlantılı olduğunu merak ediyor olabilirsin; bu sadece üretken yapay zeka değil mi? İkisi aslında yakından ilişkilidir. Üretken yapay zeka, tamamen yeni görsel çıktılar oluşturmak için bilgisayarlı görünün temelleri üzerine inşa edilir.

Metin istemlerinden görseller oluşturan üretken yapay zeka modelleri, metinsel açıklamalarla eşleştirilmiş geniş görsel veri setleri üzerinde eğitilir. Bu, dil ile nesneler, dokular ve uzamsal ilişkiler gibi görsel kavramlar arasındaki ilişkileri öğrenmelerini sağlar.

Bu modeller, görsel verileri geleneksel bilgisayarlı görü sistemlerinin yaptığı gibi, gerçek dünya görüntülerindeki nesneleri tanımak gibi yorumlamazlar. Bunun yerine, bu kavramlara dair öğrenilmiş bilgilerini, istemlere dayalı olarak yeni görseller üretmek için kullanırlar. Bu bilgiyi iyi hazırlanmış istemlerle birleştirerek, üretken yapay zeka, kullanıcının girdisiyle eşleşen gerçekçi ve ayrıntılı görseller üretebilir.

Link to this sectionSoru cevaplama (QA)#

Soru-cevaplama sistemleri, doğal dildeki soruları anlamak ve doğru, ilgili yanıtlar vermek için tasarlanmıştır. Sorguları yorumlamak ve yanıtlamak için bilgi erişimi, anlamsal anlama ve derin öğrenme gibi teknikleri kullanırlar.

OpenAI'ın GPT-4o gibi gelişmiş modeller, görsel soru-cevaplama (VQA) işlemini gerçekleştirebilir, yani görselleri analiz edip bunlar hakkında sorulan soruları yanıtlayabilirler. Ancak GPT-4o, doğrudan bilgisayarlı görü görevlerini yerine getirmez. Bunun yerine, görselleri işlemek, öznitelik çıkarmak ve yanıt vermek için bunları dil anlama yeteneğiyle birleştirmek üzere özel bir görsel kodlayıcı kullanır.

ChatGPT’nin görsel soru-cevaplama yeteneği

Şekil 5. ChatGPT’nin görsel soru-cevaplama yeteneği. Görsel: yazar.

Diğer sistemler, bilgisayarlı görü yeteneklerini tam olarak entegre ederek bir adım daha ileri gidebilir. Bu sistemler, nesneleri, sahneleri veya metinleri tanımlamak için görselleri veya videoları doğrudan analiz edebilir. Doğal dil işleme ile birleştirildiklerinde, görsel içerik hakkında daha karmaşık soruları yanıtlayabilirler. Örneğin, görsel öğeleri tespit edip yorumlayarak "Bu görselde hangi nesneler var?" veya "Bu videodaki kim?" gibi soruları yanıtlayabilirler.

Link to this sectionSıfır Örnekli Öğrenme (ZSL)#

Sıfır örnekli öğrenme (ZSL), yapay zeka modellerinin özel olarak eğitilmedikleri yeni, daha önce görmedikleri görevleri ele almasını sağlayan bir makine öğrenmesi yöntemidir. Bunu, modelin zaten bildiklerini (görülen sınıflar) yeni, görülmemiş kategorilere bağlamak için açıklamalar veya anlamsal ilişkiler gibi ekstra bilgiler kullanarak yapar.

In natural language processing, ZSL helps models understand and work with topics they haven’t been trained on by relying on relationships between words and concepts. Similarly, in computer vision, ZSL allows models to recognize objects or scenes they’ve never encountered before by linking visual features, like wings or feathers, to known concepts, such as birds.

ZSL, dil anlama yeteneğini görsel tanımayla birleştirerek NLP ve CV'yi bağlar ve bu da onu her ikisini de içeren görevler için özellikle kullanışlı kılar. Örneğin, görsel soru cevaplamada bir model, doğru bir yanıt vermek için ilgili bir soruyu anlarken görseli analiz edebilir. Ayrıca görsel altyazılama gibi görevler için de yararlıdır.

Link to this sectionÖne çıkanlar#

Doğal dil işleme ve bilgisayarlı görüyü bir araya getirmek, hem metni hem de görselleri anlayabilen yapay zeka sistemlerinin ortaya çıkmasını sağladı. Bu kombinasyon, sürücüsüz araçların yol tabelalarını okumasına yardımcı olmaktan tıbbi teşhisleri iyileştirmeye ve sosyal medyayı daha güvenli hale getirmeye kadar birçok endüstride kullanılıyor. Bu teknolojiler geliştikçe, hayatı kolaylaştırmaya ve çok çeşitli alanlarda yeni fırsatlar sunmaya devam edecekler. Daha fazla bilgi edinmek için GitHub depomuzu ziyaret et ve topluluğumuzla etkileşime geç. Çözümler sayfalarımızda sürücüsüz araçlar ve tarım alanındaki yapay zeka uygulamalarını keşfet. 🚀

Explore solutions

Real-time AI that works with your team

Robotikte AI

Daha akıllı makineleri Ultralytics YOLO modelleriyle destekle. Robotikteki Vision AI; otonom navigasyonu, algılamayı, nesne takibini ve gerçek zamanlı kontrolü yönlendirir.

Daha fazla bilgi edin
Real-time AI that works with your team

Lojistikte Yapay Zeka

Ultralytics YOLO modelleri ile lojistiği kolaylaştır. Görü Yapay Zekası; paket inceleme, ayıklama, araç takibi ve gerçek zamanlı depo güvenliği izlemeyi mümkün kılar.

Daha fazla bilgi edin
Real-time AI that works with your team

Perakendede AI

Perakendeyi Ultralytics YOLO modelleri ile yeniden hayal et. Görü Yapay Zekası; envanter takibi, raf izleme, sıra yönetimi ve daha akıllı müşteri içgörüleri sağlar.

Daha fazla bilgi edin
Real-time AI that works with your team

Sağlıkta Yapay Zeka

Ultralytics YOLO modelleriyle sağlık çözümleri oluştur. Sağlıkta görüntü tabanlı yapay zeka; daha hızlı tıbbi görüntülemeyi, daha akıllı teşhisleri ve hasta izlemeyi güçlendirir.

Daha fazla bilgi edin
Real-time AI that works with your team

Üretimde Yapay Zeka

Ultralytics YOLO modelleri ile üretimi optimize et. Görü Yapay Zekası; kalite kontrol, kusur tespiti, KKD uyumu ve montaj hattı otomasyonunu yönlendirir.

Daha fazla bilgi edin
Real-time AI that works with your operation

Otomotivde yapay zeka

Ultralytics YOLO modelleriyle otomotivde bilgisayarlı görü uygula. Görüntü tabanlı yapay zeka; yol güvenliğini, sürücü yardımını ve araç otomasyonunu daha akıllı yollar için geliştirir.

Daha fazla bilgi edin
Real-time AI tailored to your operation

Tarımda yapay zeka

Ultralytics YOLO modelleriyle akıllı tarıma görüntü tabanlı yapay zeka getir. Daha yüksek ve akıllı verimler için mahsul takibini, hayvancılık izlemeyi ve hassas tarımı güçlendir.

Daha fazla bilgi edin
Real-time AI that works with your team

Robotikte AI

Daha akıllı makineleri Ultralytics YOLO modelleriyle destekle. Robotikteki Vision AI; otonom navigasyonu, algılamayı, nesne takibini ve gerçek zamanlı kontrolü yönlendirir.

Daha fazla bilgi edin
Real-time AI that works with your team

Lojistikte Yapay Zeka

Ultralytics YOLO modelleri ile lojistiği kolaylaştır. Görü Yapay Zekası; paket inceleme, ayıklama, araç takibi ve gerçek zamanlı depo güvenliği izlemeyi mümkün kılar.

Daha fazla bilgi edin
Real-time AI that works with your team

Perakendede AI

Perakendeyi Ultralytics YOLO modelleri ile yeniden hayal et. Görü Yapay Zekası; envanter takibi, raf izleme, sıra yönetimi ve daha akıllı müşteri içgörüleri sağlar.

Daha fazla bilgi edin
Real-time AI that works with your team

Sağlıkta Yapay Zeka

Ultralytics YOLO modelleriyle sağlık çözümleri oluştur. Sağlıkta görüntü tabanlı yapay zeka; daha hızlı tıbbi görüntülemeyi, daha akıllı teşhisleri ve hasta izlemeyi güçlendirir.

Daha fazla bilgi edin
Real-time AI that works with your team

Üretimde Yapay Zeka

Ultralytics YOLO modelleri ile üretimi optimize et. Görü Yapay Zekası; kalite kontrol, kusur tespiti, KKD uyumu ve montaj hattı otomasyonunu yönlendirir.

Daha fazla bilgi edin
Real-time AI that works with your operation

Otomotivde yapay zeka

Ultralytics YOLO modelleriyle otomotivde bilgisayarlı görü uygula. Görüntü tabanlı yapay zeka; yol güvenliğini, sürücü yardımını ve araç otomasyonunu daha akıllı yollar için geliştirir.

Daha fazla bilgi edin
Real-time AI tailored to your operation

Tarımda yapay zeka

Ultralytics YOLO modelleriyle akıllı tarıma görüntü tabanlı yapay zeka getir. Daha yüksek ve akıllı verimler için mahsul takibini, hayvancılık izlemeyi ve hassas tarımı güçlendir.

Daha fazla bilgi edin
Real-time AI that works with your team

Robotikte AI

Daha akıllı makineleri Ultralytics YOLO modelleriyle destekle. Robotikteki Vision AI; otonom navigasyonu, algılamayı, nesne takibini ve gerçek zamanlı kontrolü yönlendirir.

Daha fazla bilgi edin
Real-time AI that works with your team

Lojistikte Yapay Zeka

Ultralytics YOLO modelleri ile lojistiği kolaylaştır. Görü Yapay Zekası; paket inceleme, ayıklama, araç takibi ve gerçek zamanlı depo güvenliği izlemeyi mümkün kılar.

Daha fazla bilgi edin
Real-time AI that works with your team

Perakendede AI

Perakendeyi Ultralytics YOLO modelleri ile yeniden hayal et. Görü Yapay Zekası; envanter takibi, raf izleme, sıra yönetimi ve daha akıllı müşteri içgörüleri sağlar.

Daha fazla bilgi edin
Real-time AI that works with your team

Sağlıkta Yapay Zeka

Ultralytics YOLO modelleriyle sağlık çözümleri oluştur. Sağlıkta görüntü tabanlı yapay zeka; daha hızlı tıbbi görüntülemeyi, daha akıllı teşhisleri ve hasta izlemeyi güçlendirir.

Daha fazla bilgi edin
Real-time AI that works with your team

Üretimde Yapay Zeka

Ultralytics YOLO modelleri ile üretimi optimize et. Görü Yapay Zekası; kalite kontrol, kusur tespiti, KKD uyumu ve montaj hattı otomasyonunu yönlendirir.

Daha fazla bilgi edin
Real-time AI that works with your operation

Otomotivde yapay zeka

Ultralytics YOLO modelleriyle otomotivde bilgisayarlı görü uygula. Görüntü tabanlı yapay zeka; yol güvenliğini, sürücü yardımını ve araç otomasyonunu daha akıllı yollar için geliştirir.

Daha fazla bilgi edin
Real-time AI tailored to your operation

Tarımda yapay zeka

Ultralytics YOLO modelleriyle akıllı tarıma görüntü tabanlı yapay zeka getir. Daha yüksek ve akıllı verimler için mahsul takibini, hayvancılık izlemeyi ve hassas tarımı güçlendir.

Daha fazla bilgi edin

Yapay zekanın geleceğini birlikte inşa edelim!

Yolculuğuna makine öğreniminin geleceğiyle başla