Yolo Vision Shenzhen
Shenzhen
Şimdi katılın
Sözlük

Çok Modlu Yapay Zeka

Multimodal AI'yı ve bağlam farkında anlayış için metin ve görseli nasıl entegre ettiğini keşfedin. Ultralytics ve açık sözlük modellerini kullanmayı bugün öğrenin.

Multimodal AI, birden fazla farklı veri türünden veya "modaliteden" gelen bilgileri aynı anda işlemek, yorumlamak ve sentezlemek için tasarlanmış gelişmiş bir yapay zeka (AI) sistemi türüdür. Tek bir girdi kaynağına odaklanan geleneksel unimodal sistemlerin aksine —örneğin doğal dil işleme (NLP) veya görüntüler için bilgisayar görme (CV) gibi, multimodal AI çeşitli veri akışlarını entegre ederek insan algısını taklit eder. Bu entegrasyon, görsel verileri (görüntüler, video) dilbilimsel verilerle (metin, sesli kayıt) ve duyusal bilgilerle (LiDAR, radar, termal) birleştirmeyi içerebilir. Bu birleştirilmiş girdilerden yararlanarak, bu modeller karmaşık gerçek dünya senaryolarını daha derin ve bağlamsal olarak daha iyi anlar ve genel yapay zeka (AGI) kapasitesine daha da yaklaşır.

Çok Modlu Sistemler Nasıl Çalışır?

Multimodal AI'nın temel gücü, farklı veri türlerini karşılaştırılabilecek ve birleştirilebilecek ortak bir matematiksel alana haritalama yeteneğinde yatmaktadır. Bu süreç genellikle üç temel aşamadan oluşur: kodlama, hizalama ve birleştirme.

  1. Özellik Çıkarma: Özel sinir ağları, temel kalıpları tanımlamak için her bir modaliteyi bağımsız olarak işler. Örneğin, bir Convolutional Neural Network (CNN) bir fotoğraftan görsel özellikleri çıkarabilirken, bir Transformer eşlik eden başlığı işler.
  2. Hizalama ve Gömme: Çıkarılan özellikler yüksek boyutlu sayısal vektörlere dönüştürülür. Model, bu vektörleri hizalamayı öğrenir, böylece anlamsal olarak benzer kavramlar (örneğin, bir kedi resmi ve "kedi" kelimesi) vektör uzayında birbirine yakın konumlanır. Bu genellikle, OpenAI'nin CLIP gibi modellerde yaygın olarak kullanılan karşılaştırmalı öğrenme gibi tekniklerle gerçekleştirilir.
  3. Veri Birleştirme: Sistem, gelişmiş birleştirme tekniklerini kullanarak hizalanmış verileri birleştirir. Modern mimariler, bağlama bağlı olarak bir modalitenin diğerine göre önemini dinamik olarak değerlendirmek için dikkat mekanizmaları kullanır. Bu sayede, görüntü belirsiz olduğunda model metne odaklanabilir veya tam tersi de geçerlidir.

Gerçek Dünya Uygulamaları

Multimodal AI, tek modlu sistemlerle daha önce imkansız olan yetenekleri ortaya çıkarmış ve çeşitli endüstrilerde yenilikçiliği teşvik etmiştir.

  • Görsel Soru Yanıtlama (VQA): Bu uygulamada, kullanıcı bir AI'ya bir görüntü sunabilir ve bununla ilgili doğal dilde sorular sorabilir. Örneğin, görme engelli bir kullanıcı bir kiler fotoğrafı yükleyip "Makarna kaldı mı?" diye sorabilir. Model, görsel içeriği ve metin sorgusunu işleyerek belirli bir yanıt verir.
  • Otonom Araçlar: Otonom araçlar, güvenli bir şekilde seyir etmek için kameralar, LiDAR nokta bulutları ve radardan gelen verileri birleştiren çok modlu girdilere büyük ölçüde dayanır. Bu yedeklilik, bir sensör arızalandığında (örneğin, güneş parlaması nedeniyle kamera kör olduğunda), diğer sensörlerin Otomotiv Mühendisleri Derneği (SAE) tarafından tanımlanan güvenlik standartlarını korumasını sağlar.
  • Sağlık Teşhisi: Gelişmiş tıbbi yapay zeka sistemleri, tıbbi görüntü analizlerini (MRG veya X-ışınları gibi) yapılandırılmamış metin biçimindeki hasta geçmişi ve genetik verilerle birlikte analiz eder. Bu kapsamlı bakış açısı, doktorların daha doğru teşhisler koymasına yardımcı olur. Bu konu, Nature Digital Medicine dergisinde sık sık tartışılan bir konudur.
  • Üretken AI: Metin komutlarından görüntüler oluşturan araçlar, örneğin Stable Diffusion, tamamen modelin dilsel açıklamalar ile görsel dokular arasındaki ilişkiyi anlama yeteneğine dayanır.

Ultralytics ile Açık Kelime Dağarcığı Algılama

Standart nesne algılayıcıları önceden tanımlanmış kategori listelerine dayanırken, YOLO gibi çok modlu yaklaşımlar, kullanıcıların açık sözcük dağarcığı metin komutlarını kullanarak detect olanak tanır. Bu, Ultralytics dilsel komutlar ile görsel tanıma arasındaki boşluğu doldurur.

Aşağıdaki örnekte, aşağıdakilerin nasıl kullanılacağı gösterilmektedir ultralytics açık kelime dağarcığı gerçekleştirmek için kütüphane modelin özel metin girdilerine dayalı olarak nesneleri algıladığı algılama:

from ultralytics import YOLOWorld

# Load a pretrained YOLO-World model (Multimodal: Text + Vision)
model = YOLOWorld("yolov8s-world.pt")

# Define custom text prompts (modalities) for the model to identify
model.set_classes(["person wearing a red hat", "blue backpack"])

# Run inference: The model aligns the text prompts with visual features
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Show the results
results[0].show()

İlgili Terimleri Ayırt Etme

Modern makine öğreniminin dünyasında yolunuzu bulmak için, "Multimodal AI"yı ilgili kavramlardan ayırmak faydalıdır: :

  • Çok Modlu Öğrenme: Bu karışık veri türleri üzerinde algoritmaları eğitmenin akademik disiplini ve metodolojisini ifade eder. "Çok modlu yapay zeka" genellikle pratik uygulamayı veya ortaya çıkan sistemin kendisini ifade eder.
  • Büyük Dil Modelleri (LLM'ler): Geleneksel LLM'ler tek modeldir ve yalnızca metin verileri üzerinde eğitilir. Ancak sektör, görüntüleri ve metinleri doğal olarak işleyebilen "Büyük Çok Modlu Modeller"e (LMM'ler) doğru kaymaktadır. Bu eğilim, PyTorch PyTorch ve TensorFlowgibi çerçeveler tarafından desteklenmektedir.
  • Özel Görme Modelleri: Son teknoloji ürünü Ultralytics gibi modeller, görsel görevlerde son derece uzmanlaşmış uzmanlardır. Genel bir multimodal model bir sahneyi genel olarak tanımlayabilirken, özel modeller yüksek hızda, hassas nesne algılama ve kenar donanımında gerçek zamanlı işleme konusunda mükemmeldir.

Geleceğe Bakış

Çok modlu yapay zekanın gidişatı, daha fazla muhakeme yeteneğine sahip sistemlere işaret ediyor. Dili görsel ve fiziksel gerçekliğe başarıyla dayandırarak, bu modeller istatistiksel korelasyonun ötesine geçerek gerçek bir anlayışa doğru ilerliyor. Google ve Stanford Center for Research on Foundation Models gibi kurumların araştırmaları, makinelerin karmaşık ortamları algılama yöntemlerinin sınırlarını zorlamaya devam ediyor.

Ultralytics olarak, bu gelişmeleri Ultralytics entegre ederek, kullanıcıların verileri yönetmelerine, modelleri eğitmelerine ve YOLO26'nın hızını multimodal girdilerin çok yönlülüğüyle birleştirerek, mevcut tüm modaliteleri kullanan çözümleri uygulamalarına olanak tanıyoruz. Ultralytics Ultralytics , kullanıcıların verileri yönetmelerine, modelleri eğitmelerine ve multimodal girdilerin çok yönlülüğüyle YOLO26'nın hızını birleştirerek mevcut tüm modaliteleri kullanan çözümleri uygulamalarına olanak tanıyor.

Ultralytics topluluğuna katılın

Yapay zekanın geleceğine katılın. Küresel yenilikçilerle bağlantı kurun, işbirliği yapın ve birlikte büyüyün

Şimdi katılın