YOLO26 ile tanış: yeni nesil görsel AI.
Ultralytics
Ultralytics Sözlüğüne dön

Multi-Modal Model

Çok modlu modellerin metin, görüntü ve sesi nasıl entegre ettiğini keşfet. Ultralytics YOLO26 gibi mimariler hakkında bilgi edin ve Ultralytics Platformunda görüntü yapay zekasını dağıt.

Çok modlu bir model, birden fazla farklı veri türünü veya "modları" aynı anda işleme, yorumlama ve entegre etme yeteneğine sahip gelişmiş bir yapay zeka (YZ) sistemidir. Geleneksel tek modlu sistemler metin için Doğal Dil İşleme (NLP) veya görüntüler için Bilgisayarlı Görü (CV) gibi tek bir alanda uzmanlaşırken, çok modlu modeller görsel, işitsel ve dilsel ipuçlarını birleştirerek insan algısını taklit etmeyi amaçlar. Bu yakınsama, modelin dünyayı kapsamlı bir şekilde anlamasını sağlayarak görsel bir sahne ile sözlü bir açıklama arasında karmaşık korelasyonlar kurmasına imkan tanır. Bu yetenekler, Yapay Genel Zeka (AGI) hedefine ulaşma yolunda temel adımlar olarak kabul edilir.

Link to this sectionTemel Mekanizmalar ve Mimari#

Çok modlu bir modelin etkinliği, farklı veri türlerini ortak bir anlamsal uzaya eşleme yeteneğine dayanır. Bu süreç, tipik olarak girdi verilerinin temel anlamını yakalayan sayısal temsiller olan yerleştirmelerin (embeddings) oluşturulmasıyla başlar. Model, altyazılı videolar gibi eşleştirilmiş örneklerden oluşan devasa veri kümeleri üzerinde eğitilerek, bir "kedi" görüntüsünün vektör temsili ile "kedi" kelimesinin metin yerleştirmesini hizalamayı öğrenir.

Bu entegrasyonu mümkün kılan birkaç temel mimari kavram şunlardır:

  • Transformer Mimarisi: Birçok çok modlu sistem, farklı girdi bölümlerinin önemini dinamik olarak tartmak için dikkat mekanizmalarını (attention mechanisms) kullanan transformer'lardan yararlanır. Bu, modelin bir metin istemindeki ilgili kelimelere karşılık gelen belirli görüntü bölgelerine odaklanmasını sağlar; bu kavram, çığır açan "Attention Is All You Need" adlı araştırma makalesinde detaylandırılmıştır.
  • Veri Füzyonu: Bu, farklı kaynaklardan gelen bilgileri birleştirme stratejisini ifade eder. Sensör füzyonu, ham verilerin erken aşamada birleştirilmesiyle veya ayrı alt modellerin kararlarının geç aşamada birleştirilmesiyle gerçekleşebilir. PyTorch gibi modern çerçeveler, bu karmaşık iş akışlarını oluşturmak için gereken esnekliği sağlar.
  • Karşıtlıklı Öğrenme (Contrastive Learning): OpenAI CLIP gibi modeller tarafından kullanılan teknikler, sistemi vektör uzayındaki eşleşen metin-görüntü çiftleri arasındaki mesafeyi en aza indirirken, eşleşmeyen çiftler arasındaki mesafeyi en üst düzeye çıkaracak şekilde eğitir.

Link to this sectionGerçek Dünya Uygulamaları#

Çok modlu modeller, tek modlu sistemlerin daha önce elde etmesinin imkansız olduğu yeteneklerin kilidini açmıştır.

  • Görsel Soru Cevaplama (VQA): Bu sistemler, kullanıcıların bir görüntü hakkında doğal dilde sorular sormasına olanak tanır. Örneğin, görme engelli bir kullanıcı bir kilerin fotoğrafını yükleyip "Üst rafta bir kutu çorba var mı?" diye sorabilir. Model, öğeleri tanımlamak için nesne algılamayı (object detection) ve sorguyu anlamak için NLP'yi kullanarak faydalı bir yanıt sunar.
  • Otonom Araçlar: Sürücüsüz araçlar, gerçek zamanlı çok modlu ajanlar olarak işlev görür. Kameralardan gelen görsel verileri, LiDAR'dan gelen derinlik bilgilerini ve radardan gelen hız verilerini birleştirirler. Bu yedeklilik, bir sensörün hava durumu nedeniyle engellenmesi durumunda diğerlerinin yol güvenliğini sürdürebilmesini sağlar.
  • Açık Sözlüklü Algılama (Open-Vocabulary Detection): Ultralytics YOLO-World gibi modeller, kullanıcıların sabit bir sınıf listesi yerine rastgele metin istemleri kullanarak nesneleri algılamasına olanak tanır. Bu, dilsel komutlar ile görsel tanıma arasındaki boşluğu doldurur.

Link to this sectionÖrnek: Açık Sözlüklü Algılama#

Aşağıdaki örnek, modelin bir görüntüdeki nesneleri tanımlamak için metin istemlerini yorumladığı açık sözlüklü algılamayı gerçekleştirmek amacıyla ultralytics kütüphanesinin nasıl kullanılacağını gösterir:

from ultralytics import YOLOWorld

# Load a pre-trained YOLO-World model capable of vision-language understanding
model = YOLOWorld("yolov8s-world.pt")

# Define custom classes using natural language text prompts
model.set_classes(["person wearing a hat", "blue backpack"])

# Run inference: The model aligns text prompts with visual features
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Visualize the detection results
results[0].show()

Link to this sectionİlgili Terimlerden Farklar#

"Çok Modlu Model" kavramını YZ sözlüğündeki ilgili terimlerden ayırmak faydalıdır:

  • Çok Modlu Öğrenme (Multi-Modal Learning): Bu, bu sistemleri eğitmek için kullanılan süreci ve makine öğrenimi (ML) tekniklerini ifade eder. Çok modlu model, bu öğrenme sürecinin sonucunda ortaya çıkan ürün veya yazılımdır.
  • Büyük Dil Modelleri (LLMs): Geleneksel LLM'ler sadece metin işler. Birçoğu Görsel-Dil Modellerine (VLM) dönüşse de, standart bir LLM tek modludur.
  • Temel Modeller (Foundation Models): Bu, birçok alt göreve uyarlanabilen büyük ölçekli modelleri tanımlayan daha geniş bir kategoridir. Çok modlu bir model genellikle bir temel model olsa da, tüm temel modeller birden fazla modu yönetmez.

Link to this sectionÇok Modlu YZ'nin Geleceği#

Alan, sürekli ses, video ve metin akışlarını gerçek zamanlı olarak işleyebilen sistemlere doğru hızla ilerlemektedir. Google DeepMind gibi kuruluşlardan gelen araştırmalar, makine algısının sınırlarını zorlamaya devam ediyor. Ultralytics olarak, YOLO26 gibi yüksek performanslı görsel omurgalarla bu ekosistemi destekliyoruz. 2026'da piyasaya sürülen YOLO26, örnek segmentasyonu (instance segmentation) gibi görevler için üstün hız ve doğruluk sunarak daha büyük çok modlu boru hatlarında verimli bir görsel bileşen görevi görüyor. Geliştiriciler, birleşik Ultralytics Platform'u kullanarak bu karmaşık iş akışlarının verilerini, eğitimini ve dağıtımını yönetebilirler.

Explore solutions

Real-time AI that works with your team

Robotikte AI

Daha akıllı makineleri Ultralytics YOLO modelleriyle destekle. Robotikteki Vision AI; otonom navigasyonu, algılamayı, nesne takibini ve gerçek zamanlı kontrolü yönlendirir.

Daha fazla bilgi edin
Real-time AI that works with your team

Lojistikte Yapay Zeka

Ultralytics YOLO modelleri ile lojistiği kolaylaştır. Görü Yapay Zekası; paket inceleme, ayıklama, araç takibi ve gerçek zamanlı depo güvenliği izlemeyi mümkün kılar.

Daha fazla bilgi edin
Real-time AI that works with your team

Perakendede AI

Perakendeyi Ultralytics YOLO modelleri ile yeniden hayal et. Görü Yapay Zekası; envanter takibi, raf izleme, sıra yönetimi ve daha akıllı müşteri içgörüleri sağlar.

Daha fazla bilgi edin
Real-time AI that works with your team

Sağlıkta Yapay Zeka

Ultralytics YOLO modelleriyle sağlık çözümleri oluştur. Sağlıkta görüntü tabanlı yapay zeka; daha hızlı tıbbi görüntülemeyi, daha akıllı teşhisleri ve hasta izlemeyi güçlendirir.

Daha fazla bilgi edin
Real-time AI that works with your team

Üretimde Yapay Zeka

Ultralytics YOLO modelleri ile üretimi optimize et. Görü Yapay Zekası; kalite kontrol, kusur tespiti, KKD uyumu ve montaj hattı otomasyonunu yönlendirir.

Daha fazla bilgi edin
Real-time AI that works with your operation

Otomotivde yapay zeka

Ultralytics YOLO modelleriyle otomotivde bilgisayarlı görü uygula. Görüntü tabanlı yapay zeka; yol güvenliğini, sürücü yardımını ve araç otomasyonunu daha akıllı yollar için geliştirir.

Daha fazla bilgi edin
Real-time AI tailored to your operation

Tarımda yapay zeka

Ultralytics YOLO modelleriyle akıllı tarıma görüntü tabanlı yapay zeka getir. Daha yüksek ve akıllı verimler için mahsul takibini, hayvancılık izlemeyi ve hassas tarımı güçlendir.

Daha fazla bilgi edin
Real-time AI that works with your team

Robotikte AI

Daha akıllı makineleri Ultralytics YOLO modelleriyle destekle. Robotikteki Vision AI; otonom navigasyonu, algılamayı, nesne takibini ve gerçek zamanlı kontrolü yönlendirir.

Daha fazla bilgi edin
Real-time AI that works with your team

Lojistikte Yapay Zeka

Ultralytics YOLO modelleri ile lojistiği kolaylaştır. Görü Yapay Zekası; paket inceleme, ayıklama, araç takibi ve gerçek zamanlı depo güvenliği izlemeyi mümkün kılar.

Daha fazla bilgi edin
Real-time AI that works with your team

Perakendede AI

Perakendeyi Ultralytics YOLO modelleri ile yeniden hayal et. Görü Yapay Zekası; envanter takibi, raf izleme, sıra yönetimi ve daha akıllı müşteri içgörüleri sağlar.

Daha fazla bilgi edin
Real-time AI that works with your team

Sağlıkta Yapay Zeka

Ultralytics YOLO modelleriyle sağlık çözümleri oluştur. Sağlıkta görüntü tabanlı yapay zeka; daha hızlı tıbbi görüntülemeyi, daha akıllı teşhisleri ve hasta izlemeyi güçlendirir.

Daha fazla bilgi edin
Real-time AI that works with your team

Üretimde Yapay Zeka

Ultralytics YOLO modelleri ile üretimi optimize et. Görü Yapay Zekası; kalite kontrol, kusur tespiti, KKD uyumu ve montaj hattı otomasyonunu yönlendirir.

Daha fazla bilgi edin
Real-time AI that works with your operation

Otomotivde yapay zeka

Ultralytics YOLO modelleriyle otomotivde bilgisayarlı görü uygula. Görüntü tabanlı yapay zeka; yol güvenliğini, sürücü yardımını ve araç otomasyonunu daha akıllı yollar için geliştirir.

Daha fazla bilgi edin
Real-time AI tailored to your operation

Tarımda yapay zeka

Ultralytics YOLO modelleriyle akıllı tarıma görüntü tabanlı yapay zeka getir. Daha yüksek ve akıllı verimler için mahsul takibini, hayvancılık izlemeyi ve hassas tarımı güçlendir.

Daha fazla bilgi edin
Real-time AI that works with your team

Robotikte AI

Daha akıllı makineleri Ultralytics YOLO modelleriyle destekle. Robotikteki Vision AI; otonom navigasyonu, algılamayı, nesne takibini ve gerçek zamanlı kontrolü yönlendirir.

Daha fazla bilgi edin
Real-time AI that works with your team

Lojistikte Yapay Zeka

Ultralytics YOLO modelleri ile lojistiği kolaylaştır. Görü Yapay Zekası; paket inceleme, ayıklama, araç takibi ve gerçek zamanlı depo güvenliği izlemeyi mümkün kılar.

Daha fazla bilgi edin
Real-time AI that works with your team

Perakendede AI

Perakendeyi Ultralytics YOLO modelleri ile yeniden hayal et. Görü Yapay Zekası; envanter takibi, raf izleme, sıra yönetimi ve daha akıllı müşteri içgörüleri sağlar.

Daha fazla bilgi edin
Real-time AI that works with your team

Sağlıkta Yapay Zeka

Ultralytics YOLO modelleriyle sağlık çözümleri oluştur. Sağlıkta görüntü tabanlı yapay zeka; daha hızlı tıbbi görüntülemeyi, daha akıllı teşhisleri ve hasta izlemeyi güçlendirir.

Daha fazla bilgi edin
Real-time AI that works with your team

Üretimde Yapay Zeka

Ultralytics YOLO modelleri ile üretimi optimize et. Görü Yapay Zekası; kalite kontrol, kusur tespiti, KKD uyumu ve montaj hattı otomasyonunu yönlendirir.

Daha fazla bilgi edin
Real-time AI that works with your operation

Otomotivde yapay zeka

Ultralytics YOLO modelleriyle otomotivde bilgisayarlı görü uygula. Görüntü tabanlı yapay zeka; yol güvenliğini, sürücü yardımını ve araç otomasyonunu daha akıllı yollar için geliştirir.

Daha fazla bilgi edin
Real-time AI tailored to your operation

Tarımda yapay zeka

Ultralytics YOLO modelleriyle akıllı tarıma görüntü tabanlı yapay zeka getir. Daha yüksek ve akıllı verimler için mahsul takibini, hayvancılık izlemeyi ve hassas tarımı güçlendir.

Daha fazla bilgi edin

Yapay zekanın geleceğini birlikte inşa edelim!

Yolculuğuna makine öğreniminin geleceğiyle başla