YOLO26 ile tanış: yeni nesil görsel AI.
Ultralytics
Ultralytics Sözlüğüne dön

Multimodal AI

Çok modlu yapay zekayı ve bağlama duyarlı anlama için metin ile görüntüyü nasıl entegre ettiğini keşfet. Ultralytics YOLO26'yı ve açık kelime dağarcıklı modelleri bugün kullanmayı öğren.

Çok Modlu Yapay Zeka, birden fazla farklı veri türünü veya "modaliteyi" aynı anda işlemek, yorumlamak ve sentezlemek için tasarlanmış gelişmiş bir yapay zeka (AI) sistemi sınıfını ifade eder. Metin için Doğal Dil İşleme (NLP) veya görüntüler için Bilgisayarlı Görü (CV) gibi tek bir girdi kaynağında uzmanlaşan geleneksel tek modlu sistemlerin aksine, çok modlu yapay zeka çeşitli veri akışlarını entegre ederek insan algısını taklit eder. Bu entegrasyon; görsel verileri (görüntüler, video), dilsel veriler (metin, konuşma sesi) ve duyusal bilgilerle (LiDAR, radar, termal) birleştirmeyi içerebilir. Bu birleşik girdilerden yararlanan modeller, Yapay Genel Zeka (AGI) kapsamındaki geniş yeteneklere yaklaşarak karmaşık gerçek dünya senaryoları hakkında daha derin ve bağlama duyarlı bir anlayışa ulaşırlar.

Link to this sectionÇok Modlu Sistemler Nasıl Çalışır#

Çok modlu yapay zekanın temel gücü, farklı veri türlerini karşılaştırılabilecekleri ve birleştirilebilecekleri ortak bir matematiksel alana eşleme yeteneğinde yatar. Bu süreç genellikle üç ana aşamayı içerir: kodlama, hizalama ve füzyon.

  1. Öznitelik Çıkarımı: Uzmanlaşmış sinir ağları, temel kalıpları tanımlamak için her bir modaliteyi bağımsız olarak işler. Örneğin, bir Evrişimli Sinir Ağı (CNN) bir fotoğraftan görsel öznitelikler çıkarırken, bir Transformer eşlik eden açıklamayı işleyebilir.

  2. Alignment and Embeddings: The extracted features are converted into high-dimensional numerical vectors. The model learns to align these vectors so that semantically similar concepts (e.g., an image of a cat and the text word "cat") are located close to each other in the vector space. This is often achieved through techniques like contrastive learning, a method famously utilized in models like OpenAI's CLIP.

  3. Veri Füzyonu: Sistem, hizalanmış verileri gelişmiş füzyon tekniklerini kullanarak birleştirir. Modern mimariler, bağlama bağlı olarak bir modalitenin önemini diğerine göre dinamik olarak tartmak için dikkat mekanizmalarını kullanır; bu da modelin görüntü belirsiz olduğunda metne odaklanmasını veya tam tersini sağlar.

Link to this sectionGerçek Dünya Uygulamaları#

Çok Modlu Yapay Zeka, tek modlu sistemlerle daha önce imkansız olan yeteneklerin kilidini açarak çeşitli endüstrilerde inovasyonu desteklemektedir.

  • Görsel Soru Cevaplama (VQA): Bu uygulamada kullanıcı, bir yapay zekaya görüntü sunabilir ve bunun hakkında doğal dilde sorular sorabilir. Örneğin, görme engelli bir kullanıcı bir kilerinin fotoğrafını yükleyip "Hiç makarna kalmış mı?" diye sorabilir. Model, görsel içeriği ve metinsel sorguyu işleyerek belirli bir cevap sağlar.
  • Otonom Araçlar: Sürücüsüz arabalar, güvenli bir şekilde gezinmek için kameralardan, LiDAR nokta bulutlarından ve radarlardan gelen verileri birleştirerek çok modlu girdilere büyük ölçüde güvenir. Bu yedeklilik, bir sensörün başarısız olması durumunda (örneğin, güneş parlamasıyla körleşen bir kamera), diğerlerinin Otomotiv Mühendisleri Topluluğu (SAE) tarafından tanımlanan güvenlik standartlarını korumasını sağlar.
  • Sağlık Teşhisi: Gelişmiş tıbbi yapay zeka sistemleri, yapılandırılmamış metinsel hasta geçmişi ve genetik verilerle birlikte tıbbi görüntü analizi (MRI veya röntgen gibi) verilerini analiz eder. Bu kapsamlı görünüm, doktorların daha doğru teşhisler koymasına yardımcı olur; bu konu Nature Digital Medicine'de sıkça tartışılmaktadır.
  • Üretken AI: Stable Diffusion gibi metin komutlarından görüntüler oluşturan araçlar, tamamen modelin dilsel tanımlar ile görsel dokular arasındaki ilişkiyi anlama yeteneğine dayanır.

Link to this sectionUltralytics ile Açık Kelime Dağarcıklı Tespit#

Standart nesne tespit ediciler önceden tanımlanmış kategori listelerine güvenirken, YOLO-World gibi çok modlu yaklaşımlar, kullanıcıların açık kelime dağarcıklı metin istemlerini kullanarak nesneleri tespit etmelerini sağlar. Bu, Ultralytics ekosistemi içinde dilsel komutlar ile görsel tanıma arasındaki boşluğu kapatır.

Aşağıdaki örnek, modelin özel metin girdilerine dayalı olarak nesneleri tespit ettiği açık kelime dağarcıklı tespiti gerçekleştirmek için ultralytics kütüphanesinin nasıl kullanılacağını gösterir:

from ultralytics import YOLOWorld

# Load a pretrained YOLO-World model (Multimodal: Text + Vision)
model = YOLOWorld("yolov8s-world.pt")

# Define custom text prompts (modalities) for the model to identify
model.set_classes(["person wearing a red hat", "blue backpack"])

# Run inference: The model aligns the text prompts with visual features
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Show the results
results[0].show()

Link to this sectionİlgili Terimlerin Ayrıştırılması#

Modern makine öğrenimi ortamında gezinmek için "Çok Modlu Yapay Zeka"yı ilgili kavramlardan ayırt etmek faydalıdır:

  • Çok Modlu Öğrenme: Bu, algoritmaları karışık veri türleri üzerinde eğitmenin akademik disiplinini ve metodolojisini ifade eder. "Çok Modlu Yapay Zeka" ise genellikle pratik uygulamayı veya ortaya çıkan sistemin kendisini ifade eder.
  • Büyük Dil Modelleri (LLM'ler): Geleneksel LLM'ler tek modludur ve yalnızca metin verileri üzerinde eğitilmişlerdir. Ancak endüstri, PyTorch ve TensorFlow gibi çerçeveler tarafından desteklenen bir trendle, görüntüleri ve metni yerel olarak işleyebilen "Büyük Çok Modlu Modellere" (LMM'ler) doğru kaymaktadır.
  • Uzmanlaşmış Görü Modelleri: En son teknoloji ürünü Ultralytics YOLO26 gibi modeller, görsel görevlerde son derece uzmanlaşmış uzmanlardır. Genel bir çok modlu model bir sahneyi geniş bir şekilde tanımlayabilirken, uzmanlaşmış modeller yüksek hızlı, hassas nesne tespiti ve uç donanım üzerinde gerçek zamanlı işleme konusunda mükemmeldir.

Link to this sectionGelecek Görünümü#

Çok modlu yapay zekanın yörüngesi, daha yüksek muhakeme yeteneklerine sahip sistemlere işaret ediyor. Dili görsel ve fiziksel gerçekliğe başarıyla dayandırarak, bu modeller istatistiksel korelasyonun ötesine geçip gerçek bir anlayışa doğru ilerliyor. Google DeepMind ve Stanford Temel Modeller Araştırma Merkezi gibi kurumlardan gelen araştırmalar, makinelerin karmaşık ortamları nasıl algıladığının sınırlarını zorlamaya devam ediyor.

Ultralytics'te, bu ilerlemeleri Ultralytics Platform'a entegre ediyoruz; bu sayede kullanıcıların verileri yönetmesini, modelleri eğitmesini ve YOLO26'nın hızını çok modlu girdilerin çok yönlülüğü ile birleştirerek mevcut modalite yelpazesinden tam anlamıyla yararlanan çözümler dağıtmasını sağlıyoruz.

Explore solutions

Real-time AI that works with your team

Robotikte AI

Daha akıllı makineleri Ultralytics YOLO modelleriyle destekle. Robotikteki Vision AI; otonom navigasyonu, algılamayı, nesne takibini ve gerçek zamanlı kontrolü yönlendirir.

Daha fazla bilgi edin
Real-time AI that works with your team

Lojistikte Yapay Zeka

Ultralytics YOLO modelleri ile lojistiği kolaylaştır. Görü Yapay Zekası; paket inceleme, ayıklama, araç takibi ve gerçek zamanlı depo güvenliği izlemeyi mümkün kılar.

Daha fazla bilgi edin
Real-time AI that works with your team

Perakendede AI

Perakendeyi Ultralytics YOLO modelleri ile yeniden hayal et. Görü Yapay Zekası; envanter takibi, raf izleme, sıra yönetimi ve daha akıllı müşteri içgörüleri sağlar.

Daha fazla bilgi edin
Real-time AI that works with your team

Sağlıkta Yapay Zeka

Ultralytics YOLO modelleriyle sağlık çözümleri oluştur. Sağlıkta görüntü tabanlı yapay zeka; daha hızlı tıbbi görüntülemeyi, daha akıllı teşhisleri ve hasta izlemeyi güçlendirir.

Daha fazla bilgi edin
Real-time AI that works with your team

Üretimde Yapay Zeka

Ultralytics YOLO modelleri ile üretimi optimize et. Görü Yapay Zekası; kalite kontrol, kusur tespiti, KKD uyumu ve montaj hattı otomasyonunu yönlendirir.

Daha fazla bilgi edin
Real-time AI that works with your operation

Otomotivde yapay zeka

Ultralytics YOLO modelleriyle otomotivde bilgisayarlı görü uygula. Görüntü tabanlı yapay zeka; yol güvenliğini, sürücü yardımını ve araç otomasyonunu daha akıllı yollar için geliştirir.

Daha fazla bilgi edin
Real-time AI tailored to your operation

Tarımda yapay zeka

Ultralytics YOLO modelleriyle akıllı tarıma görüntü tabanlı yapay zeka getir. Daha yüksek ve akıllı verimler için mahsul takibini, hayvancılık izlemeyi ve hassas tarımı güçlendir.

Daha fazla bilgi edin
Real-time AI that works with your team

Robotikte AI

Daha akıllı makineleri Ultralytics YOLO modelleriyle destekle. Robotikteki Vision AI; otonom navigasyonu, algılamayı, nesne takibini ve gerçek zamanlı kontrolü yönlendirir.

Daha fazla bilgi edin
Real-time AI that works with your team

Lojistikte Yapay Zeka

Ultralytics YOLO modelleri ile lojistiği kolaylaştır. Görü Yapay Zekası; paket inceleme, ayıklama, araç takibi ve gerçek zamanlı depo güvenliği izlemeyi mümkün kılar.

Daha fazla bilgi edin
Real-time AI that works with your team

Perakendede AI

Perakendeyi Ultralytics YOLO modelleri ile yeniden hayal et. Görü Yapay Zekası; envanter takibi, raf izleme, sıra yönetimi ve daha akıllı müşteri içgörüleri sağlar.

Daha fazla bilgi edin
Real-time AI that works with your team

Sağlıkta Yapay Zeka

Ultralytics YOLO modelleriyle sağlık çözümleri oluştur. Sağlıkta görüntü tabanlı yapay zeka; daha hızlı tıbbi görüntülemeyi, daha akıllı teşhisleri ve hasta izlemeyi güçlendirir.

Daha fazla bilgi edin
Real-time AI that works with your team

Üretimde Yapay Zeka

Ultralytics YOLO modelleri ile üretimi optimize et. Görü Yapay Zekası; kalite kontrol, kusur tespiti, KKD uyumu ve montaj hattı otomasyonunu yönlendirir.

Daha fazla bilgi edin
Real-time AI that works with your operation

Otomotivde yapay zeka

Ultralytics YOLO modelleriyle otomotivde bilgisayarlı görü uygula. Görüntü tabanlı yapay zeka; yol güvenliğini, sürücü yardımını ve araç otomasyonunu daha akıllı yollar için geliştirir.

Daha fazla bilgi edin
Real-time AI tailored to your operation

Tarımda yapay zeka

Ultralytics YOLO modelleriyle akıllı tarıma görüntü tabanlı yapay zeka getir. Daha yüksek ve akıllı verimler için mahsul takibini, hayvancılık izlemeyi ve hassas tarımı güçlendir.

Daha fazla bilgi edin
Real-time AI that works with your team

Robotikte AI

Daha akıllı makineleri Ultralytics YOLO modelleriyle destekle. Robotikteki Vision AI; otonom navigasyonu, algılamayı, nesne takibini ve gerçek zamanlı kontrolü yönlendirir.

Daha fazla bilgi edin
Real-time AI that works with your team

Lojistikte Yapay Zeka

Ultralytics YOLO modelleri ile lojistiği kolaylaştır. Görü Yapay Zekası; paket inceleme, ayıklama, araç takibi ve gerçek zamanlı depo güvenliği izlemeyi mümkün kılar.

Daha fazla bilgi edin
Real-time AI that works with your team

Perakendede AI

Perakendeyi Ultralytics YOLO modelleri ile yeniden hayal et. Görü Yapay Zekası; envanter takibi, raf izleme, sıra yönetimi ve daha akıllı müşteri içgörüleri sağlar.

Daha fazla bilgi edin
Real-time AI that works with your team

Sağlıkta Yapay Zeka

Ultralytics YOLO modelleriyle sağlık çözümleri oluştur. Sağlıkta görüntü tabanlı yapay zeka; daha hızlı tıbbi görüntülemeyi, daha akıllı teşhisleri ve hasta izlemeyi güçlendirir.

Daha fazla bilgi edin
Real-time AI that works with your team

Üretimde Yapay Zeka

Ultralytics YOLO modelleri ile üretimi optimize et. Görü Yapay Zekası; kalite kontrol, kusur tespiti, KKD uyumu ve montaj hattı otomasyonunu yönlendirir.

Daha fazla bilgi edin
Real-time AI that works with your operation

Otomotivde yapay zeka

Ultralytics YOLO modelleriyle otomotivde bilgisayarlı görü uygula. Görüntü tabanlı yapay zeka; yol güvenliğini, sürücü yardımını ve araç otomasyonunu daha akıllı yollar için geliştirir.

Daha fazla bilgi edin
Real-time AI tailored to your operation

Tarımda yapay zeka

Ultralytics YOLO modelleriyle akıllı tarıma görüntü tabanlı yapay zeka getir. Daha yüksek ve akıllı verimler için mahsul takibini, hayvancılık izlemeyi ve hassas tarımı güçlendir.

Daha fazla bilgi edin

Yapay zekanın geleceğini birlikte inşa edelim!

Yolculuğuna makine öğreniminin geleceğiyle başla