Büyük Görsel Modelleri (LVM) ve bunların yapay zeka üzerindeki etkisini keşfedin. Ultralytics ve Ultralytics gelişmiş nesne algılama ve analizini nasıl mümkün kıldığını öğrenin.
Büyük Görsel Modeller (LVM), yapay zeka alanında önemli bir gelişmeyi temsil eder ve tamamen görsel verileri büyük ölçekte anlamaya, üretmeye ve işlemeye odaklanır. Belirli, önceden tanımlanmış görevler için dar veri kümeleriyle eğitilen geleneksel bilgisayar görme sistemlerinden farklı olarak, LVM'ler geniş görüntü ve video koleksiyonları üzerinde eğitilmiş genelleştirilmiş temel modeller olarak işlev görür. Bu kapsamlı ön eğitim, insan tarafından etiketlenmiş etiketlere bağımlı kalmadan görsel geometri, dokular ve karmaşık uzamsal ilişkiler hakkında derin ve kapsamlı bir anlayış geliştirmelerini sağlar.
Modern büyük ölçekli görsel modeller, görsel girdileri işlemek için genellikle Görsel Dönüştürücüler (ViT) veya yüksek ölçekli evrişimli mimarilerden yararlanır. Maskeli görüntü modelleme gibi kendi kendine denetimli öğrenme tekniklerini kullanarak, bir görüntünün veya karenin eksik kısımlarını tahmin ederek öğrenirler. Stanford Temel Modeller Araştırma Merkezi gibi akademik kuruluşlar, bu modellerin parametre sayısının hızla artırılmasının, beklenmedik ve kullanıma hazır yeteneklerin ortaya çıkmasına yol açtığını göstermiştir. Bu, modellerin yüksek hızlı nesne algılama ve ayrıntılı görüntü segmentasyonu gibi alt görevlere minimum ince ayar ile uyum sağlamasına olanak tanır.
LVM'ler, daha önce son derece uzmanlaşmış ve özel olarak eğitilmiş algoritmalar gerektiren karmaşık görsel analizleri gerçekleştirerek sektörleri dönüştürüyor.
Yapay zeka alanını tam olarak anlamak için, LVM’leri diğer popüler temel modellerden ayırmak faydalıdır:
Büyük ölçekli LVM'ler genellikle PyTorch veya TensorFlowçalışan sunucu kümeleri gerektirirken, Ultralytics gibi son derece optimize edilmiş temel görsel modeller, güçlü ve son teknoloji ürünü görsel zekayı doğrudan yerel uç ortamlara getirir. Aşağıdaki örnek, önceden eğitilmiş bir model kullanarak sağlam görsel çıkarımın nasıl gerçekleştirileceğini göstermektedir:
from ultralytics import YOLO
# Load an advanced pre-trained Ultralytics YOLO26 model
model = YOLO("yolo26x.pt")
# Perform inference on an image to extract visual features and bounding boxes
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Display the predicted visual relationships
results[0].show()
arXiv ve IEEE Xplore dijital kütüphanesinde yayınlanan akademik araştırmalardan pratik kurumsal uygulamalara geçiş hızla ivme kazanıyor. Google gibi araştırma gruplarının getirdiği yenilikler, LVM’leri zaman alanına aktif olarak genişletiyor ve modellerin, OpenAI’nin Sora’sında görülen nesillere benzer karmaşık video dizilerini anlamasını sağlıyor.
Özel görsel yapay zeka çözümleri geliştirmek isteyen geliştiriciler ve kuruluşlar için Ultralytics , ekip tabanlı veri kümesi etiketleme, bulut üzerinde eğitim ve kolaylaştırılmış model dağıtımı için sorunsuz araçlar sunarak, gelişmiş görme yeteneklerini herkesin erişimine açıyor. Ayrıca, Meta'nın Segment Anything 2 (SAM ) gibi sıfır atışlı segmentasyon araçları, ACM Dijital Kütüphanesi'nde sıklıkla ayrıntılı olarak anlatılan büyük ölçekli temel görme yaklaşımlarının, tüm AI endüstrisi genelinde karmaşık piksel düzeyinde anlayışı nasıl standartlaştırdığını göstermektedir.
Makine öğreniminin geleceği ile yolculuğunuza başlayın