World Models'ın gelecekteki sonuçları tahmin etmek için ortamları nasıl simüle ettiğini keşfedin. Otonom sürüş ve gelişmiş robotik için Ultralytics nasıl geliştirdiklerini öğrenin.
Dünya Modeli, çevresinin kapsamlı bir simülasyonunu öğrenmek, dünyanın zaman içinde nasıl evrimleştiğini ve kendi eylemlerinin bu geleceği nasıl etkilediğini tahmin etmek için tasarlanmış gelişmiş bir yapay zeka sistemidir. Genellikle bir görüntüyü sınıflandırmak gibi statik girdileri çıktılara eşlemek üzerine odaklanan geleneksel tahmin modellemesinden farklı olarak, Dünya Modeli bir sahnenin nedensel dinamiklerini anlamaya çalışır. Gözlemlediği verilerin fizik, mantık ve zamansal dizilerini içselleştirerek, Gözlemlediği verilerin fizik, mantık ve zamansal dizilerini içselleştirerek, potansiyel sonuçları gerçekleşmeden önce simüle edebilir. Bu yetenek, insanın zihinsel modeline benzer ve AI'nın karmaşık görevleri planlamak veya gerçekçi video içeriği oluşturmak için gelecekteki senaryoları "hayal etmesine" veya görselleştirmesine olanak tanır.
Dünya Modellerinin temel yeniliği, zaman ve neden-sonuç ilişkisi hakkında akıl yürütme yeteneklerinde yatmaktadır. Standart bilgisayar görme görevlerinde, Ultralytics gibi modeller, tek bir karede nesneleri algılamada üstündür. Ancak, Dünya Modeli, bu nesnelerin bir sonraki karede nerede olacağını tahmin ederek bunu daha da ileriye götürür. Statik tanıma işleminden dinamik tahmin işlemine geçiş, otonom araçlar ve sofistike robotik sistemler geliştirmek için çok önemlidir .
OpenAI'nin Sora metin-video modeli gibi son zamanlardaki atılımlar, Dünya Modellerinin üretken gücünü göstermektedir. Işık, hareket ve geometrinin nasıl etkileştiğini anlayarak, bu sistemler basit metin komutlarından son derece gerçekçi ortamlar yaratabilirler. Benzer şekilde, pekiştirmeli öğrenme alanında, ajanlar bu iç simülasyonları kullanarak gerçek dünyada tehlikeli görevleri denemeden önce sanal bir zihinde güvenli bir şekilde eğitim alırlar ve böylece AI'nın güvenliğini ve verimliliğini önemli ölçüde artırırlar.
Dünya Modellerini diğer geniş AI kategorilerinden ayırmak faydalıdır.
Dünya Modellerinin kullanımı, eğlence videoları oluşturmanın çok ötesine uzanmaktadır. Karmaşık karar vermeyi gerektiren sektörlerde vazgeçilmez bileşenler haline gelmektedirler. .
Tam ölçekli Dünya Modelleri muazzam bir hesaplama gücü gerektirirken, gelecekteki kareleri tahmin etme kavramı video anlama ilkeleri kullanılarak açıklanabilir. Aşağıdaki örnek, bir ajanın (veya modelin) nesne hareketini track tahmin etmeye başlayabileceği bir ortamın nasıl kurulacağını göstermektedir. Bu, öngörücü bir dünya görüşü oluşturmanın temel adımlarından biridir.
import cv2
from ultralytics import YOLO26
# Load the Ultralytics YOLO26 model to act as the perception engine
model = YOLO26("yolo26n.pt")
# Open a video source (0 for webcam or a video file path)
cap = cv2.VideoCapture(0)
while cap.isOpened():
success, frame = cap.read()
if not success:
break
# The 'track' mode maintains object identity over time,
# a prerequisite for learning object dynamics
results = model.track(frame, persist=True)
# Visualize the tracking, showing how the model follows movement
annotated_frame = results[0].plot()
cv2.imshow("Object Tracking Stream", annotated_frame)
if cv2.waitKey(1) & 0xFF == ord("q"):
break
cap.release()
cv2.destroyAllWindows()
Dünya Modellerinin geliştirilmesi, Yapay Genel Zeka (AGI) yolunda atılmış bir adımdır. Dünyayı etkili bir şekilde modellemeyi öğrenerek, AI sistemleri uzamsal zeka ve fiziksel etkileşimler hakkında bir tür "sağduyu" kazanır. Araştırmacılar şu anda, bu modelleri daha verimli hale getirmek, her pikseli oluşturmanın ağır hesaplama maliyetinden kaçınmak ve bunun yerine üst düzey özellik tahminine odaklanmak için Ortak Gömme Tahmin Mimarileri'ni (JEPA) araştırmaktadır. Bu teknolojiler olgunlaştıkça, Ultralytics ile daha derin bir entegrasyon bekleyebiliriz, bu da geliştiricilerin sadece dünyayı görmekle kalmayıp, onu gerçekten anlayan ajanları eğitmelerini sağlayacaktır.