Yolo Vision Shenzhen
Shenzhen
Şimdi katılın
Sözlük

Dünya Modeli

World Models'ın gelecekteki sonuçları tahmin etmek için ortamları nasıl simüle ettiğini keşfedin. Otonom sürüş ve gelişmiş robotik için Ultralytics nasıl geliştirdiklerini öğrenin.

Dünya Modeli, çevresinin kapsamlı bir simülasyonunu öğrenmek, dünyanın zaman içinde nasıl evrimleştiğini ve kendi eylemlerinin bu geleceği nasıl etkilediğini tahmin etmek için tasarlanmış gelişmiş bir yapay zeka sistemidir. Genellikle bir görüntüyü sınıflandırmak gibi statik girdileri çıktılara eşlemek üzerine odaklanan geleneksel tahmin modellemesinden farklı olarak, Dünya Modeli bir sahnenin nedensel dinamiklerini anlamaya çalışır. Gözlemlediği verilerin fizik, mantık ve zamansal dizilerini içselleştirerek, Gözlemlediği verilerin fizik, mantık ve zamansal dizilerini içselleştirerek, potansiyel sonuçları gerçekleşmeden önce simüle edebilir. Bu yetenek, insanın zihinsel modeline benzer ve AI'nın karmaşık görevleri planlamak veya gerçekçi video içeriği oluşturmak için gelecekteki senaryoları "hayal etmesine" veya görselleştirmesine olanak tanır.

Statik Algının Ötesine Geçmek

Dünya Modellerinin temel yeniliği, zaman ve neden-sonuç ilişkisi hakkında akıl yürütme yeteneklerinde yatmaktadır. Standart bilgisayar görme görevlerinde, Ultralytics gibi modeller, tek bir karede nesneleri algılamada üstündür. Ancak, Dünya Modeli, bu nesnelerin bir sonraki karede nerede olacağını tahmin ederek bunu daha da ileriye götürür. Statik tanıma işleminden dinamik tahmin işlemine geçiş, otonom araçlar ve sofistike robotik sistemler geliştirmek için çok önemlidir .

OpenAI'nin Sora metin-video modeli gibi son zamanlardaki atılımlar, Dünya Modellerinin üretken gücünü göstermektedir. Işık, hareket ve geometrinin nasıl etkileştiğini anlayarak, bu sistemler basit metin komutlarından son derece gerçekçi ortamlar yaratabilirler. Benzer şekilde, pekiştirmeli öğrenme alanında, ajanlar bu iç simülasyonları kullanarak gerçek dünyada tehlikeli görevleri denemeden önce sanal bir zihinde güvenli bir şekilde eğitim alırlar ve böylece AI'nın güvenliğini ve verimliliğini önemli ölçüde artırırlar.

Dünya Modelleri ve Temel Modeller

Dünya Modellerini diğer geniş AI kategorilerinden ayırmak faydalıdır.

  • Dünya Modelleri ve Temel Modeller: Temel model, geniş verilerle eğitilmiş genel amaçlı bir modeldir (GPT-4 gibi). Dünya Modeli genellikle belirli bir temel model türü veya bir temel modelin bileşenidir ve özellikle çevresel dinamikleri ve zamansal tutarlılığı simüle etmek için tasarlanmıştır.
  • Dünya Modelleri ve Büyük Dil Modelleri (LLM'ler): LLM'ler dilbilimsel kalıplara dayalı olarak bir sonraki metin öğesini tahmin ederken, Dünya Modelleri fiziksel ve uzamsal kurallara dayalı olarak dünyanın bir sonraki "durumunu" (genellikle video kareleri veya duyusal veriler) tahmin eder.

Gerçek Dünya Uygulamaları

Dünya Modellerinin kullanımı, eğlence videoları oluşturmanın çok ötesine uzanmaktadır. Karmaşık karar vermeyi gerektiren sektörlerde vazgeçilmez bileşenler haline gelmektedirler. .

  1. Otonom Sürüş: Waymo gibi otonom araç şirketleri, milyonlarca sürüş senaryosunu simüle etmek için Dünya Modellerini kullanıyor. Aracın yapay zekası, yayaların ve diğer araçların hareketlerini tahmin ederek, gerçekte her türlü olası kazayı deneyimlemeye gerek kalmadan yoğun kavşaklarda güvenli rotalar planlayabiliyor.
  2. Robotik ve Üretim: Akıllı üretimde, Dünya Modelleri ile donatılmış robotlar, daha önce hiç görmedikleri nesneleri manipüle edebilirler. Kavrama veya kaldırma hareketinin fiziğini simüle ederek, robot, bir nesnenin kayıp kaymayacağını veya kırılıp kırılmayacağını tahmin eder ve gerçek zamanlı çıkarım döngülerinde hareketlerini uyarlayarak hassasiyeti sağlar.

Pratik Örnek: Gelecekteki Durumları Görselleştirme

Tam ölçekli Dünya Modelleri muazzam bir hesaplama gücü gerektirirken, gelecekteki kareleri tahmin etme kavramı video anlama ilkeleri kullanılarak açıklanabilir. Aşağıdaki örnek, bir ajanın (veya modelin) nesne hareketini track tahmin etmeye başlayabileceği bir ortamın nasıl kurulacağını göstermektedir. Bu, öngörücü bir dünya görüşü oluşturmanın temel adımlarından biridir.

import cv2
from ultralytics import YOLO26

# Load the Ultralytics YOLO26 model to act as the perception engine
model = YOLO26("yolo26n.pt")

# Open a video source (0 for webcam or a video file path)
cap = cv2.VideoCapture(0)

while cap.isOpened():
    success, frame = cap.read()
    if not success:
        break

    # The 'track' mode maintains object identity over time,
    # a prerequisite for learning object dynamics
    results = model.track(frame, persist=True)

    # Visualize the tracking, showing how the model follows movement
    annotated_frame = results[0].plot()

    cv2.imshow("Object Tracking Stream", annotated_frame)
    if cv2.waitKey(1) & 0xFF == ord("q"):
        break

cap.release()
cv2.destroyAllWindows()

Tahmine Dayalı Yapay Zekanın Geleceği

Dünya Modellerinin geliştirilmesi, Yapay Genel Zeka (AGI) yolunda atılmış bir adımdır. Dünyayı etkili bir şekilde modellemeyi öğrenerek, AI sistemleri uzamsal zeka ve fiziksel etkileşimler hakkında bir tür "sağduyu" kazanır. Araştırmacılar şu anda, bu modelleri daha verimli hale getirmek, her pikseli oluşturmanın ağır hesaplama maliyetinden kaçınmak ve bunun yerine üst düzey özellik tahminine odaklanmak için Ortak Gömme Tahmin Mimarileri'ni (JEPA) araştırmaktadır. Bu teknolojiler olgunlaştıkça, Ultralytics ile daha derin bir entegrasyon bekleyebiliriz, bu da geliştiricilerin sadece dünyayı görmekle kalmayıp, onu gerçekten anlayan ajanları eğitmelerini sağlayacaktır.

Ultralytics topluluğuna katılın

Yapay zekanın geleceğine katılın. Küresel yenilikçilerle bağlantı kurun, işbirliği yapın ve birlikte büyüyün

Şimdi katılın