Dünya modellerinin, çevresel dinamikleri kullanarak AI'nın gelecekteki durumları tahmin etmesini nasıl sağladığını keşfedin. Ultralytics tahmine dayalı AI için algıyı nasıl sağladığını öğrenin.
"Dünya Modeli", bir AI sisteminin bir ortamın nasıl işlediğine dair içsel temsilini ifade eder ve mevcut gözlemler ve potansiyel eylemler temelinde gelecekteki durumları veya sonuçları tahmin etmesini sağlar. Girdileri doğrudan çıktılara eşleyen geleneksel modellerin (bir görüntüyü sınıflandırmak gibi) aksine, bir dünya modeli bir sistemin temel dinamiklerini, fiziksel özelliklerini ve nedensel ilişkilerini öğrenir. Bu kavram, Yapay Genel Zeka'nın (AGI) geliştirilmesinde merkezi bir öneme sahiptir, çünkü makinelere bir tür "sağduyu" muhakemesi kazandırarak, gerçek dünyada harekete geçmeden önce zihinsel olarak senaryoları simüle etmelerini sağlar.
Temelinde, bir dünya modeli insan sezgisine benzer şekilde işlev görür. Bir top attığınızda, rüzgar direnci denklemlerini hesaplamazsınız ; beyniniz geçmiş deneyimlere dayanarak yörüngeyi simüle eder. Benzer şekilde, makine öğreniminde (ML) bu modeller, yüksek boyutlu duyusal verileri (video kareleri gibi) kompakt bir gizli duruma sıkıştırır. Bu sıkıştırılmış durum, ajanın potansiyel gelecekleri verimli bir şekilde "hayal etmesine" veya halüsinasyon görmesine olanak tanır.
Ha ve Schmidhuber'in Recurrent World Models (Tekrarlayan Dünya Modelleri ) üzerine yaptıkları çalışma gibi önde gelen araştırmalar, ajanların simüle edilmiş bir rüya ortamında politikalar öğrenebildiklerini göstermektedir. Daha yakın zamanda, OpenAI'nin Sora gibi üretken yapay zeka gelişmeleri, sistemin fizik, aydınlatma ve nesne kalıcılığını anlayarak tutarlı video sürekliliği oluşturduğu görsel bir dünya modelleme biçimini temsil etmektedir.
Dünya modelleri, karmaşık karar vermeyi gerektiren alanlarda özellikle dönüştürücü bir etkiye sahiptir.
Dünya modellerini standart yaklaşımlardan ayırmak yararlıdır:
Tam bir dünya modeli oluşturmak karmaşık olsa da, temel kavram gelecekteki durumları tahmin etmeye dayanır. Bilgisayar görme görevleri için, Ultralytics gibi yüksek hızlı algılama modelleri, karar verme mantığına gözlemleri besleyen duyusal "gözler" görevi görür.
Aşağıdaki Python , bir YOLO kullanarak dünya modelinin tahmin adımına girdi olarak hizmet edecek mevcut durumu (nesne konumları) nasıl çıkarabileceğinizi göstermektedir.
from ultralytics import YOLO
# Load the Ultralytics YOLO26 model to act as the perception layer
model = YOLO("yolo26n.pt")
# Perform inference to get the current state of the environment
results = model("https://ultralytics.com/images/bus.jpg")
# Extract bounding boxes (xyxy) representing object states
for result in results:
boxes = result.boxes.xyxy.cpu().numpy()
print(f"Observed State (Object Positions): {boxes}")
# A World Model would take these 'boxes' to predict the NEXT frame's state
Dünya modellerinin evrimi, dijital zekanın fiziksel dünya ile sorunsuz bir şekilde etkileşime girdiği fiziksel yapay zekaya doğru ilerliyor. Yann LeCun'un JEPA (Joint Embedding Predictive Architecture) gibi yenilikler, her pikseli tahmin etmek yerine soyut temsilleri öğrenmeyi öneriyor ve modelleri önemli ölçüde daha verimli hale getiriyor.
Bu mimariler olgunlaştıkça, bunların Ultralytics entegre edilmesini ve geliştiricilerin detect yanı sıra dinamik ortamlarda yörüngelerini ve etkileşimlerini tahmin etmelerini bekliyoruz. Statik algılamadan dinamik tahmine geçiş, bilgisayar görüşünde (CV) bir sonraki büyük sıçramayı işaret ediyor.