YOLO Vision 2025'i kaçırmayın!
25 Eylül 2025
10:00 — 18:00 BST
Hibrit etkinlik
Yolo Vision 2024
Sözlük

Pekiştirmeli Öğrenme

Ajanların ödülleri en üst düzeye çıkarmak için deneme yanılma yoluyla eylemleri optimize ettiği takviyeli öğrenmeyi keşfedin. Kavramları, uygulamaları ve faydaları keşfedin!

Pekiştirmeli Öğrenme (RL), akıllı bir aracının deneme yanılma yoluyla en uygun kararları almayı öğrendiği bir makine öğrenimi (ML) alanıdır. Diğer öğrenme paradigmalarından farklı olarak, aracıya hangi eylemleri gerçekleştireceği söylenmez. Bunun yerine, bir ortamla etkileşime girer ve ödüller veya cezalar şeklinde geri bildirim alır. Aracının temel amacı, zaman içinde kümülatif ödülünü en üst düzeye çıkaran bir strateji (politika olarak bilinir) öğrenmektir. Bu yaklaşım, davranışsal psikolojiden ilham almıştır ve Sutton ve Barto'nun temel metninde belirtildiği gibi, özellikle sıralı karar verme sorunlarını çözmek için güçlüdür.

Pekiştirmeli Öğrenme Nasıl Çalışır

RL süreci, çeşitli temel bileşenleri içeren sürekli bir geri bildirim döngüsü olarak modellenir:

  • Etmen: Bir robot veya oyun oynayan bir program gibi öğrenen ve karar veren.
  • Çevre: Aracının etkileşimde bulunduğu dış dünya.
  • Durum: Aracının bir karar vermek için ihtiyaç duyduğu bilgileri sağlayan, belirli bir andaki ortamın anlık görüntüsü.
  • Eylem: Aracı tarafından olası seçenekler kümesinden seçilen bir hareket.
  • Ödül: Ortamdan, her eylemden sonra aracıya gönderilen ve eylemin ne kadar arzu edilir olduğunu gösteren sayısal bir sinyaldir.

Etmen, ortamın mevcut durumunu gözlemler, bir eylem gerçekleştirir ve bir sonraki durumla birlikte bir ödül alır. Bu döngü tekrarlanır ve bu deneyim sayesinde etmen, uzun vadede daha yüksek ödüllere yol açan eylemleri tercih etmek için politikasını kademeli olarak iyileştirir. Bu sorun için resmi çerçeve genellikle bir Markov Karar Süreci (MDP) ile tanımlanır. Popüler RL algoritmaları arasında Q-öğrenimi ve Politika Gradyanları bulunur.

Diğer Öğrenme Paradigmalarıyla Karşılaştırma

RL, diğer ana makine öğrenimi türlerinden farklıdır:

Gerçek Dünya Uygulamaları

RL, çeşitli karmaşık alanlarda dikkate değer başarılar elde etti:

  • Oyun Oynama: RL aracıları, karmaşık oyunlarda insanüstü performans elde etti. Önemli bir örnek, dünyanın en iyi Go oyuncularını yenmeyi öğrenen DeepMind'ın AlphaGo'sudur. Bir diğeri ise bir ajanın karmaşık takım stratejilerini öğrendiği OpenAI'nin Dota 2 üzerindeki çalışmasıdır.
  • Robotik: RL, robotları nesne manipülasyonu, montaj ve hareket gibi karmaşık görevleri gerçekleştirmek üzere eğitmek için kullanılır. Açıkça programlanmak yerine, bir robot, simüle edilmiş veya gerçek bir ortamda başarılı girişimler için ödüllendirilerek yürümeyi veya nesneleri kavramayı öğrenebilir. Bu, Berkeley Yapay Zeka Araştırma (BAIR) Laboratuvarı gibi kurumlarda önemli bir araştırma alanıdır.
  • Kaynak Yönetimi: Şehirlerde trafik akışını yönetmek, enerji şebekelerinde yük dengelemesi yapmak ve kimyasal reaksiyonları optimize etmek gibi karmaşık sistemlerdeki operasyonları optimize etme.
  • Tavsiye Sistemleri: Pekiştirmeli öğrenme (RL), yalnızca anlık tıklamaları değil, uzun vadeli etkileşimi ve memnuniyeti en üst düzeye çıkarmak için bir kullanıcıya önerilen öğelerin sırasını optimize etmek için kullanılabilir.

Yapay Zeka Ekosisteminde Alaka

Pekiştirmeli Öğrenme, özellikle otonom sistemler oluşturmak için daha geniş Yapay Zeka (AI) ortamının önemli bir bileşenidir. Ultralytics gibi şirketler, denetimli öğrenmeyi kullanarak nesne tespiti ve örnek segmentasyonu gibi görevler için Ultralytics YOLO gibi vizyon yapay zeka modellerinde uzmanlaşırken, bu modellerin algılama yetenekleri RL aracıları için temel girdilerdir.

Örneğin, bir robot, çevresini ("durumu") anlamak için Ultralytics HUB aracılığıyla dağıtılan bir YOLO modeli kullanabilir. Bir RL politikası daha sonra bu bilgiyi bir sonraki hareketine karar vermek için kullanır. Algılama için Bilgisayar Görüsü (CV) ve karar verme için RL arasındaki bu sinerji, akıllı sistemler oluşturmanın temelidir. Bu sistemler genellikle PyTorch ve TensorFlow gibi çerçeveler kullanılarak geliştirilir ve sıklıkla Gymnasium (eski adıyla OpenAI Gym) gibi standartlaştırılmış simülasyon ortamlarında test edilir. Modelin insan tercihlerine uyumunu iyileştirmek için, İnsan Geri Bildiriminden Takviyeli Öğrenme (RLHF) gibi teknikler de alanda giderek daha önemli hale gelmektedir. RL'deki ilerleme, DeepMind gibi kuruluşlar ve NeurIPS gibi akademik konferanslar tarafından sürekli olarak yönlendirilmektedir.

Ultralytics topluluğuna katılın

Yapay zekanın geleceğine katılın. Küresel yenilikçilerle bağlantı kurun, işbirliği yapın ve birlikte büyüyün

Şimdi katılın
Bağlantı panoya kopyalandı