Sözlük

Pekiştirmeli Öğrenme

Aracıların ödülleri en üst düzeye çıkarmak için deneme yanılma yoluyla eylemleri optimize ettiği pekiştirmeli öğrenmeyi keşfedin. Kavramları, uygulamaları ve faydaları keşfedin!

Takviyeli Öğrenme (RL), akıllı bir ajanın deneme yanılma yoluyla en uygun kararları vermeyi öğrendiği bir makine öğrenimi (ML) alanıdır. Diğer öğrenme paradigmalarının aksine, ajana hangi eylemleri gerçekleştirmesi gerektiği söylenmez. Bunun yerine, bir çevre ile etkileşime girer ve ödüller veya cezalar şeklinde geri bildirim alır. Temsilcinin temel amacı, zaman içinde kümülatif ödülünü en üst düzeye çıkaran ve politika olarak bilinen bir strateji öğrenmektir. Bu yaklaşım davranışsal psikolojiden esinlenmiştir ve Sutton ve Barto'nun temel metninde ana hatlarıyla belirtildiği gibi sıralı karar verme problemlerini çözmek için özellikle güçlüdür.

Pekiştirmeli Öğrenme Nasıl Çalışır?

RL süreci, birkaç temel bileşeni içeren sürekli bir geri bildirim döngüsü olarak modellenmiştir:

  • Ajan: Bir robot veya oyun oynayan bir program gibi öğrenen ve karar veren kişi.
  • Çevre: Temsilcinin etkileşimde bulunduğu dış dünya.
  • Durum: Belirli bir anda ortamın anlık görüntüsüdür ve temsilciye karar vermek için ihtiyaç duyduğu bilgileri sağlar.
  • Eylem: Temsilci tarafından bir dizi olası seçenek arasından seçilen bir hareket.
  • Ödül: Her eylemden sonra çevreden ajana gönderilen ve eylemin ne kadar arzu edilir olduğunu gösteren sayısal bir sinyal.

Temsilci çevrenin mevcut durumunu gözlemler, bir eylem gerçekleştirir ve bir sonraki durumla birlikte bir ödül alır. Bu döngü tekrar eder ve bu deneyim sayesinde ajan, politikasını kademeli olarak daha yüksek uzun vadeli ödüllere yol açan eylemleri tercih edecek şekilde geliştirir. Bu problemin resmi çerçevesi genellikle bir Markov Karar Süreci (MDP) ile tanımlanır. Popüler RL algoritmaları arasında Q-learning ve Policy Gradients bulunmaktadır.

Diğer Öğrenme Paradigmaları ile Karşılaştırma

RL, diğer ana makine öğrenimi türlerinden farklıdır:

Gerçek Dünya Uygulamaları

RL, çeşitli karmaşık alanlarda kayda değer başarılar elde etmiştir:

  • Oyun Oynama: RL ajanları karmaşık oyunlarda insanüstü performans elde etmiştir. Öne çıkan bir örnek, dünyanın en iyi Go oyuncularını yenmeyi öğrenen DeepMind'ın AlphaGo'sudur. Bir diğeri ise OpenAI'nin Dota 2 üzerinde yaptığı ve bir ajanın karmaşık takım stratejilerini öğrendiği çalışmadır.
  • Robotik: RL, robotları nesne manipülasyonu, montaj ve hareket gibi karmaşık görevleri yerine getirmek üzere eğitmek için kullanılır. Açıkça programlanmak yerine, bir robot simüle edilmiş veya gerçek bir ortamda başarılı denemeler için ödüllendirilerek yürümeyi veya nesneleri kavramayı öğrenebilir. Bu, Berkeley Yapay Zeka Araştırma (BAIR) Laboratuvarı gibi kurumlarda önemli bir araştırma alanıdır.
  • Kaynak Yönetimi: Şehirlerdeki trafik akışını yönetmek, enerji şebekelerindeki yükü dengelemek ve kimyasal reaksiyonları optimize etmek gibi karmaşık sistemlerdeki işlemleri optimize etmek.
  • Öneri Sistemleri: RL, sadece anlık tıklamalar yerine uzun vadeli etkileşimi ve memnuniyeti en üst düzeye çıkarmak için bir kullanıcıya önerilen öğelerin sırasını optimize etmek için kullanılabilir.

Yapay Zeka Ekosisteminde Uygunluk

Takviyeli Öğrenme, özellikle otonom sistemler oluşturmak için daha geniş Yapay Zeka (AI) ortamının çok önemli bir bileşenidir. Ultralytics gibi şirketler, denetimli öğrenme kullanarak nesne algılama ve örnek segmentasyonu gibi görevler için Ultralytics YOLO gibi görsel yapay zeka modellerinde uzmanlaşırken, bu modellerin algılama yetenekleri RL ajanları için temel girdilerdir.

Örneğin, bir robot çevresini ("durum") anlamak için Ultralytics HUB aracılığıyla dağıtılan bir YOLO algılama modeli kullanabilir. Bir RL politikası daha sonra bir sonraki hareketine karar vermek için bu bilgiyi kullanır. Algılama için Bilgisayarla Görme (CV) ve karar verme için RL arasındaki bu sinerji, akıllı sistemler oluşturmak için temeldir. Bu sistemler genellikle PyTorch ve TensorFlow gibi çerçeveler kullanılarak geliştirilir ve Gymnasium (eski adıyla OpenAI Gym) gibi standartlaştırılmış simülasyon ortamlarında sıklıkla test edilir. İnsan tercihleriyle model uyumunu iyileştirmek için, İnsan Geri Bildiriminden Takviyeli Öğrenme (RLHF) gibi teknikler de bu alanda giderek daha önemli hale gelmektedir. RL'deki ilerleme, DeepMind gibi kuruluşlar ve NeurIPS gibi akademik konferanslar tarafından sürekli olarak yönlendirilmektedir.

Ultralytics topluluğuna katılın

Yapay zekanın geleceğine katılın. Küresel yenilikçilerle bağlantı kurun, işbirliği yapın ve büyüyün

Şimdi katılın
Panoya kopyalanan bağlantı