Aracıların ödülleri en üst düzeye çıkarmak için deneme yanılma yoluyla eylemleri optimize ettiği pekiştirmeli öğrenmeyi keşfedin. Kavramları, uygulamaları ve faydaları keşfedin!
Takviyeli Öğrenme (RL), akıllı bir ajanın deneme yanılma yoluyla en uygun kararları vermeyi öğrendiği bir makine öğrenimi (ML) alanıdır. Diğer öğrenme paradigmalarının aksine, ajana hangi eylemleri gerçekleştirmesi gerektiği söylenmez. Bunun yerine, bir çevre ile etkileşime girer ve ödüller veya cezalar şeklinde geri bildirim alır. Temsilcinin temel amacı, zaman içinde kümülatif ödülünü en üst düzeye çıkaran ve politika olarak bilinen bir strateji öğrenmektir. Bu yaklaşım davranışsal psikolojiden esinlenmiştir ve Sutton ve Barto'nun temel metninde ana hatlarıyla belirtildiği gibi sıralı karar verme problemlerini çözmek için özellikle güçlüdür.
RL süreci, birkaç temel bileşeni içeren sürekli bir geri bildirim döngüsü olarak modellenmiştir:
Temsilci çevrenin mevcut durumunu gözlemler, bir eylem gerçekleştirir ve bir sonraki durumla birlikte bir ödül alır. Bu döngü tekrar eder ve bu deneyim sayesinde ajan, politikasını kademeli olarak daha yüksek uzun vadeli ödüllere yol açan eylemleri tercih edecek şekilde geliştirir. Bu problemin resmi çerçevesi genellikle bir Markov Karar Süreci (MDP) ile tanımlanır. Popüler RL algoritmaları arasında Q-learning ve Policy Gradients bulunmaktadır.
RL, diğer ana makine öğrenimi türlerinden farklıdır:
RL, çeşitli karmaşık alanlarda kayda değer başarılar elde etmiştir:
Takviyeli Öğrenme, özellikle otonom sistemler oluşturmak için daha geniş Yapay Zeka (AI) ortamının çok önemli bir bileşenidir. Ultralytics gibi şirketler, denetimli öğrenme kullanarak nesne algılama ve örnek segmentasyonu gibi görevler için Ultralytics YOLO gibi görsel yapay zeka modellerinde uzmanlaşırken, bu modellerin algılama yetenekleri RL ajanları için temel girdilerdir.
Örneğin, bir robot çevresini ("durum") anlamak için Ultralytics HUB aracılığıyla dağıtılan bir YOLO algılama modeli kullanabilir. Bir RL politikası daha sonra bir sonraki hareketine karar vermek için bu bilgiyi kullanır. Algılama için Bilgisayarla Görme (CV) ve karar verme için RL arasındaki bu sinerji, akıllı sistemler oluşturmak için temeldir. Bu sistemler genellikle PyTorch ve TensorFlow gibi çerçeveler kullanılarak geliştirilir ve Gymnasium (eski adıyla OpenAI Gym) gibi standartlaştırılmış simülasyon ortamlarında sıklıkla test edilir. İnsan tercihleriyle model uyumunu iyileştirmek için, İnsan Geri Bildiriminden Takviyeli Öğrenme (RLHF) gibi teknikler de bu alanda giderek daha önemli hale gelmektedir. RL'deki ilerleme, DeepMind gibi kuruluşlar ve NeurIPS gibi akademik konferanslar tarafından sürekli olarak yönlendirilmektedir.