Ajanların ödülleri en üst düzeye çıkarmak için deneme yanılma yoluyla eylemleri optimize ettiği takviyeli öğrenmeyi keşfedin. Kavramları, uygulamaları ve faydaları keşfedin!
Pekiştirmeli Öğrenme (RL), aşağıdakilerin dinamik bir alt kümesidir öğretmeye odaklanan makine öğrenimi (ML) otonom yapay zeka ajanı aracılığıyla en uygun kararların nasıl alınacağı deneme ve yanılma. Statik veri kümelerine dayanan diğer öğrenme paradigmalarının aksine, RL bir ajanın bir veri kümesi ile etkileşime girmesini içerir. Belirli bir hedefe ulaşmak için dinamik ortam. Temsilci, aşağıdakilere dayalı olarak ödüller veya cezalar şeklinde geri bildirim alır zaman içinde kümülatif ödülü en üst düzeye çıkarmak için stratejisini kademeli olarak iyileştirir. Bu süreç aşağıdakileri yansıtır kavramı Davranış psikolojisinde, davranışların sonuçlarla pekiştirildiği edimsel koşullanma.
Takviyeli Öğrenme çerçevesi genellikle matematiksel olarak şu şekilde tanımlanır Markov Karar Süreci (MDP). İçin Bu döngünün nasıl işlediğini anlamak için öğrenme döngüsünde yer alan temel bileşenleri ayırmak faydalı olacaktır:
RL, teorik araştırmaların ötesine geçmiştir ve artık çeşitli sektörlerde karmaşık, gerçek dünya sistemlerine güç vermektedir.
Eğitim metodolojileri farklı olduğu için RL'yi diğer makine öğrenimi yaklaşımlarından ayırmak önemlidir önemli ölçüde.
Birçok uygulamada, bir ajanın gözlemlediği "durum" görseldir. Aşağıdaki gibi yüksek performanslı görüntü modelleri YOLO11 RL için algılama katmanı olarak sıklıkla kullanılır ajanlar. Görme modeli nesneleri detect etmek için sahneyi işler ve bu yapılandırılmış bilgi RL'ye aktarılır Bir sonraki eyleme karar vermek için ajan.
Aşağıdaki örnekte, beslenebilecek durumu (tespit edilen nesneler) oluşturmak için bir YOLO modelinin nasıl kullanılacağı gösterilmektedir bir RL karar verme döngüsüne dönüştürür.
from ultralytics import YOLO
# Load the YOLO11 model to serve as the perception system
model = YOLO("yolo11n.pt")
# The agent observes the environment (an image frame)
# In a real RL loop, this frame comes from a simulation or camera
observation_frame = "https://docs.ultralytics.com/modes/predict/"
# Process the frame to get the current 'state' (detected objects)
results = model(observation_frame)
# The detections (boxes, classes) act as the state for the RL agent
for result in results:
print(f"Detected {len(result.boxes)} objects for the agent to analyze.")
# This state data would next be passed to the RL policy network
Bu kavramların nasıl ölçeklendiğini keşfetmek için araştırmacılar genellikle aşağıdaki gibi ortamları kullanırlar RL algoritmalarının testini standartlaştırmak için OpenAI Gym (şimdi Gymnasium). As hesaplama gücü arttıkça, aşağıdaki gibi teknikler İnsan Geri Bildiriminden Takviyeli Öğrenme (RLHF) aracıların insani değerlerle nasıl uyum sağladığını daha da geliştiriyor.
