Pekiştirme Öğreniminin (RL) temel kavramlarını keşfedin. Ajanların geri bildirimi kullanarak görevleri nasıl ustaca yerine getirdiklerini öğrenin ve Ultralytics RL görüntü sistemlerini nasıl güçlendirdiğini görün.
Pekiştirme Öğrenimi (RL), makine öğreniminin (ML) hedef odaklı bir alt kümesidir. Bu yaklaşımda, ajan olarak bilinen otonom bir sistem, eylemler gerçekleştirerek ve çevresinden geri bildirim alarak karar vermeyi öğrenir. Doğru cevaplarla etiketlenmiş statik veri kümelerine dayanan denetimli öğrenmeden farklı olarak, RL algoritmaları deneme yanılma yoluyla dinamik bir süreçle öğrenir. Ajan, bir simülasyon veya gerçek dünya ile etkileşime girerek, eylemlerinin sonuçlarını gözlemler ve hangi stratejilerin uzun vadede en yüksek getiriyi sağladığını belirler. Bu yaklaşım, davranışın zaman içinde olumlu pekiştirme (ödüller) ve olumsuz pekiştirme (cezalar) ile şekillendirildiği operant koşullanma psikolojik kavramını yakından taklit eder.
RL'nin nasıl işlediğini anlamak için, onu sürekli bir etkileşim döngüsü olarak görselleştirmek yararlıdır. Bu çerçeve genellikle matematiksel olarak Markov Karar Süreci (MDP) olarak formüle edilir ve sonuçların kısmen rastgele, kısmen de karar verici tarafından kontrol edildiği durumlarda karar vermeyi yapılandırır.
Bu öğrenme döngüsünün temel bileşenleri şunlardır:
Güçlendirme öğrenimi, teorik araştırmanın ötesine geçerek çeşitli endüstrilerde pratik ve yüksek etkili uygulamalara dönüşmüştür. endüstriler.
Birçok modern uygulamada, bir ajanın gözlemlediği "durum" görseldir. YOLO26 gibi yüksek performanslı modeller, RL ajanları için algılama katmanı görevi görür ve ham görüntüleri yapılandırılmış verilere dönüştürür. Nesnelerin konumu ve sınıfı gibi işlenen bu bilgiler, RL politikasının bir eylem seçmek için kullandığı durum haline gelir.
Aşağıdaki örnekte, aşağıdakilerin nasıl kullanılacağı gösterilmektedir ultralytics bir ortam çerçevesini işlemek için paket,
teorik bir RL döngüsü için bir durum temsili (örneğin, nesne sayısı) oluşturur.
from ultralytics import YOLO
# Load the YOLO26 model to serve as the agent's vision system
model = YOLO("yolo26n.pt")
# Simulate the agent observing the environment (an image frame)
observation_frame = "https://ultralytics.com/images/bus.jpg"
# Process the frame to extract the current 'state'
results = model(observation_frame)
# The agent uses detection data to inform its next action
# For example, an autonomous delivery robot might stop if it sees people
num_objects = len(results[0].boxes)
print(f"Agent Observation: {num_objects} objects detected. Calculating next move...")
Pekiştirme Öğrenmesini diğer makine öğrenimi paradigmalarından ayırmak önemlidir:
Hesaplama gücü arttıkça, İnsan Geri Bildiriminden Güçlendirme Öğrenimi (RLHF) gibi teknikler, ajanların öğrenme şeklini daha da iyileştirerek, hedeflerini karmaşık insan değerleri ve güvenlik standartlarıyla daha yakından uyumlu hale getiriyor. Araştırmacılar genellikle bu algoritmaları karşılaştırmak ve iyileştirmek için Gymnasium gibi standartlaştırılmış ortamlar kullanıyor. Bu ajanların algılama katmanları için gerekli veri kümelerini yönetmek isteyen ekipler için Ultralytics , açıklama ve model yönetimi için kapsamlı araçlar sunuyor.