Reinforcement Learning
Pekiştirmeli Öğrenmenin (RL) temel kavramlarını keşfet. Temsilcilerin görevlerde ustalaşmak için geri bildirimi nasıl kullandığını ve Ultralytics YOLO26'nın RL vizyon sistemlerini nasıl desteklediğini gör.
Pekiştirmeli Öğrenme (RL), bir ajanın çevreyle etkileşime girip eylemler gerçekleştirerek ve geri bildirim alarak karar vermeyi öğrendiği, hedef odaklı bir makine öğrenimi (ML) alt kümesidir. Doğru yanıtlarla etiketlenmiş statik veri kümelerine dayanan denetimli öğrenmenin aksine, RL algoritmaları dinamik bir deneme yanılma süreciyle öğrenir. Ajan, hangi stratejilerin en yüksek uzun vadeli ödülleri sağladığını belirlemek için eylemlerinin sonuçlarını gözlemleyerek bir simülasyonla veya gerçek dünyayla etkileşime girer. Bu yaklaşım, davranışın zaman içinde pozitif pekiştirme (ödüller) ve negatif pekiştirme (cezalar) ile şekillendirildiği psikolojik edimsel koşullanma kavramını yakından taklit eder.
Link to this sectionRL Döngüsünün Temel Kavramları#
RL'nin nasıl çalıştığını anlamak için onu sürekli bir etkileşim döngüsü olarak görselleştirmek faydalıdır. Bu çerçeve, genellikle sonuçların kısmen rastgele olduğu ve kısmen karar verici tarafından kontrol edildiği durumlarda karar almayı yapılandıran bir Markov Karar Süreci (MDP) olarak matematikselleştirilir.
Bu öğrenme döngüsünün temel bileşenleri şunlardır:
- AI Ajanı: Öğrenmekten ve karar vermekten sorumlu varlık. Çevreyi algılar ve kümülatif başarısını en üst düzeye çıkarmak için eylemlerde bulunur.
- Çevre: Ajanın içinde faaliyet gösterdiği dış dünya. Bu, karmaşık bir video oyunu, bir finansal piyasa simülasyonu veya lojistikte YZ alanında fiziksel bir depo olabilir.
- Durum: Mevcut durumun bir anlık görüntüsü veya temsili. Görsel uygulamalarda bu, genellikle nesneleri ve engelleri tespit etmek için bilgisayarlı görü (CV) kullanılarak kamera beslemelerinin işlenmesini içerir.
- Eylem: Ajanın gerçekleştirdiği belirli hareket veya seçim. Tüm olası hareketlerin tamamına eylem uzayı denir.
- Ödül: Bir eylemden sonra çevreden ajana gönderilen sayısal bir sinyal. İyi tasarlanmış bir ödül fonksiyonu, yararlı eylemler için pozitif değerler, zararlı eylemler için ise cezalar atar.
- Politika: Ajanın mevcut duruma göre bir sonraki eylemi belirlemek için kullandığı strateji veya kural seti. Q-learning gibi algoritmalar, bu politikanın nasıl güncelleneceğini ve optimize edileceğini tanımlar.
Link to this sectionGerçek Dünya Uygulamaları#
Pekiştirmeli öğrenme, teorik araştırmaların ötesine geçerek çeşitli sektörlerde pratik ve yüksek etkili kullanımlara ulaşmıştır.
- Gelişmiş Robotik: Robotikte YZ alanında RL, makinelerin kodlanması zor olan karmaşık motor becerilerinde ustalaşmasını sağlar. Robotlar, gerçek dünyaya dağıtmadan önce NVIDIA Isaac Sim gibi fizik motorlarında eğitim alarak düzensiz nesneleri tutmayı veya engebeli arazide gezinmeyi öğrenebilirler.
- Otonom Sistemler: Otonom araçlar, öngörülemez trafik senaryolarında gerçek zamanlı kararlar almak için RL kullanır. Nesne tespiti modelleri yayaları ve işaretleri tanımlarken, RL algoritmaları şerit birleştirme ve kavşak navigasyonu için güvenli sürüş politikalarının belirlenmesine yardımcı olur.
- Stratejik Optimizasyon: RL, Google DeepMind'in AlphaGo gibi sistemleri karmaşık masa oyunlarında dünya şampiyonlarını yendiğinde küresel çapta dikkat çekti. Oyunların ötesinde bu ajanlar, enerji tüketimini azaltmak için veri merkezlerindeki soğutma sistemlerini kontrol etmek gibi endüstriyel lojistik süreçlerini optimize eder.
Link to this sectionGörüntü İşleme ile RL'nin Entegrasyonu#
Birçok modern uygulamada, ajanın gözlemlediği "durum" görseldir. YOLO26 gibi yüksek performanslı modeller, ham görüntüleri yapılandırılmış verilere dönüştürerek RL ajanları için algılama katmanı görevi görür. Nesnelerin konumu ve sınıfı gibi bu işlenmiş bilgiler, RL politikasının bir eylem seçmek için kullandığı durum haline gelir.
Aşağıdaki örnek, teorik bir RL döngüsü için bir durum temsili (örneğin, nesne sayısı) oluşturarak bir çevre karesini işlemek üzere ultralytics paketinin nasıl kullanılacağını göstermektedir.
from ultralytics import YOLO
# Load the YOLO26 model to serve as the agent's vision system
model = YOLO("yolo26n.pt")
# Simulate the agent observing the environment (an image frame)
observation_frame = "https://ultralytics.com/images/bus.jpg"
# Process the frame to extract the current 'state'
results = model(observation_frame)
# The agent uses detection data to inform its next action
# For example, an autonomous delivery robot might stop if it sees people
num_objects = len(results[0].boxes)
print(f"Agent Observation: {num_objects} objects detected. Calculating next move...")Link to this sectionİlgili Terimleri Ayırt Etme#
Pekiştirmeli Öğrenmeyi diğer makine öğrenimi paradigmalarından ayırmak önemlidir:
- Denetimli Öğrenmeye karşı: Denetimli öğrenme, etiketli eğitim verileri sağlamak için bilgili bir dış denetmen gerektirir (örneğin, "bu görüntü bir kedi içerir"). Buna karşılık RL, açık etiketler olmadan kendi eylemlerinin sonuçlarından öğrenir ve keşif yoluyla optimal yolları bulur.
- Denetimsiz Öğrenmeye karşı: Denetimsiz öğrenme, etiketlenmemiş veriler içinde gizli yapıları veya desenleri bulmaya odaklanır (müşterileri kümelemek gibi). RL, verinin yapısını tanımlamaktan ziyade bir ödül sinyalini en üst düzeye çıkarmaya odaklandığı için açıkça hedef odaklı olmasıyla ayrılır.
İşlem gücü arttıkça, İnsan Geri Bildirimi ile Pekiştirmeli Öğrenme (RLHF) gibi teknikler, ajanların hedeflerini karmaşık insani değerler ve güvenlik standartlarıyla daha yakından hizalayarak nasıl öğrendiklerini geliştiriyor. Araştırmacılar, bu algoritmaları kıyaslamak ve geliştirmek için genellikle Gymnasium gibi standartlaştırılmış ortamlar kullanırlar. Bu ajanların algılama katmanları için gereken veri kümelerini yönetmek isteyen ekipler için Ultralytics Platform, etiketleme ve model yönetimi konusunda kapsamlı araçlar sunar.






