Deep Reinforcement Learning
Derin Pekiştirmeli Öğrenmeyi (DRL) ve yapay zeka karar vermeyi derin öğrenmeyle nasıl birleştirdiğini keşfet. Bugün Ultralytics YOLO26'yı algı katmanı olarak kullanmayı öğren.
Derin Pekiştirmeli Öğrenme (DRL), yapay zeka (AI) alanının, pekiştirmeli öğrenme yöntemlerinin karar verme becerilerini derin öğrenmenin (DL) algısal gücüyle birleştiren gelişmiş bir alt kümesidir. Geleneksel pekiştirmeli öğrenme, durumları eylemlere eşlemek için tablo tabanlı yöntemlere dayanırken, bu yöntemler ortam karmaşık veya görsel olduğunda zorlanır. DRL, video kareleri veya sensör verileri gibi yüksek boyutlu girdi verilerini yorumlamak için sinir ağlarını kullanarak bunun üstesinden gelir ve makinelerin doğrudan ham deneyimlerden, açık bir insan yönlendirmesi olmaksızın etkili stratejiler öğrenmesini sağlar.
Link to this sectionDRL'in Temel Mekanizması#
Bir DRL sisteminde, bir AI agent bir ortamla ayrık zaman adımlarında etkileşime girer. Her adımda ajan mevcut "durumu" gözlemler, bir politikaya dayalı olarak bir eylem seçer ve bu eylemin başarısını veya başarısızlığını gösteren bir ödül sinyali alır. Birincil hedef, zaman içinde kümülatif ödülü maksimize etmektir.
"Derin" bileşeni, politikayı (eylem stratejisi) veya değer fonksiyonunu (tahmini gelecekteki ödül) yaklaştırmak için derin sinir ağlarının kullanımını ifade eder. Bu, ajanın yapılandırılmamış verileri işlemesini sağlar ve bilgisayarlı görmeyi (CV) kullanarak ortamı tıpkı bir insan gibi "görmesine" olanak tanır. Bu yetenek, bu karmaşık ağların eğitimini kolaylaştıran PyTorch veya TensorFlow gibi çerçeveler tarafından desteklenir.
Link to this sectionGerçek Dünya Uygulamaları#
DRL, teorik araştırmaların ötesine geçerek çeşitli endüstrilerde pratik ve yüksek etkili uygulamalara dönüşmüştür:
- Gelişmiş Robotik: Robotikte AI alanında DRL, makinelerin kodlanması zor olan karmaşık motor becerilerinde ustalaşmasını sağlar. Robotlar, NVIDIA Isaac Sim gibi fizik motorlarında hareketlerini geliştirerek düzensiz nesneleri tutmayı veya engebeli arazilerde geçiş yapmayı öğrenebilirler. Bu genellikle, politikayı fiziksel donanıma dağıtmadan önce sentetik veriler üzerinde eğitim almayı içerir.
- Otonom Sürüş: Otonom araçlar, tahmin edilemez trafik senaryolarında gerçek zamanlı kararlar almak için DRL'den yararlanır. Nesne algılama modelleri yayaları ve tabelaları tanımlarken, DRL algoritmaları bu bilgiyi şerit birleştirme, kavşak navigasyonu ve hız kontrolü için güvenli sürüş politikaları belirlemek amacıyla kullanır ve güvenlik için gereken çıkarım gecikmesini etkin bir şekilde yönetir.
Link to this sectionDurum Gözlemcisi Olarak Görme#
Birçok DRL uygulaması için "durum" görseldir. Yüksek hızlı modeller, ajanın gözleri gibi davranarak ham görüntüleri, politika ağının üzerinde işlem yapabileceği yapılandırılmış verilere dönüştürür. Aşağıdaki örnek, YOLO26 modelinin bir ajan için nasıl algılama katmanı görevi gördüğünü ve ortamdan gözlemleri (örneğin, engel sayıları) çıkardığını göstermektedir.
from ultralytics import YOLO
# Load YOLO26n to serve as the perception layer for a DRL agent
model = YOLO("yolo26n.pt")
# Simulate an observation from the environment (e.g., a robot's camera feed)
observation_frame = "https://ultralytics.com/images/bus.jpg"
# Perform inference to extract the state (detected objects)
results = model(observation_frame)
# The detection count serves as a simplified state feature for the agent's policy
print(f"State Observation: {len(results[0].boxes)} objects detected.")Link to this sectionDRL'i İlgili Kavramlardan Ayırt Etmek#
Derin Pekiştirmeli Öğrenme'nin AI dünyasındaki benzersiz konumunu anlamak için benzer terimlerden ayırt edilmesine yardımcı olmak faydalıdır:
- Pekiştirmeli Öğrenme (RL): Standart RL temel kavramdır ancak genellikle büyük durum uzayları için pratik olmayan arama tablolarına (Q-tabloları gibi) dayanır. DRL, fonksiyonları yaklaştırmak için derin öğrenmeyi kullanarak bunu çözer ve görüntüler gibi karmaşık girdileri işlemesini sağlar.
- İnsan Geri Bildirimiyle Pekiştirmeli Öğrenme (RLHF): DRL genellikle matematiksel olarak tanımlanmış bir ödül fonksiyonu için optimize ederken (örneğin, bir oyundaki puanlar), RLHF, Büyük Dil Modellerini (LLM'ler) öznel insan tercihlerini kullanarak iyileştirir ve AI davranışını insan değerleriyle uyumlu hale getirir; bu, OpenAI gibi araştırma grupları tarafından popüler hale getirilen bir tekniktir.
- Unsupervised Learning: Denetimsiz yöntemler, açık bir geri bildirim olmaksızın verilerdeki gizli desenleri arar. Buna karşılık DRL, Sutton ve Barto tarafından temel metinlerde tartışıldığı üzere, temsilciyi belirli bir hedefe doğru aktif bir şekilde yönlendiren bir ödül sinyali ile desteklenen, hedef odaklı bir yaklaşımdır.
DRL sistemlerinin algılama katmanları için gereken veri kümelerini yönetmek isteyen geliştiriciler, ek açıklama ve bulut eğitimi iş akışlarını basitleştiren Ultralytics Platform'u kullanabilirler. Ayrıca araştırmacılar, DRL algoritmalarını yerleşik temellere göre kıyaslamak için genellikle Gymnasium gibi standartlaştırılmış ortamlar kullanırlar.






