Derin Pekiştirme Öğrenimi (DRL) ve bunun yapay zeka karar verme sürecini derin öğrenme ile nasıl birleştirdiğini keşfedin. Ultralytics algılama katmanı olarak kullanmayı bugün öğrenin.
Derin Pekiştirme Öğrenimi (DRL), yapay zeka (AI) alanının gelişmiş bir alt kümesidir ve pekiştirme öğreniminin karar verme yeteneklerini derin öğrenmenin (DL) algısal gücüyle birleştirir. Geleneksel pekiştirme öğrenimi, durumları eylemlere eşlemek için tablo yöntemlerine dayanırken, bu yöntemler ortam karmaşık veya görsel olduğunda zorluk çeker. DRL, video kareleri veya sensör okumaları gibi yüksek boyutlu giriş verilerini yorumlamak için sinir ağlarını kullanarak bu sorunu aşar ve makinelerin, açık insan talimatı olmadan ham deneyimlerden doğrudan etkili stratejiler öğrenmesini sağlar.
Bir DRL sisteminde, bir AI ajanı ayrık zaman adımlarında bir ortamla etkileşime girer. Her adımda, ajan mevcut "durumu" gözlemler, bir politikaya göre bir eylem seçer ve bu eylemin başarısını veya başarısızlığını gösteren bir ödül sinyali alır. Birincil hedef, zaman içinde birikimli ödülü en üst düzeye çıkarmaktır.
"Derin" bileşeni, politikayı (eylem stratejisi) veya değer fonksiyonunu (tahmini gelecekteki ödül) yaklaşık olarak belirlemek için derin sinir ağlarının kullanımını ifade eder. Bu, ajanın yapılandırılmamış verileri işlemek, bilgisayar görüşünü (CV) kullanarak ortamı bir insan gibi "görmek" için kullanmasını sağlar. Bu yetenek, PyTorch veya TensorFlowgibi çerçeveler tarafından desteklenir ve bu karmaşık ağların eğitimini kolaylaştırır.
DRL, teorik araştırmanın ötesine geçerek çeşitli endüstrilerde pratik ve yüksek etkili uygulamalara yönelmiştir:
Birçok DRL uygulamasında, "durum" görseldir. Yüksek hızlı modeller, ajanın gözleri gibi davranarak ham görüntüleri, politika ağının üzerinde işlem yapabileceği yapılandırılmış verilere dönüştürür. Aşağıdaki örnek, YOLO26 modelinin bir ajan için algılama katmanı olarak nasıl hizmet ettiğini ve çevreden gözlemleri (ör. engel sayıları) nasıl çıkardığını göstermektedir.
from ultralytics import YOLO
# Load YOLO26n to serve as the perception layer for a DRL agent
model = YOLO("yolo26n.pt")
# Simulate an observation from the environment (e.g., a robot's camera feed)
observation_frame = "https://ultralytics.com/images/bus.jpg"
# Perform inference to extract the state (detected objects)
results = model(observation_frame)
# The detection count serves as a simplified state feature for the agent's policy
print(f"State Observation: {len(results[0].boxes)} objects detected.")
Derin Takviye Öğrenimini benzer terimlerden ayırmak, onun bu alandaki benzersiz konumunu anlamak açısından faydalı olacaktır. Yapay zeka manzarası:
DRL sistemlerinin algılama katmanları için gerekli veri kümelerini yönetmek isteyen geliştiriciler, Ultralytics kullanabilirler. Bu platform, açıklama ve bulut eğitimi iş akışlarını basitleştirir. Ayrıca, araştırmacılar genellikle Gymnasium gibi standartlaştırılmış ortamları kullanarak DRL algoritmalarını yerleşik temel değerlerle karşılaştırırlar.