Derin Takviyeli Öğrenme (DRL), Takviyeli Öğrenme (RL ) ilkelerini Derin Öğrenmenin (DL) gücü ile birleştirir. Yazılım ajanlarının deneme yanılma yoluyla karmaşık, genellikle yüksek boyutlu ortamlarda optimum davranışları öğrenmelerini sağlar. Geniş durum uzaylarıyla (bir kameradan alınan ham piksel verileri gibi) mücadele edebilen geleneksel RL'nin aksine DRL, değer fonksiyonu (gelecekteki ödülleri tahmin etme) veya politika (durumları eylemlerle eşleştirme) gibi öğrenme için gereken fonksiyonları yaklaşık olarak hesaplamak için derin sinir ağlarını (NN' ler) kullanır. Bu sayede DRL ajanları, görüntüler veya sensör okumaları gibi karmaşık duyusal girdilerden doğrudan öğrenerek daha önce çözülmesi zor olan sorunların üstesinden gelebilir.
Derin Takviyeli Öğrenme Nasıl Çalışır?
DRL özünde, bir ajanın ayrık zaman adımları boyunca bir çevre ile etkileşime girmesini içerir. Süreç tipik olarak aşağıdaki gibi gelişir:
- Gözlem: Temsilci çevrenin mevcut durumunu gözlemler. DRL'de bu durum, bir Evrişimsel Sinir Ağı (CNN) tarafından işlenen görüntü pikselleri gibi yüksek boyutlu verilerle temsil edilebilir.
- Eylem Seçimi: Gözlemlenen duruma dayanarak, ajan, derin bir sinir ağı tarafından temsil edilen politikasını kullanarak bir eylem seçer.
- Etkileşim: Temsilci seçilen eylemi gerçekleştirerek ortamın yeni bir duruma geçmesini sağlar.
- Geri Bildirim (Ödül): Çevre, eylemin önceki durumda ne kadar iyi veya kötü olduğunu gösteren skaler bir ödül sinyali sağlar.
- Öğrenme: Temsilci, sinir ağını (politika veya değer fonksiyonu) geriye yayılma ve gradyan inişi gibi algoritmalar aracılığıyla güncellemek için ödül sinyalini ve durum geçişini kullanır. Amaç, zaman içinde gelecekteki kümülatif ödülü maksimize etmek için ağın ağırlıklarını ayarlamaktır. Bu öğrenme döngüsü tekrarlanarak ajanın karar verme stratejisini aşamalı olarak geliştirmesine olanak tanır.
DRL'de Anahtar Kavramlar
DRL'yi anlamak, şimdi derin öğrenme teknikleri kullanılarak ölçeklendirilen Takviyeli Öğrenmeden birkaç temel fikre aşina olmayı gerektirir:
- Aracı: Karar vermeyi öğrenen algoritma veya model.
- Ortam: Ajanın etkileşime girdiği dünya veya sistem (örneğin, bir oyun simülasyonu, fiziksel bir robotun çevresi). Araştırma için standartlaştırılmış ortamlar genellikle Gymnasium (eski adıyla OpenAI Gym) gibi araç setleri tarafından sağlanır.
- Durum: Zamanın belirli bir noktasında ortamın bir temsili. DRL, görüntüler veya sensör dizileri gibi büyük miktarda veri ile temsil edilen durumları ele almada mükemmeldir.
- Eylem: Temsilci tarafından verilen ve çevreyi etkileyen bir karar.
- Ödül: Bir durumda gerçekleştirilen bir eylemin hemen arzu edilebilirliğini gösteren çevreden gelen sayısal geri bildirim.
- Politika: Ajanın stratejisi, durumları eylemlerle eşleştirir. DRL'de bu tipik olarak derin bir sinir ağıdır.
- Değer Fonksiyonu: Belirli bir durum veya durum-eylem çiftinden beklenen uzun vadeli kümülatif ödülü tahmin eder. Bu da genellikle derin bir sinir ağı ile temsil edilir.
- Keşif ve Sömürü: Temsilcinin daha iyi stratejiler keşfetmek için yeni eylemler denemek (keşif) ile bilinen iyi eylemlere bağlı kalmak (sömürü) arasında denge kurması gereken temel bir değiş tokuş.
DRL Diğer Makine Öğrenimi Paradigmalarına Karşı
DRL, diğer birincil Makine Öğrenimi (ML) yaklaşımlarından önemli ölçüde farklıdır:
- Denetimli Öğrenme: Etiketli örnekler (girdi-çıktı çiftleri) içeren bir veri kümesinden öğrenir. gibi modelleri kullanarak görüntü sınıflandırma veya nesne algılama gibi görevler Ultralytics YOLO bu kategoriye girer. Buna karşın DRL, her bir durum için açık doğru cevaplar olmaksızın ödül sinyallerinden öğrenir.
- Denetimsiz Öğrenme: Etiketsiz verilerden örüntüleri ve yapıları öğrenir (örn. kümeleme). DRL, etkileşim ve geri bildirim yoluyla hedef odaklı davranışı öğrenmeye odaklanır.
- Takviyeli Öğrenme (RL): DRL, derin sinir ağlarını kullanan özel bir RL türüdür. Geleneksel RL genellikle DRL'nin parladığı çok büyük veya sürekli durum uzaylarına sahip problemler için uygun olmayan tablolar (Q-tabloları) gibi daha basit gösterimler kullanır.
Gerçek Dünya Uygulamaları
DRL, çeşitli karmaşık alanlarda çığır açmıştır:
- Robotik: Nesne manipülasyonu, hareket ve montaj gibi karmaşık görevleri yerine getirmek için robotları eğitmek, genellikle doğrudan kamera girdilerinden veya sensör verilerinden öğrenmek. Bu konu Yapay Zekanın Robotikteki Rolü gibi kaynaklarda incelenmiştir.
- Oyun Oynama: Go(DeepMind'ın AlphaGo'su) ve çeşitli video oyunları(Dota 2 için OpenAI Five) gibi karmaşık oyunlarda insanüstü performans elde etmek.
- Otonom Araçlar: Sürücüsüz araçlarda yapay zeka bölümünde tartışıldığı gibi, dinamik trafik senaryolarında navigasyon, yol planlama ve karar verme için sofistike kontrol politikaları geliştirmek.
- Kaynak Optimizasyonu: Enerji şebekeleri(yenilenebilir enerjide yapayzeka), trafik sinyal kontrolü (trafikyönetiminde yapayzeka) ve kimyasal reaksiyon optimizasyonu gibi karmaşık sistemlerin yönetilmesi.
- Öneri Sistemleri: Uzun vadeli kullanıcı katılımını veya memnuniyetini en üst düzeye çıkarmak için öneri dizilerini optimize etme.
- Sağlık Hizmetleri: Hasta durumlarına ve sonuçlarına dayalı olarak en uygun tedavi politikalarını veya ilaç dozajlarını keşfetmek, sağlık hizmetlerinde yapay zeka gibi alanlara katkıda bulunmak.
Yapay Zeka Ekosisteminde Uygunluk
Derin Takviye Öğrenimi, makine özerkliği ve karar verme sınırlarını zorlayan önemli bir Yapay Zeka (AI) araştırma alanını temsil eder. Ultralytics gibi şirketler, denetimli öğrenme kullanarak nesne algılama ve görüntü segmentasyonu gibi görevler için öncelikle Ultralytics YOLO gibi son teknoloji ürünü görme modellerine odaklanırken, bu tür algılama sistemlerinin çıktıları genellikle DRL aracıları için çok önemli girdilerdir. Örneğin, bir robot, bir DRL politikası bir sonraki eyleme karar vermeden önce çevresini (durum temsili) algılamak için Ultralytics HUB aracılığıyla dağıtılan bir Ultralytics YOLO modelini kullanabilir. DRL'yi anlamak, gelişmiş algının daha geniş otonom sistemlere ve Gymnasium gibi araç setleri ve aşağıdaki gibi çerçeveler kullanan YZ topluluğu tarafından ele alınan karmaşık kontrol sorunlarına nasıl uyduğu konusunda bağlam sağlar PyTorchPyTorch ana sayfası) ve TensorFlowTensorFlow ana sayfası). DeepMind gibi araştırma kuruluşları ve Association for the Advancement of Artificial Intelligence (AAAI) gibi akademik kurumlar bu heyecan verici alanda ilerleme kaydetmeye devam ediyor.