Yolo Vision Shenzhen
Shenzhen
Şimdi katılın
Sözlük

Derin Pekiştirmeli Öğrenme

Derin pekiştirmeli öğrenmenin gücünü keşfedin: yapay zekanın oyun, robotik, sağlık hizmetleri ve daha pek çok alanda zorlukları çözmek için karmaşık davranışlar öğrendiği alan.

Derin Takviyeli Öğrenme (DRL), derin takviyeli öğrenmenin gelişmiş bir alt alanıdır. birleştiren makine öğrenimi (ML) karar verme çerçeveleri ile pekiştirmeli öğrenme derin öğrenmenin (DL) algılama yetenekleri. Geleneksel pekiştirmeli öğrenme, basit ortamlarda davranışı optimize etmek için deneme yanılmaya dayanırken, DRL çok katmanlı sinir ağlarını entegre ederek video kareleri veya karmaşık sensör okumaları gibi yüksek boyutlu duyusal verileri yorumlayabilir. Bu entegrasyon, bir Çözüm için sofistike stratejiler öğrenen yapay zeka ajanı dinamik, yapılandırılmamış ortamlarda, otonom navigasyondan stratejik oyunlara kadar uzanan zorlu problemler Oynuyorum.

Derin Takviyeli Öğrenmenin Mekaniği

DRL'nin merkezinde, genellikle matematiksel olarak bir ajan olarak modellenen bir ajan ve çevresi arasındaki etkileşim yer alır. Markov Karar Süreci (MDP). Aksine Bir modelin eğitildiği denetimli öğrenme Doğru cevapları bilinen etiketli bir veri kümesi üzerinde, bir DRL ajanı keşfederek öğrenir. Mevcut durumu gözlemler, bir eylemde bulunur ve geri bildirim olarak bilinen bir sinyal alır. "Ödül."

Karmaşık girdileri işlemek için DRL şunları kullanır konvolüsyonel sinir ağları (CNN'ler) veya belirli eylemlerin değerini tahmin etmek için diğer derin mimariler. Aşağıdaki gibi süreçler aracılığıyla geriye yayılım ve gradyan inişi, ağ kendi üzerinde kümülatif ödülleri maksimize etmek için model ağırlıkları zaman. Algoritmalar gibi Derin Q-Ağları (DQN) ve Proksimal Politika Optimizasyonu (PPO) bu eğitim sürecini stabilize etmede etkilidir ve aracıların öğrenmelerini yeni, görülmemiş durumlar.

Gerçek Dünya Uygulamaları

DRL'nin çok yönlülüğü, çeşitli sektörlerde dönüştürücü uygulamalara yol açmıştır:

  • Gelişmiş Robotik: Bu alanda Robotikte yapay zeka, DRL makinelerin ustalaşmasını sağlar karmaşık motor becerileri. Örneğin, robotlar nesneleri manipüle etmeyi veya engebeli arazide yürümeyi şu yollarla öğrenebilir gibi fizik simülasyon ortamlarına dayalı olarak hareketlerini sürekli olarak geliştiriyorlar. NVIDIA Isaac Sim.
  • Otonom Sistemler: Otonom araçlar DRL'den yararlanarak Öngörülemeyen trafikte gerçek zamanlı kararlar. Bu sistemler LiDAR ve kameralardan gelen girdileri işleyerek güvenli Şerit birleştirme ve kavşak navigasyonu için sürüş politikaları, genellikle görselleri ayrıştırmak için bilgisayarla görme (CV) Sahne.
  • Stratejik Oyun: DRL, aşağıdaki gibi sistemlerle küresel üne kavuştu DeepMind'ın AlphaGo' su insan dünya şampiyonlarını yendi. Bunlar ajanlar simülasyonda milyonlarca potansiyel stratejiyi keşfederek, insan taktiklerini aşan yeni taktikler keşfederler. Sezgi.

Durum Gözlemcisi Olarak Bilgisayarla Görmenin Entegre Edilmesi

Birçok DRL uygulaması için "durum" görsel bilgiyi temsil eder. Yüksek hız nesne algılama modelleri, nesnelerin gözleri olarak hizmet edebilir. Aracı, ham pikselleri politika ağının üzerinde işlem yapabileceği yapılandırılmış verilere dönüştürür.

Aşağıdaki örnek nasıl yapıldığını göstermektedir YOLO11 için kullanılabilir DRL aracısı için durum gözlemlerini çıkarır:

from ultralytics import YOLO

# Load YOLO11 to serve as the perception layer for a DRL agent
model = YOLO("yolo11n.pt")

# Simulate an observation from the environment (e.g., a robot's camera feed)
observation = "https://ultralytics.com/images/bus.jpg"

# Perform inference to extract the state (detected objects and locations)
results = model(observation)

# The detection count serves as a simple state feature for the agent's policy
print(f"State Observation: {len(results[0].boxes)} objects detected.")

DRL'yi İlgili Kavramlardan Ayırt Etme

Derin Takviye Öğrenimini benzer terimlerden ayırmak, onun bu alandaki benzersiz konumunu anlamak açısından faydalı olacaktır. Yapay zeka manzarası:

  • Takviyeli Öğrenme (RL): Standart RL temel kavramdır ancak genellikle pratik olmayan arama tablolarına (Q-tabloları gibi) dayanır büyük durum uzayları için. DRL bunu aşağıdakileri kullanarak çözer politikalara yaklaşmak için derin öğrenme Görüntüler gibi karmaşık girdileri işlemek için.
  • İnsan Geri Bildiriminden Takviye Öğrenimi (RLHF): DRL tipik olarak matematiksel olarak tanımlanmış bir ödül fonksiyonu (örneğin, bir oyundaki puanlar) için optimizasyon yaparken, RLHF modeller-özellikle Büyük Dil Modelleri (LLM' ler)-kullanım YZ davranışını insan değerleriyle uyumlu hale getirmek için öznel insan tercihleri.
  • Denetimsiz Öğrenme: Denetimsiz yöntemler, açık bir geri bildirim olmaksızın verilerdeki gizli örüntüleri arar. Buna karşın, DRL hedef odaklıdır, Ajanı belirli bir hedefe doğru yönlendiren bir ödül sinyali tarafından yönlendirilir.

Araçlar ve Çerçeveler

DRL sistemlerinin geliştirilmesi sağlam yazılım ekosistemleri gerektirir. Araştırmacılar aşağıdaki gibi çerçevelere güveniyor PyTorch ve TensorFlow temel sinir ağlarını oluşturmak için. Bunlar genellikle aşağıdaki gibi standart arayüz kütüphaneleri ile birleştirilir koleksiyonu sağlayan Gymnasium (eski adıyla OpenAI Gym) algoritmaları test etmek ve kıyaslamak için ortamlar. Bu modellerin eğitimi yoğun hesaplama gerektirir ve genellikle yüksek performanslı GPU 'ları gerekli kılmaktadır. yakınsama için gereken milyonlarca simülasyon adımının üstesinden gelebilir.

Ultralytics topluluğuna katılın

Yapay zekanın geleceğine katılın. Küresel yenilikçilerle bağlantı kurun, işbirliği yapın ve birlikte büyüyün

Şimdi katılın