Yolo Vision Shenzhen
Shenzhen
Şimdi katılın
Sözlük

Derin Pekiştirmeli Öğrenme

Derin Pekiştirme Öğrenimi (DRL) ve bunun yapay zeka karar verme sürecini derin öğrenme ile nasıl birleştirdiğini keşfedin. Ultralytics algılama katmanı olarak kullanmayı bugün öğrenin.

Derin Pekiştirme Öğrenimi (DRL), yapay zeka (AI) alanının gelişmiş bir alt kümesidir ve pekiştirme öğreniminin karar verme yeteneklerini derin öğrenmenin (DL) algısal gücüyle birleştirir. Geleneksel pekiştirme öğrenimi, durumları eylemlere eşlemek için tablo yöntemlerine dayanırken, bu yöntemler ortam karmaşık veya görsel olduğunda zorluk çeker. DRL, video kareleri veya sensör okumaları gibi yüksek boyutlu giriş verilerini yorumlamak için sinir ağlarını kullanarak bu sorunu aşar ve makinelerin, açık insan talimatı olmadan ham deneyimlerden doğrudan etkili stratejiler öğrenmesini sağlar.

DRL'nin Temel Mekanizması

Bir DRL sisteminde, bir AI ajanı ayrık zaman adımlarında bir ortamla etkileşime girer. Her adımda, ajan mevcut "durumu" gözlemler, bir politikaya göre bir eylem seçer ve bu eylemin başarısını veya başarısızlığını gösteren bir ödül sinyali alır. Birincil hedef, zaman içinde birikimli ödülü en üst düzeye çıkarmaktır.

"Derin" bileşeni, politikayı (eylem stratejisi) veya değer fonksiyonunu (tahmini gelecekteki ödül) yaklaşık olarak belirlemek için derin sinir ağlarının kullanımını ifade eder. Bu, ajanın yapılandırılmamış verileri işlemek, bilgisayar görüşünü (CV) kullanarak ortamı bir insan gibi "görmek" için kullanmasını sağlar. Bu yetenek, PyTorch veya TensorFlowgibi çerçeveler tarafından desteklenir ve bu karmaşık ağların eğitimini kolaylaştırır.

Gerçek Dünya Uygulamaları

DRL, teorik araştırmanın ötesine geçerek çeşitli endüstrilerde pratik ve yüksek etkili uygulamalara yönelmiştir:

  • Gelişmiş Robotik: Robotikteki yapay zeka alanında, DRL makinelerin sabit kodlaması zor olan karmaşık motor becerilerini öğrenmesini sağlar. Robotlar, NVIDIA Sim gibi fizik motorları içinde hareketlerini geliştirerek düzensiz nesneleri kavramayı veya engebeli arazide hareket etmeyi öğrenebilir. Bu genellikle, politikayı fiziksel donanıma uygulamadan önce sentetik veriler üzerinde eğitim yapmayı içerir.
  • Otonom Sürüş: Otonom araçlar, öngörülemeyen trafik senaryolarında gerçek zamanlı kararlar almak için DRL'yi kullanır. Nesne algılama modelleri yayaları ve işaretleri tanımlarken, DRL algoritmaları bu bilgileri kullanarak şerit birleştirme, kavşak navigasyonu ve hız kontrolü için güvenli sürüş politikaları belirler ve güvenlik için gerekli olan çıkarım gecikmesini etkili bir şekilde yönetir.

Devlet Gözlemcisi Olarak Vizyon

Birçok DRL uygulamasında, "durum" görseldir. Yüksek hızlı modeller, ajanın gözleri gibi davranarak ham görüntüleri, politika ağının üzerinde işlem yapabileceği yapılandırılmış verilere dönüştürür. Aşağıdaki örnek, YOLO26 modelinin bir ajan için algılama katmanı olarak nasıl hizmet ettiğini ve çevreden gözlemleri (ör. engel sayıları) nasıl çıkardığını göstermektedir.

from ultralytics import YOLO

# Load YOLO26n to serve as the perception layer for a DRL agent
model = YOLO("yolo26n.pt")

# Simulate an observation from the environment (e.g., a robot's camera feed)
observation_frame = "https://ultralytics.com/images/bus.jpg"

# Perform inference to extract the state (detected objects)
results = model(observation_frame)

# The detection count serves as a simplified state feature for the agent's policy
print(f"State Observation: {len(results[0].boxes)} objects detected.")

DRL'yi İlgili Kavramlardan Ayırt Etme

Derin Takviye Öğrenimini benzer terimlerden ayırmak, onun bu alandaki benzersiz konumunu anlamak açısından faydalı olacaktır. Yapay zeka manzarası:

  • Pekiştirme Öğrenimi (RL): Standart RL temel kavramdır, ancak genellikle büyük durum alanları için pratik olmayan arama tablolarına (Q-tabloları gibi) dayanır. DRL, fonksiyonları yaklaştırmak için derin öğrenmeyi kullanarak bu sorunu çözer ve görüntü gibi karmaşık girdileri işleyebilir.
  • İnsan Geri Bildiriminden Güçlendirme Öğrenimi (RLHF): DRL genellikle matematiksel olarak tanımlanmış bir ödül fonksiyonunu (örneğin, bir oyundaki puanlar) optimize ederken, RLHF, modellerin, özellikle de Büyük Dil Modellerinin (LLM'ler) öznel insan tercihlerini kullanarak AI davranışını insan değerleriyle uyumlu hale getirir. Bu teknik, OpenAI gibi araştırma grupları tarafından popüler hale getirilmiştir.
  • Denetimsiz Öğrenme: Denetimsiz yöntemler, açık geri bildirim olmadan verilerdeki gizli kalıpları arar. Buna karşılık, DRL hedef odaklıdır ve Sutton ve Barto'nun temel metinlerinde tartışıldığı gibi, ajanı belirli bir hedefe doğru aktif olarak yönlendiren bir ödül sinyali tarafından yönlendirilir. .

DRL sistemlerinin algılama katmanları için gerekli veri kümelerini yönetmek isteyen geliştiriciler, Ultralytics kullanabilirler. Bu platform, açıklama ve bulut eğitimi iş akışlarını basitleştirir. Ayrıca, araştırmacılar genellikle Gymnasium gibi standartlaştırılmış ortamları kullanarak DRL algoritmalarını yerleşik temel değerlerle karşılaştırırlar.

Ultralytics topluluğuna katılın

Yapay zekanın geleceğine katılın. Küresel yenilikçilerle bağlantı kurun, işbirliği yapın ve birlikte büyüyün

Şimdi katılın