Yolo Vision Shenzhen
Shenzhen
Şimdi katılın
Sözlük

Pekiştirmeli Öğrenme

Pekiştirme Öğreniminin (RL) temel kavramlarını keşfedin. Ajanların geri bildirimi kullanarak görevleri nasıl ustaca yerine getirdiklerini öğrenin ve Ultralytics RL görüntü sistemlerini nasıl güçlendirdiğini görün.

Pekiştirme Öğrenimi (RL), makine öğreniminin (ML) hedef odaklı bir alt kümesidir. Bu yaklaşımda, ajan olarak bilinen otonom bir sistem, eylemler gerçekleştirerek ve çevresinden geri bildirim alarak karar vermeyi öğrenir. Doğru cevaplarla etiketlenmiş statik veri kümelerine dayanan denetimli öğrenmeden farklı olarak, RL algoritmaları deneme yanılma yoluyla dinamik bir süreçle öğrenir. Ajan, bir simülasyon veya gerçek dünya ile etkileşime girerek, eylemlerinin sonuçlarını gözlemler ve hangi stratejilerin uzun vadede en yüksek getiriyi sağladığını belirler. Bu yaklaşım, davranışın zaman içinde olumlu pekiştirme (ödüller) ve olumsuz pekiştirme (cezalar) ile şekillendirildiği operant koşullanma psikolojik kavramını yakından taklit eder.

RL Döngüsünün Temel Kavramları

RL'nin nasıl işlediğini anlamak için, onu sürekli bir etkileşim döngüsü olarak görselleştirmek yararlıdır. Bu çerçeve genellikle matematiksel olarak Markov Karar Süreci (MDP) olarak formüle edilir ve sonuçların kısmen rastgele, kısmen de karar verici tarafından kontrol edildiği durumlarda karar vermeyi yapılandırır.

Bu öğrenme döngüsünün temel bileşenleri şunlardır:

  • AI Ajanı: Öğrenme ve karar verme işlemlerinden sorumlu olan varlık. Çevreyi algılar ve kümülatif başarısını en üst düzeye çıkarmak için eylemlerde bulunur.
  • Çevre: Ajanın faaliyet gösterdiği dış dünya. Bu, karmaşık bir video oyunu, bir finansal piyasa simülasyonu veya lojistikte yapay zeka alanında bir fiziksel depo olabilir. AI in logistics.
  • Durum: Mevcut durumun bir anlık görüntüsü veya temsili. Görsel uygulamalarda, bu genellikle detect ve engelleri detect için bilgisayar görüşü (CV) kullanarak kamera görüntülerini işlemeyi içerir.
  • Eylem: Ajanın yaptığı belirli hareket veya seçim. Olası tüm hareketlerin tamamı eylem alanı olarak adlandırılır.
  • Ödül: Bir eylemden sonra ortamdan ajana gönderilen sayısal bir sinyal. İyi tasarlanmış bir ödül fonksiyonu, yararlı eylemlere pozitif değerler ve zararlı eylemlere cezalar atar.
  • Politika: Ajanın mevcut duruma göre bir sonraki eylemi belirlemek için kullandığı strateji veya kural seti. Q-öğrenme gibi algoritmalar, bu politikanın nasıl güncelleneceğini ve optimize edileceğini tanımlar.

Gerçek Dünya Uygulamaları

Güçlendirme öğrenimi, teorik araştırmanın ötesine geçerek çeşitli endüstrilerde pratik ve yüksek etkili uygulamalara dönüşmüştür. endüstriler.

  • Gelişmiş Robotik: Robotikteki yapay zeka alanında, RL makinelerin sabit kodlaması zor olan karmaşık motor becerilerini öğrenmesini sağlar. Robotlar, gerçek dünyaya yerleştirilmeden önce NVIDIA Sim gibi fizik motorlarında eğitim alarak düzensiz nesneleri kavramayı veya engebeli arazide hareket etmeyi öğrenebilir.
  • Otonom Sistemler: Otonom araçlar, öngörülemeyen trafik senaryolarında gerçek zamanlı kararlar almak için RL kullanır. Nesne algılama modelleri yayaları ve işaretleri tanımlarken, RL algoritmaları şerit birleştirme ve kavşak navigasyonu için güvenli sürüş politikalarının belirlenmesine yardımcı olur.
  • Stratejik Optimizasyon: RL, Google AlphaGo gibi sistemlerin karmaşık tahta oyunlarında insan dünya şampiyonlarını yenmesiyle küresel ilgi gördü. Oyunların ötesinde, bu ajanlar enerji tüketimini azaltmak için veri merkezlerindeki soğutma sistemlerini kontrol etmek gibi endüstriyel lojistiği optimize ediyor. RL, yapay zeka ile ilgili en heyecan verici alanlardan biri olarak kabul ediliyor.

RL ile Vizyonu Entegre Etmek

Birçok modern uygulamada, bir ajanın gözlemlediği "durum" görseldir. YOLO26 gibi yüksek performanslı modeller, RL ajanları için algılama katmanı görevi görür ve ham görüntüleri yapılandırılmış verilere dönüştürür. Nesnelerin konumu ve sınıfı gibi işlenen bu bilgiler, RL politikasının bir eylem seçmek için kullandığı durum haline gelir.

Aşağıdaki örnekte, aşağıdakilerin nasıl kullanılacağı gösterilmektedir ultralytics bir ortam çerçevesini işlemek için paket, teorik bir RL döngüsü için bir durum temsili (örneğin, nesne sayısı) oluşturur.

from ultralytics import YOLO

# Load the YOLO26 model to serve as the agent's vision system
model = YOLO("yolo26n.pt")

# Simulate the agent observing the environment (an image frame)
observation_frame = "https://ultralytics.com/images/bus.jpg"

# Process the frame to extract the current 'state'
results = model(observation_frame)

# The agent uses detection data to inform its next action
# For example, an autonomous delivery robot might stop if it sees people
num_objects = len(results[0].boxes)
print(f"Agent Observation: {num_objects} objects detected. Calculating next move...")

İlgili Terimlerin Farklılaştırılması

Pekiştirme Öğrenmesini diğer makine öğrenimi paradigmalarından ayırmak önemlidir:

  • vs. Denetimli Öğrenme: Denetimli öğrenme, etiketli eğitim verileri (örneğin, "bu görüntü bir kedi içeriyor") sağlamak için bilgili bir dış denetçi gerektirir. Buna karşılık, RL, açık etiketler olmadan kendi eylemlerinin sonuçlarından öğrenir ve keşif yoluyla en uygun yolları keşfeder.
  • vs. Denetimsiz Öğrenme: Denetimsiz öğrenme, etiketlenmemiş veriler içindeki gizli yapıları veya kalıpları bulmaya odaklanır (örneğin, müşterileri kümeleme). RL ise, veri yapısını sadece tanımlamak yerine, ödül sinyalini en üst düzeye çıkarmaya odaklanan, açıkça hedef odaklı olmasıyla farklıdır.

Hesaplama gücü arttıkça, İnsan Geri Bildiriminden Güçlendirme Öğrenimi (RLHF) gibi teknikler, ajanların öğrenme şeklini daha da iyileştirerek, hedeflerini karmaşık insan değerleri ve güvenlik standartlarıyla daha yakından uyumlu hale getiriyor. Araştırmacılar genellikle bu algoritmaları karşılaştırmak ve iyileştirmek için Gymnasium gibi standartlaştırılmış ortamlar kullanıyor. Bu ajanların algılama katmanları için gerekli veri kümelerini yönetmek isteyen ekipler için Ultralytics , açıklama ve model yönetimi için kapsamlı araçlar sunuyor.

Ultralytics topluluğuna katılın

Yapay zekanın geleceğine katılın. Küresel yenilikçilerle bağlantı kurun, işbirliği yapın ve birlikte büyüyün

Şimdi katılın