Yolo Vision Shenzhen
Shenzhen
Şimdi katılın
Sözlük

Pekiştirmeli Öğrenme

Ajanların ödülleri en üst düzeye çıkarmak için deneme yanılma yoluyla eylemleri optimize ettiği takviyeli öğrenmeyi keşfedin. Kavramları, uygulamaları ve faydaları keşfedin!

Pekiştirmeli Öğrenme (RL), aşağıdakilerin dinamik bir alt kümesidir öğretmeye odaklanan makine öğrenimi (ML) otonom yapay zeka ajanı aracılığıyla en uygun kararların nasıl alınacağı deneme ve yanılma. Statik veri kümelerine dayanan diğer öğrenme paradigmalarının aksine, RL bir ajanın bir veri kümesi ile etkileşime girmesini içerir. Belirli bir hedefe ulaşmak için dinamik ortam. Temsilci, aşağıdakilere dayalı olarak ödüller veya cezalar şeklinde geri bildirim alır zaman içinde kümülatif ödülü en üst düzeye çıkarmak için stratejisini kademeli olarak iyileştirir. Bu süreç aşağıdakileri yansıtır kavramı Davranış psikolojisinde, davranışların sonuçlarla pekiştirildiği edimsel koşullanma.

Temel Kavramlar ve Mekanikler

Takviyeli Öğrenme çerçevesi genellikle matematiksel olarak şu şekilde tanımlanır Markov Karar Süreci (MDP). İçin Bu döngünün nasıl işlediğini anlamak için öğrenme döngüsünde yer alan temel bileşenleri ayırmak faydalı olacaktır:

  • Yapay Zeka Ajanı: Öğrenen veya karar verici Çevreyi algılayan ve eylemleri gerçekleştiren.
  • Ortam: Temsilcinin faaliyet gösterdiği fiziksel veya sanal dünya. Bu bağlamda Video oyunlarında yapay zeka, Bu oyun dünyasıdır; robotikte ise fiziksel alandır.
  • Durum: Temsilciye sağlanan mevcut durumun anlık görüntüsü. Bu genellikle duyusal verileri gibi girdi bilgisayarla görme (CV) sistemleri.
  • Eylem: Temsilci tarafından yapılan belirli hareket veya karar. Tüm olası hareketlerin kümesine eylem alanı.
  • Ödül: Bir eylem gerçekleştirildikten sonra çevreden alınan sayısal bir sinyal. Olumlu ödüller davranışı teşvik ederken, olumsuz ödüller (cezalar) davranışı caydırır.
  • Politika: Temsilcinin bir sonraki eylemi belirlemek için kullandığı strateji veya kural seti Mevcut durum.

Pekiştirmeli Öğrenmenin Gerçek Dünya Uygulamaları

RL, teorik araştırmaların ötesine geçmiştir ve artık çeşitli sektörlerde karmaşık, gerçek dünya sistemlerine güç vermektedir.

  • Robotikte Yapay Zeka: Üretimde ve lojistikte robotlar, farklı şekillerdeki nesneleri kavramak gibi karmaşık manipülasyon görevlerini öğrenmek için RL kullanır. Robot, her hareketi sabit kodlamak yerine, fiziksel geri bildirime dayalı olarak tutuşunu ayarlamayı öğrenerek önemli ölçüde verimliliğin artırılması akıllı üretim ortamları.
  • Otonom Araçlar: Sürücüsüz araçlar, üst düzey sürüş kararları vermek için RL kullanır. Bir yandan nesne algılama modelleri yayaları ve işaretleri, RL algoritmaları en güvenli ve en verimli manevraların belirlenmesine yardımcı olur, örneğin trafiğe ne zaman girileceği veya yoğun bir kavşakta nasıl gezinileceğini.
  • Trafik Kontrolü: Şehir planlamacıları, trafik sinyal zamanlamasını optimize etmek için RL'yi kullanır. Trafiği tedavi ederek akışını bir ödül fonksiyonu olarak kullanarak, sistemler tıkanıklığı azaltmak için dinamik olarak uyum sağlayabilir. Trafik yönetiminde yapay zeka.

Pekiştirmeli Öğrenme ve İlgili Terimler

Eğitim metodolojileri farklı olduğu için RL'yi diğer makine öğrenimi yaklaşımlarından ayırmak önemlidir önemli ölçüde.

  • Gözetimli Öğrenme: Bu yöntemi, aşağıdakileri içeren bir eğitim veri setine dayanır doğru çıktılarla (etiketler) eşleştirilmiş girdiler. Model, tahmini ile doğru çıktılar (etiketler) arasındaki hatayı en aza indirerek öğrenir. bilinen etiket. Buna karşılık, RL'nin "doğru" cevaplara önceden erişimi yoktur; bunları keşfetmesi gerekir etkileşim yoluyla.
  • Denetimsiz Öğrenme: Bu, etiketlenmemiş verilerdeki gizli kalıpları veya yapıları bulmayı içerir, örneğin müşterileri şu yollarla gruplandırmak gibi k-ortalamalar kümelemesi. RL farklıdır çünkü amaç sadece veri dağılımını analiz etmek değil, bir ödül sinyalini maksimize etmektir.
  • Derin Takviyeli Öğrenme (DRL): RL öğrenme paradigmasını tanımlarken, DRL bunu aşağıdakilerle birleştirir derin öğrenme. DRL'de, sinir ağları yaklaşık olarak politika veya değer fonksiyonu, aracının ham görüntü pikselleri gibi yüksek boyutlu girdileri işlemesini sağlar.

Bilgisayarlı Görme ile RL'nin Bütünleştirilmesi

Birçok uygulamada, bir ajanın gözlemlediği "durum" görseldir. Aşağıdaki gibi yüksek performanslı görüntü modelleri YOLO11 RL için algılama katmanı olarak sıklıkla kullanılır ajanlar. Görme modeli nesneleri detect etmek için sahneyi işler ve bu yapılandırılmış bilgi RL'ye aktarılır Bir sonraki eyleme karar vermek için ajan.

Aşağıdaki örnekte, beslenebilecek durumu (tespit edilen nesneler) oluşturmak için bir YOLO modelinin nasıl kullanılacağı gösterilmektedir bir RL karar verme döngüsüne dönüştürür.

from ultralytics import YOLO

# Load the YOLO11 model to serve as the perception system
model = YOLO("yolo11n.pt")

# The agent observes the environment (an image frame)
# In a real RL loop, this frame comes from a simulation or camera
observation_frame = "https://docs.ultralytics.com/modes/predict/"

# Process the frame to get the current 'state' (detected objects)
results = model(observation_frame)

# The detections (boxes, classes) act as the state for the RL agent
for result in results:
    print(f"Detected {len(result.boxes)} objects for the agent to analyze.")
    # This state data would next be passed to the RL policy network

Bu kavramların nasıl ölçeklendiğini keşfetmek için araştırmacılar genellikle aşağıdaki gibi ortamları kullanırlar RL algoritmalarının testini standartlaştırmak için OpenAI Gym (şimdi Gymnasium). As hesaplama gücü arttıkça, aşağıdaki gibi teknikler İnsan Geri Bildiriminden Takviyeli Öğrenme (RLHF) aracıların insani değerlerle nasıl uyum sağladığını daha da geliştiriyor.

Ultralytics topluluğuna katılın

Yapay zekanın geleceğine katılın. Küresel yenilikçilerle bağlantı kurun, işbirliği yapın ve birlikte büyüyün

Şimdi katılın