Reward Modeling
Makine öğreniminde ödül modellemeyi keşfet. Daha güvenli ve doğru bir performans için yapay zeka temsilcilerini ve Ultralytics YOLO26 modellerini hizalamak adına insan geri bildirimini nasıl kullandığını öğren.
Ödül modelleme, yapay zeka sistemlerine kendi davranışlarını insan tercihlerine göre nasıl değerlendireceklerini ve önceliklendireceklerini öğretmek için kullanılan bir makine öğrenimi tekniğidir. Geleneksel pekiştirmeli öğrenme ortamlarında, bir Yapay Zeka ajanı, video oyunundaki skor gibi önceden tanımlanmış, matematiksel olarak katı bir ödül fonksiyonunu maksimize ederek öğrenir. Ancak, "iyi" davranışın öznel veya nüanslı olduğu karmaşık gerçek dünya görevlerinde—örneğin kibar bir e-posta yazmak veya bir kavşakta güvenli bir şekilde ilerlemek—elle kusursuz bir ödül fonksiyonu yazmak neredeyse imkansızdır. Ödül modelleme, insan yargısı için bir vekil görevi görecek ikincil bir sinir ağı (ödül modeli) eğiterek bu sorunu çözer. Bu model, ana yapay zekanın çıktılarını değerlendirir ve skaler puanlar atayarak ana modeli güvenli, yardımcı ve doğru davranışlara doğru dinamik bir şekilde yönlendirir.
Link to this sectionÖdül Modelleme Nasıl Çalışır#
Bir ödül modeli oluşturma hattı, büyük ölçüde yüksek kaliteli insan geri bildirimi toplamaya dayanır.
- Veri Etiketleme ve Tercihler: İnsan açıklayıcılara, istemlerin yanı sıra bir yapay zeka modeli tarafından oluşturulan birden fazla yanıt verilir. Değerlendiriciler bu yanıtları yardımseverlik, zararsızlık ve doğruluk gibi kriterlere göre en iyiden en kötüye doğru sıralarlar. Bu büyük ölçekli açıklama iş akışlarını yönetmek, Ultralytics Platform kullanılarak sorunsuz bir şekilde halledilebilir.
- Vekil Ağı Eğitme: İnsan karşılaştırmalarından oluşan bu veri kümesi üzerinde özel bir sinir ağı eğitilir. Bir optimizasyon süreciyle, bir insanın hangi çıktıyı tercih edeceğini tahmin etmeyi öğrenir ve bir eylemin veya metin yanıtının gömülülerini tek bir skaler ödül değerine eşler. Sinir ağı mimarileri oluşturma hakkında daha fazla bilgiyi PyTorch API belgelerinde okuyabilirsin.
- Politika Optimizasyonu: Ana model, eylemlerini iyileştirmek için ödül modelinden gelen sürekli geri bildirimi kullanır; genellikle Yakınsak Politika Optimizasyonu (PPO) gibi algoritmalar kullanılır. Bu adım, modelin politikasını öğrenilen insan niyetiyle yinelemeli olarak hizalar.
Link to this sectionÖdül Modelleme vs. RLHF#
Ödül modellemeyi İnsan Geri Bildiriminden Pekiştirmeli Öğrenmeden (RLHF) ayırmak önemlidir. İki terim sıklıkla birlikte tartışılsa da eş anlamlı değildirler. RLHF, denetimli ince ayar, veri toplama ve politika güncellemelerini kapsayan, modelleri hizalamak için kullanılan kapsamlı uçtan uca hattır. Ödül modelleme ise RLHF hattı içindeki belirli, kritik bir bileşendir. Kesikli insan sıralamalarını, pekiştirmeli öğrenme algoritmasının optimize edebileceği sürekli bir matematiksel sinyale dönüştüren köprü görevi görür.
Link to this sectionGerçek Dünya Uygulamaları#
Ödül modelleme, insanlarla ve fiziksel dünyayla doğrudan etkileşime giren modern yapay zeka sistemleri geliştirmede önemli bir rol oynar.
- Büyük Dil Modelleri (LLM'ler): Konuşma tabanlı yapay zeka asistanları, yanıtlarının sadece olgusal olarak doğru değil, aynı zamanda kibar, alakalı ve toksik dilden arınmış olmasını sağlamak için ödül modellerine güvenir. Yapay zeka güvenliğini araştıran kuruluşlar, yardımcı ve zararsız yapay zeka hizalamasını yansıtan sistemler oluşturmak için ödül modellemeyi sürekli olarak geliştirmektedir.
- Otonom Araçlar ve Robotik: Fiziksel otomasyonda ödül modelleri, robotların karmaşık sürüş kurallarını veya nesne manipülasyon stratejilerini anlamalarına yardımcı olur. Ultralytics YOLO26 tarafından desteklenen bir algılama sistemi yayaları ve yol işaretlerini tespit ederken, bir ödül modeli aracın planlanan rotasını değerlendirerek yapay zekanın sadece agresif noktadan noktaya navigasyon yerine yolcu konforuna ve güvenliğine öncelik vermesini sağlar.
Link to this sectionTemel Bir Ödül Modeli Kavramını Uygulama#
Aşağıdaki Python örneği, bir ödül modelinin temel yapısını göstermek için torch kullanır. Uygulamada bu ağ, insan tercihlerine uygun bir çıktıya daha yüksek bir skaler puan vermeyi öğrenir.
import torch
import torch.nn as nn
# Define a simplified reward model architecture
class SimpleRewardModel(nn.Module):
def __init__(self):
super().__init__()
# Maps the AI's output embedding to a single reward score
self.fc = nn.Linear(768, 1)
def forward(self, embeddings):
return self.fc(embeddings)
# Initialize the model
reward_model = SimpleRewardModel()
# Simulated embeddings for a human-preferred action and a rejected action
chosen_action = torch.randn(1, 768)
rejected_action = torch.randn(1, 768)
# The model predicts scalar scores to guide the primary agent
print(f"Chosen Action Reward: {reward_model(chosen_action).item():.4f}")
print(f"Rejected Action Reward: {reward_model(rejected_action).item():.4f}")Hizalamanın açık kaynaklı temel modelleri nasıl etkilediğine dair daha derin bir inceleme için, dil modellerini insan niyetiyle hizalama üzerine temel araştırmaları incele ve bilgisayarlı görme (CV) sistemlerinin dinamik ortamlarla güvenli bir şekilde etkileşime girmek için gelişmiş geri bildirim döngülerinden nasıl yararlandığını öğren.






