Reward Modeling
Makine öğreniminde ödül modellemeyi keşfet. İnsan geri bildiriminin, AI ajanlarını ve Ultralytics YOLO26 modellerini daha güvenli ve daha doğru bir performans için hizalamada nasıl kullanıldığını öğren.
Ödül modelleme, yapay zeka sistemlerine kendi davranışlarını insan tercihlerine göre nasıl değerlendireceklerini ve önceliklendireceklerini öğretmek için kullanılan bir makine öğrenimi tekniğidir. Geleneksel pekiştirmeli öğrenme ortamlarında, bir AI ajanı, tıpkı bir video oyunundaki puan gibi, önceden tanımlanmış ve matematiksel olarak katı bir ödül fonksiyonunu maksimize ederek öğrenir. Ancak, "iyi" davranışın öznel veya incelikli olduğu karmaşık gerçek dünya görevlerinde—örneğin kibar bir e-posta yazmak veya bir kavşakta güvenli bir şekilde ilerlemek gibi—elle kusursuz bir ödül fonksiyonu yazmak neredeyse imkansızdır. Ödül modelleme, ikincil bir sinir ağı (ödül modeli) eğiterek ve bunu insan yargısı için bir vekil olarak kullanarak bu sorunu çözer. Bu model, ana AI'nın çıktılarını değerlendirir ve skaler puanlar atayarak ana modeli güvenli, yardımcı ve doğru davranışlara doğru dinamik bir şekilde yönlendirir.
Link to this sectionÖdül Modelleme Nasıl Çalışır?#
Bir ödül modeli oluşturma hattı, büyük ölçüde yüksek kaliteli insan geri bildirimi toplamaya dayanır.
- Veri Etiketleme ve Tercihler: İnsan açıklayıcılara, bir AI modeli tarafından üretilen birden fazla yanıtla birlikte istemler verilir. Değerlendiriciler bu yanıtları yardımseverlik, zararsızlık ve doğruluk gibi kriterlere göre en iyiden en kötüye doğru sıralarlar. Bu büyük ölçekli etiketleme iş akışlarının yönetimi, Ultralytics Platform kullanılarak sorunsuz bir şekilde gerçekleştirilebilir.
- Vekil Ağı Eğitme: İnsan karşılaştırmalarından oluşan bu veri kümesi üzerinde özel bir sinir ağı eğitilir. Bir optimizasyon süreciyle, bir eylemin veya metin yanıtının gömülerini tek bir skaler ödül değerine eşleyerek, bir insanın hangi çıktıyı tercih edeceğini tahmin etmeyi öğrenir. Sinir ağı mimarileri oluşturma hakkında daha fazla bilgiyi PyTorch API dokümantasyonu sayfasından okuyabilirsin.
- Politika Optimizasyonu: Ana model, eylemlerini iyileştirmek için ödül modelinden gelen sürekli geri bildirimi kullanır ve genellikle Proximal Policy Optimization (PPO) gibi algoritmalar kullanır. Bu adım, modelin politikasını öğrenilen insan niyetiyle yinelemeli olarak hizalar.
Link to this sectionÖdül Modelleme ve RLHF Karşılaştırması#
Ödül modellemeyi İnsan Geri Bildirimli Pekiştirmeli Öğrenmeden (RLHF) ayırmak önemlidir. Bu iki terim sıkça birlikte tartışılsa da, eş anlamlı değillerdir. RLHF, denetimli ince ayar, veri toplama ve politika güncellemelerini kapsayan, modelleri hizalamak için kullanılan kapsamlı uçtan uca hattır. Ödül modelleme ise RLHF hattı içindeki belirli ve kritik bir bileşendir. Ayrık insan sıralamalarını, pekiştirmeli öğrenme algoritmasının optimize edebileceği sürekli bir matematiksel sinyale dönüştüren bir köprü görevi görür.
Link to this sectionGerçek Dünya Uygulamaları#
Ödül modelleme, insanlarla ve fiziksel dünyayla doğrudan etkileşime giren modern AI sistemleri geliştirmede önemli bir araçtır.
- Büyük Dil Modelleri (LLM'ler): Konuşma tabanlı AI asistanları, yanıtlarının sadece olgusal olarak doğru değil, aynı zamanda nazik, ilgili ve toksik dil içermediğinden emin olmak için ödül modellerine güvenirler. AI güvenliğini araştıran organizasyonlar, yardımcı ve zararsız AI hizalamasını yansıtan sistemler oluşturmak için ödül modellemeyi sürekli olarak geliştirmektedir.
- Otonom Araçlar ve Robotik: Fiziksel otomasyonda ödül modelleri, robotların karmaşık sürüş görgü kurallarını veya nesne manipülasyon stratejilerini anlamalarına yardımcı olur. Ultralytics YOLO26 destekli bir algılama sistemi yayaları ve yol işaretlerini tespit edebilirken, bir ödül modeli aracın planlanan yörüngesini değerlendirerek AI'nın sadece agresif noktadan noktaya navigasyon yerine yolcu konforuna ve güvenliğine öncelik vermesini sağlar.
Link to this sectionTemel Bir Ödül Modeli Konseptinin Uygulanması#
Aşağıdaki Python örneği, bir ödül modelinin temel yapısını göstermek için torch kullanır. Uygulamada bu ağ, insan tercihlerine uygun bir çıktıya daha yüksek bir skaler puan atamayı öğrenir.
import torch
import torch.nn as nn
# Define a simplified reward model architecture
class SimpleRewardModel(nn.Module):
def __init__(self):
super().__init__()
# Maps the AI's output embedding to a single reward score
self.fc = nn.Linear(768, 1)
def forward(self, embeddings):
return self.fc(embeddings)
# Initialize the model
reward_model = SimpleRewardModel()
# Simulated embeddings for a human-preferred action and a rejected action
chosen_action = torch.randn(1, 768)
rejected_action = torch.randn(1, 768)
# The model predicts scalar scores to guide the primary agent
print(f"Chosen Action Reward: {reward_model(chosen_action).item():.4f}")
print(f"Rejected Action Reward: {reward_model(rejected_action).item():.4f}")Hizalamanın açık kaynak temel modelleri nasıl etkilediğine daha derinlemesine bir bakış için, dil modellerini insan niyetiyle hizalamaya yönelik temel araştırmaları incele ve bilgisayarlı görü (CV) sistemlerinin dinamik ortamlarla güvenli bir şekilde etkileşim kurmak için gelişmiş geri bildirim döngülerinden nasıl yararlandığını öğren.






