Makine öğreniminde ödül modellemesini keşfedin. Daha güvenli ve daha doğru performans için AI ajanlarını ve Ultralytics modellerini uyumlu hale getirmek için insan geri bildirimlerini nasıl kullandığını öğrenin.
Ödül modelleme, yapay zeka sistemlerine insan tercihlerine göre kendi davranışlarını nasıl değerlendireceklerini ve önceliklendireceklerini öğretmek için kullanılan bir makine öğrenimi tekniğidir. Geleneksel pekiştirme öğrenme ortamlarında, bir AI ajanı, video oyunlarındaki puan gibi önceden tanımlanmış, matematiksel olarak katı bir ödül fonksiyonunu en üst düzeye çıkararak öğrenir. Ancak, "iyi" davranışın öznel veya nüanslı olduğu karmaşık gerçek dünya görevlerinde (örneğin, kibar bir e-posta yazmak veya bir kavşağı güvenli bir şekilde geçmek gibi), kusursuz bir ödül fonksiyonunu elle yazmak neredeyse imkansızdır. Ödül modelleme, ikincil bir sinir ağını (ödül modeli) insan yargısının vekili olarak hareket etmesi için eğiterek bu sorunu çözer. Bu model, birincil AI'nın çıktılarını değerlendirir ve skaler puanlar atayarak ana modeli dinamik olarak güvenli, yararlı ve doğru davranışlara yönlendirir .
Ödül modeli oluşturma süreci, büyük ölçüde yüksek kaliteli insan geri bildiriminin toplanmasına dayanmaktadır.
Ödül modellemesini İnsan Geri Bildiriminden Güçlendirme Öğrenimi (RLHF) ile ayırt etmek önemlidir. Her iki terim de sıklıkla birlikte tartışılsa da, eşanlamlı değildir. RLHF, modelleri uyumlu hale getirmek için kullanılan, denetimli ince ayar, veri toplama ve politika güncellemelerini kapsayan kapsamlı uçtan uca bir süreçtir. Ödül modelleme, RLHF sürecinin içindeki belirli ve çok önemli bir bileşendir. Bu, insanların ayrı ayrı sıralamalarını, pekiştirme öğrenme algoritmasının optimize edebileceği sürekli bir matematiksel sinyale dönüştüren bir köprü görevi görür.
Ödül modellemesi, insanlarla ve fiziksel dünyayla doğrudan etkileşime giren modern yapay zeka sistemlerinin geliştirilmesinde önemli bir rol oynar .
Aşağıdaki Python kullanır torch ödül modelinin temel yapısını göstermek için.
Uygulamada, bu ağ insan tercihlerine uygun bir çıktıya daha yüksek bir skaler puan atamayı öğrenir.
import torch
import torch.nn as nn
# Define a simplified reward model architecture
class SimpleRewardModel(nn.Module):
def __init__(self):
super().__init__()
# Maps the AI's output embedding to a single reward score
self.fc = nn.Linear(768, 1)
def forward(self, embeddings):
return self.fc(embeddings)
# Initialize the model
reward_model = SimpleRewardModel()
# Simulated embeddings for a human-preferred action and a rejected action
chosen_action = torch.randn(1, 768)
rejected_action = torch.randn(1, 768)
# The model predicts scalar scores to guide the primary agent
print(f"Chosen Action Reward: {reward_model(chosen_action).item():.4f}")
print(f"Rejected Action Reward: {reward_model(rejected_action).item():.4f}")
Hizalamanın açık kaynaklı temel modelleri nasıl etkilediğini daha derinlemesine incelemek için, dil modellerini insan niyetiyle hizalamaya yönelik temel araştırmaları keşfedin ve bilgisayar görme (CV) sistemlerinin dinamik ortamlarla güvenli bir şekilde etkileşim kurmak için gelişmiş geri bildirim döngülerini nasıl kullandığını öğrenin.