Yolo Vision Shenzhen
Shenzhen
Şimdi katılın
Sözlük

Ödül Modelleme

Makine öğreniminde ödül modellemesini keşfedin. Daha güvenli ve daha doğru performans için AI ajanlarını ve Ultralytics modellerini uyumlu hale getirmek için insan geri bildirimlerini nasıl kullandığını öğrenin.

Ödül modelleme, yapay zeka sistemlerine insan tercihlerine göre kendi davranışlarını nasıl değerlendireceklerini ve önceliklendireceklerini öğretmek için kullanılan bir makine öğrenimi tekniğidir. Geleneksel pekiştirme öğrenme ortamlarında, bir AI ajanı, video oyunlarındaki puan gibi önceden tanımlanmış, matematiksel olarak katı bir ödül fonksiyonunu en üst düzeye çıkararak öğrenir. Ancak, "iyi" davranışın öznel veya nüanslı olduğu karmaşık gerçek dünya görevlerinde (örneğin, kibar bir e-posta yazmak veya bir kavşağı güvenli bir şekilde geçmek gibi), kusursuz bir ödül fonksiyonunu elle yazmak neredeyse imkansızdır. Ödül modelleme, ikincil bir sinir ağını (ödül modeli) insan yargısının vekili olarak hareket etmesi için eğiterek bu sorunu çözer. Bu model, birincil AI'nın çıktılarını değerlendirir ve skaler puanlar atayarak ana modeli dinamik olarak güvenli, yararlı ve doğru davranışlara yönlendirir .

Ödül Modellemesi Nasıl Çalışır?

Ödül modeli oluşturma süreci, büyük ölçüde yüksek kaliteli insan geri bildiriminin toplanmasına dayanmaktadır.

  • Veri Etiketleme ve Tercihler: İnsan anotatörlere, bir AI modeli tarafından oluşturulan birden fazla yanıtın yanı sıra komut istemleri verilir. Değerlendiriciler, bu yanıtları yararlılık, zararsızlık ve doğruluk gibi kriterlere göre en iyiden en kötüye doğru sıralar. Bu büyük ölçekli anotasyon iş akışlarının yönetimi, Ultralytics kullanılarak sorunsuz bir şekilde gerçekleştirilebilir.
  • Proxy Ağının Eğitilmesi: Özel bir sinir ağı, bu insan karşılaştırmaları veri seti üzerinde eğitilir. Optimizasyon süreciyle, bir insanın hangi çıktıyı tercih edeceğini tahmin etmeyi öğrenir ve bir eylemin veya metin yanıtının gömülmesini tek bir skaler ödül değerine eşler. Sinir ağı mimarilerinin oluşturulması hakkında daha fazla bilgiyi PyTorch belgelerinde bulabilirsiniz.
  • Politika Optimizasyonu: Birincil model, ödül modelinden gelen sürekli geri bildirimi kullanarak eylemlerini iyileştirir ve genellikle Proksimal Politika Optimizasyonu (PPO) gibi algoritmalar kullanır. Bu adım, modelin politikasını öğrenilen insan niyetiyle iteratif olarak uyumlu hale getirir.

Ödül Modelleme ve RLHF

Ödül modellemesini İnsan Geri Bildiriminden Güçlendirme Öğrenimi (RLHF) ile ayırt etmek önemlidir. Her iki terim de sıklıkla birlikte tartışılsa da, eşanlamlı değildir. RLHF, modelleri uyumlu hale getirmek için kullanılan, denetimli ince ayar, veri toplama ve politika güncellemelerini kapsayan kapsamlı uçtan uca bir süreçtir. Ödül modelleme, RLHF sürecinin içindeki belirli ve çok önemli bir bileşendir. Bu, insanların ayrı ayrı sıralamalarını, pekiştirme öğrenme algoritmasının optimize edebileceği sürekli bir matematiksel sinyale dönüştüren bir köprü görevi görür.

Gerçek Dünya Uygulamaları

Ödül modellemesi, insanlarla ve fiziksel dünyayla doğrudan etkileşime giren modern yapay zeka sistemlerinin geliştirilmesinde önemli bir rol oynar .

  • Büyük Dil Modelleri (LLM'ler): Konuşma yapay zeka asistanları, cevaplarının sadece gerçeklere uygun değil, aynı zamanda kibar, alakalı ve zararlı dil içermeyen olmasını sağlamak için ödül modellerine dayanır. Yapay zeka güvenliğini araştıran kuruluşlar, yardımcı ve zararsız yapay zeka uyumunu yansıtan sistemler oluşturmak için ödül modellemesini sürekli olarak geliştirir. Yapay zeka güvenliği
  • Otonom Araçlar ve Robotik: Fiziksel otomasyonda, ödül modelleri robotların karmaşık sürüş kurallarını veya nesne manipülasyon stratejilerini anlamasına yardımcı olur. Ultralytics tarafından desteklenen bir algılama sistemi detect ve yol işaretlerini detect , bir ödül modeli aracın planlanan yörüngesini değerlendirerek, yapay zekanın yolcuların konforunu ve güvenliğini, tamamen agresif noktadan noktaya navigasyona göre öncelikli hale getirmesini sağlar.

Temel Ödül Modeli Konseptinin Uygulanması

Aşağıdaki Python kullanır torch ödül modelinin temel yapısını göstermek için. Uygulamada, bu ağ insan tercihlerine uygun bir çıktıya daha yüksek bir skaler puan atamayı öğrenir.

import torch
import torch.nn as nn


# Define a simplified reward model architecture
class SimpleRewardModel(nn.Module):
    def __init__(self):
        super().__init__()
        # Maps the AI's output embedding to a single reward score
        self.fc = nn.Linear(768, 1)

    def forward(self, embeddings):
        return self.fc(embeddings)


# Initialize the model
reward_model = SimpleRewardModel()

# Simulated embeddings for a human-preferred action and a rejected action
chosen_action = torch.randn(1, 768)
rejected_action = torch.randn(1, 768)

# The model predicts scalar scores to guide the primary agent
print(f"Chosen Action Reward: {reward_model(chosen_action).item():.4f}")
print(f"Rejected Action Reward: {reward_model(rejected_action).item():.4f}")

Hizalamanın açık kaynaklı temel modelleri nasıl etkilediğini daha derinlemesine incelemek için, dil modellerini insan niyetiyle hizalamaya yönelik temel araştırmaları keşfedin ve bilgisayar görme (CV) sistemlerinin dinamik ortamlarla güvenli bir şekilde etkileşim kurmak için gelişmiş geri bildirim döngülerini nasıl kullandığını öğrenin.

Ultralytics topluluğuna katılın

Yapay zekanın geleceğine katılın. Küresel yenilikçilerle bağlantı kurun, işbirliği yapın ve birlikte büyüyün

Şimdi katılın