YOLO26 ile tanış: yeni nesil görsel AI.
Ultralytics
Ultralytics Sözlüğüne dön

Reward Modeling

Makine öğreniminde ödül modellemeyi keşfet. İnsan geri bildiriminin, AI ajanlarını ve Ultralytics YOLO26 modellerini daha güvenli ve daha doğru bir performans için hizalamada nasıl kullanıldığını öğren.

Ödül modelleme, yapay zeka sistemlerine kendi davranışlarını insan tercihlerine göre nasıl değerlendireceklerini ve önceliklendireceklerini öğretmek için kullanılan bir makine öğrenimi tekniğidir. Geleneksel pekiştirmeli öğrenme ortamlarında, bir AI ajanı, tıpkı bir video oyunundaki puan gibi, önceden tanımlanmış ve matematiksel olarak katı bir ödül fonksiyonunu maksimize ederek öğrenir. Ancak, "iyi" davranışın öznel veya incelikli olduğu karmaşık gerçek dünya görevlerinde—örneğin kibar bir e-posta yazmak veya bir kavşakta güvenli bir şekilde ilerlemek gibi—elle kusursuz bir ödül fonksiyonu yazmak neredeyse imkansızdır. Ödül modelleme, ikincil bir sinir ağı (ödül modeli) eğiterek ve bunu insan yargısı için bir vekil olarak kullanarak bu sorunu çözer. Bu model, ana AI'nın çıktılarını değerlendirir ve skaler puanlar atayarak ana modeli güvenli, yardımcı ve doğru davranışlara doğru dinamik bir şekilde yönlendirir.

Link to this sectionÖdül Modelleme Nasıl Çalışır?#

Bir ödül modeli oluşturma hattı, büyük ölçüde yüksek kaliteli insan geri bildirimi toplamaya dayanır.

  • Veri Etiketleme ve Tercihler: İnsan açıklayıcılara, bir AI modeli tarafından üretilen birden fazla yanıtla birlikte istemler verilir. Değerlendiriciler bu yanıtları yardımseverlik, zararsızlık ve doğruluk gibi kriterlere göre en iyiden en kötüye doğru sıralarlar. Bu büyük ölçekli etiketleme iş akışlarının yönetimi, Ultralytics Platform kullanılarak sorunsuz bir şekilde gerçekleştirilebilir.
  • Vekil Ağı Eğitme: İnsan karşılaştırmalarından oluşan bu veri kümesi üzerinde özel bir sinir ağı eğitilir. Bir optimizasyon süreciyle, bir eylemin veya metin yanıtının gömülerini tek bir skaler ödül değerine eşleyerek, bir insanın hangi çıktıyı tercih edeceğini tahmin etmeyi öğrenir. Sinir ağı mimarileri oluşturma hakkında daha fazla bilgiyi PyTorch API dokümantasyonu sayfasından okuyabilirsin.
  • Politika Optimizasyonu: Ana model, eylemlerini iyileştirmek için ödül modelinden gelen sürekli geri bildirimi kullanır ve genellikle Proximal Policy Optimization (PPO) gibi algoritmalar kullanır. Bu adım, modelin politikasını öğrenilen insan niyetiyle yinelemeli olarak hizalar.

Link to this sectionÖdül Modelleme ve RLHF Karşılaştırması#

Ödül modellemeyi İnsan Geri Bildirimli Pekiştirmeli Öğrenmeden (RLHF) ayırmak önemlidir. Bu iki terim sıkça birlikte tartışılsa da, eş anlamlı değillerdir. RLHF, denetimli ince ayar, veri toplama ve politika güncellemelerini kapsayan, modelleri hizalamak için kullanılan kapsamlı uçtan uca hattır. Ödül modelleme ise RLHF hattı içindeki belirli ve kritik bir bileşendir. Ayrık insan sıralamalarını, pekiştirmeli öğrenme algoritmasının optimize edebileceği sürekli bir matematiksel sinyale dönüştüren bir köprü görevi görür.

Link to this sectionGerçek Dünya Uygulamaları#

Ödül modelleme, insanlarla ve fiziksel dünyayla doğrudan etkileşime giren modern AI sistemleri geliştirmede önemli bir araçtır.

  • Büyük Dil Modelleri (LLM'ler): Konuşma tabanlı AI asistanları, yanıtlarının sadece olgusal olarak doğru değil, aynı zamanda nazik, ilgili ve toksik dil içermediğinden emin olmak için ödül modellerine güvenirler. AI güvenliğini araştıran organizasyonlar, yardımcı ve zararsız AI hizalamasını yansıtan sistemler oluşturmak için ödül modellemeyi sürekli olarak geliştirmektedir.
  • Otonom Araçlar ve Robotik: Fiziksel otomasyonda ödül modelleri, robotların karmaşık sürüş görgü kurallarını veya nesne manipülasyon stratejilerini anlamalarına yardımcı olur. Ultralytics YOLO26 destekli bir algılama sistemi yayaları ve yol işaretlerini tespit edebilirken, bir ödül modeli aracın planlanan yörüngesini değerlendirerek AI'nın sadece agresif noktadan noktaya navigasyon yerine yolcu konforuna ve güvenliğine öncelik vermesini sağlar.

Link to this sectionTemel Bir Ödül Modeli Konseptinin Uygulanması#

Aşağıdaki Python örneği, bir ödül modelinin temel yapısını göstermek için torch kullanır. Uygulamada bu ağ, insan tercihlerine uygun bir çıktıya daha yüksek bir skaler puan atamayı öğrenir.

import torch
import torch.nn as nn


# Define a simplified reward model architecture
class SimpleRewardModel(nn.Module):
    def __init__(self):
        super().__init__()
        # Maps the AI's output embedding to a single reward score
        self.fc = nn.Linear(768, 1)

    def forward(self, embeddings):
        return self.fc(embeddings)


# Initialize the model
reward_model = SimpleRewardModel()

# Simulated embeddings for a human-preferred action and a rejected action
chosen_action = torch.randn(1, 768)
rejected_action = torch.randn(1, 768)

# The model predicts scalar scores to guide the primary agent
print(f"Chosen Action Reward: {reward_model(chosen_action).item():.4f}")
print(f"Rejected Action Reward: {reward_model(rejected_action).item():.4f}")

Hizalamanın açık kaynak temel modelleri nasıl etkilediğine daha derinlemesine bir bakış için, dil modellerini insan niyetiyle hizalamaya yönelik temel araştırmaları incele ve bilgisayarlı görü (CV) sistemlerinin dinamik ortamlarla güvenli bir şekilde etkileşim kurmak için gelişmiş geri bildirim döngülerinden nasıl yararlandığını öğren.

Explore solutions

Real-time AI tailored to your operation

Tarımda Yapay Zeka

Ultralytics YOLO modelleri ile akıllı tarıma görüntü tabanlı yapay zekayı dahil et. Daha yüksek ve daha akıllı verim için ürün izleme, canlı hayvan takibi ve hassas tarımı güçlendir.

Daha fazla bilgi edin
Real-time AI that works with your operation

Otomotivde Yapay Zeka

Otomotiv sektöründe Ultralytics YOLO modelleri ile bilgisayarlı görüden yararlan. Vizyon tabanlı yapay zeka; yol güvenliğini, sürücü destek sistemlerini ve araç otomasyonunu daha akıllı yollar için bir üst seviyeye taşır.

Daha fazla bilgi edin
Real-time AI that works with your team

Sağlık Hizmetlerinde Yapay Zeka

Ultralytics YOLO modelleri ile sağlık çözümleri geliştir. Sağlık hizmetlerinde yapay görme; daha hızlı tıbbi görüntüleme, daha akıllı teşhisler ve hasta takibine güç katar.

Daha fazla bilgi edin
Real-time AI that works with your team

Perakendede Yapay Zeka

Ultralytics YOLO modelleri ile perakendeciliği yeniden hayal et. Görsel yapay zeka; envanter takibi, raf izleme, sıra yönetimi ve daha akıllı müşteri analizlerini destekler.

Daha fazla bilgi edin
Real-time AI that works with your team

Robotikte Yapay Zeka

Ultralytics YOLO modelleriyle daha akıllı makineler oluştur. Robotikte Görsel Yapay Zeka; otonom navigasyonu, algılamayı, nesne takibini ve gerçek zamanlı kontrolü destekler.

Daha fazla bilgi edin
Real-time AI that works with your team

Üretimde Yapay Zeka

Üretimi Ultralytics YOLO modelleriyle optimize et. Görsel yapay zeka; kalite kontrol, hata tespiti, KKD uyumluluğu ve montaj hattı otomasyonunu güçlendirir.

Daha fazla bilgi edin
Real-time AI that works with your team

Lojistikte Yapay Zeka

Ultralytics YOLO modelleri ile lojistik süreçlerini hızlandır. Vision AI; paket denetimi, sınıflandırma, araç takibi ve gerçek zamanlı depo güvenliği izleme süreçlerini mümkün kılar.

Daha fazla bilgi edin
Real-time AI tailored to your operation

Tarımda Yapay Zeka

Ultralytics YOLO modelleri ile akıllı tarıma görüntü tabanlı yapay zekayı dahil et. Daha yüksek ve daha akıllı verim için ürün izleme, canlı hayvan takibi ve hassas tarımı güçlendir.

Daha fazla bilgi edin
Real-time AI that works with your operation

Otomotivde Yapay Zeka

Otomotiv sektöründe Ultralytics YOLO modelleri ile bilgisayarlı görüden yararlan. Vizyon tabanlı yapay zeka; yol güvenliğini, sürücü destek sistemlerini ve araç otomasyonunu daha akıllı yollar için bir üst seviyeye taşır.

Daha fazla bilgi edin
Real-time AI that works with your team

Sağlık Hizmetlerinde Yapay Zeka

Ultralytics YOLO modelleri ile sağlık çözümleri geliştir. Sağlık hizmetlerinde yapay görme; daha hızlı tıbbi görüntüleme, daha akıllı teşhisler ve hasta takibine güç katar.

Daha fazla bilgi edin
Real-time AI that works with your team

Perakendede Yapay Zeka

Ultralytics YOLO modelleri ile perakendeciliği yeniden hayal et. Görsel yapay zeka; envanter takibi, raf izleme, sıra yönetimi ve daha akıllı müşteri analizlerini destekler.

Daha fazla bilgi edin
Real-time AI that works with your team

Robotikte Yapay Zeka

Ultralytics YOLO modelleriyle daha akıllı makineler oluştur. Robotikte Görsel Yapay Zeka; otonom navigasyonu, algılamayı, nesne takibini ve gerçek zamanlı kontrolü destekler.

Daha fazla bilgi edin
Real-time AI that works with your team

Üretimde Yapay Zeka

Üretimi Ultralytics YOLO modelleriyle optimize et. Görsel yapay zeka; kalite kontrol, hata tespiti, KKD uyumluluğu ve montaj hattı otomasyonunu güçlendirir.

Daha fazla bilgi edin
Real-time AI that works with your team

Lojistikte Yapay Zeka

Ultralytics YOLO modelleri ile lojistik süreçlerini hızlandır. Vision AI; paket denetimi, sınıflandırma, araç takibi ve gerçek zamanlı depo güvenliği izleme süreçlerini mümkün kılar.

Daha fazla bilgi edin
Real-time AI tailored to your operation

Tarımda Yapay Zeka

Ultralytics YOLO modelleri ile akıllı tarıma görüntü tabanlı yapay zekayı dahil et. Daha yüksek ve daha akıllı verim için ürün izleme, canlı hayvan takibi ve hassas tarımı güçlendir.

Daha fazla bilgi edin
Real-time AI that works with your operation

Otomotivde Yapay Zeka

Otomotiv sektöründe Ultralytics YOLO modelleri ile bilgisayarlı görüden yararlan. Vizyon tabanlı yapay zeka; yol güvenliğini, sürücü destek sistemlerini ve araç otomasyonunu daha akıllı yollar için bir üst seviyeye taşır.

Daha fazla bilgi edin
Real-time AI that works with your team

Sağlık Hizmetlerinde Yapay Zeka

Ultralytics YOLO modelleri ile sağlık çözümleri geliştir. Sağlık hizmetlerinde yapay görme; daha hızlı tıbbi görüntüleme, daha akıllı teşhisler ve hasta takibine güç katar.

Daha fazla bilgi edin
Real-time AI that works with your team

Perakendede Yapay Zeka

Ultralytics YOLO modelleri ile perakendeciliği yeniden hayal et. Görsel yapay zeka; envanter takibi, raf izleme, sıra yönetimi ve daha akıllı müşteri analizlerini destekler.

Daha fazla bilgi edin
Real-time AI that works with your team

Robotikte Yapay Zeka

Ultralytics YOLO modelleriyle daha akıllı makineler oluştur. Robotikte Görsel Yapay Zeka; otonom navigasyonu, algılamayı, nesne takibini ve gerçek zamanlı kontrolü destekler.

Daha fazla bilgi edin
Real-time AI that works with your team

Üretimde Yapay Zeka

Üretimi Ultralytics YOLO modelleriyle optimize et. Görsel yapay zeka; kalite kontrol, hata tespiti, KKD uyumluluğu ve montaj hattı otomasyonunu güçlendirir.

Daha fazla bilgi edin
Real-time AI that works with your team

Lojistikte Yapay Zeka

Ultralytics YOLO modelleri ile lojistik süreçlerini hızlandır. Vision AI; paket denetimi, sınıflandırma, araç takibi ve gerçek zamanlı depo güvenliği izleme süreçlerini mümkün kılar.

Daha fazla bilgi edin

Yapay zekanın geleceğini birlikte inşa edelim!

Yolculuğuna makine öğreniminin geleceğiyle başla