Reinforcement Learning from Human Feedback (RLHF)
İnsan Geri Bildirimli Pekiştirmeli Öğrenmenin (RLHF) yapay zekayı insani değerlerle nasıl hizaladığını öğren. Temel bileşenlerini ve Ultralytics YOLO26 ile entegrasyonunu keşfet.
İnsan Geri Bildirimli Pekiştirmeli Öğrenme (RLHF), yapay zeka modellerini eğitim döngüsüne doğrudan insan girdisi dahil ederek iyileştiren gelişmiş bir makine öğrenimi tekniğidir. Yalnızca statik etiketli veri kümelerine dayanan standart denetimli öğrenmeden farklı olarak RLHF, insan değerlendiricilerin modelin çıktılarını sıraladığı veya puanladığı dinamik bir geri bildirim mekanizması sunar. Bu süreç, yapay zekanın "yardımseverlik", "güvenlik" veya "yaratıcılık" gibi basit bir matematiksel kayıp fonksiyonuyla tanımlanması zor olan karmaşık, öznel veya incelikli hedefleri yakalamasını sağlar. RLHF, modern büyük dil modellerinin (LLM) ve üretken yapay zekanın geliştirilmesinde bir temel taşı haline gelmiş olup güçlü temel modellerin insan değerleri ve kullanıcı niyetiyle etkin bir şekilde uyumlu olmasını sağlar.
Link to this sectionRLHF'nin Temel Bileşenleri#
RLHF süreci genellikle ham tahmin yetenekleri ile insanla uyumlu davranış arasındaki boşluğu doldurmak için tasarlanmış üç aşamalı bir hattı takip eder.
-
Denetimli İnce Ayar (SFT): İş akışı genellikle önceden eğitilmiş bir temel model ile başlar. Geliştiriciler, daha küçük ve yüksek kaliteli bir gösterim veri kümesi (örneğin uzmanlar tarafından yazılmış soru-cevap çiftleri) kullanarak ilk ince ayarı gerçekleştirir. Bu adım, modele görev için beklenen genel formatı ve tonu öğreterek bir temel politika oluşturur.
-
Ödül Modeli Eğitimi: Bu aşama, RLHF'nin ayırt edici özelliğidir. İnsan açıklayıcılar, aynı girdi için model tarafından oluşturulan birden fazla çıktıyı inceler ve bunları en iyiden en kötüye doğru sıralar. Bu veri etiketleme çalışması, tercihlerden oluşan bir veri kümesi oluşturur. Ödül modeli adı verilen ayrı bir sinir ağı, insan yargısını yansıtan skaler bir puanı tahmin etmek için bu karşılaştırma verileri üzerinde eğitilir. Ultralytics Platform üzerinde bulunan araçlar, bu tür açıklama iş akışlarının yönetimini kolaylaştırabilir.
-
Pekiştirmeli Öğrenme Optimizasyonu: Son olarak orijinal model, bir pekiştirmeli öğrenme ortamında bir yapay zeka ajanı olarak hareket eder. Ödül modelini bir rehber olarak kullanan Yakınsak Politika Optimizasyonu (PPO) gibi optimizasyon algoritmaları, beklenen ödülü en üst düzeye çıkarmak için modelin parametrelerini ayarlar. Bu adım, modelin politikasını öğrenilmiş insan tercihleriyle uyumlu hale getirerek toksik veya anlamsız çıktıları caydırırken yardımsever ve güvenli davranışları teşvik eder.
Link to this sectionGerçek Dünya Uygulamaları#
RLHF, yüksek güvenlik standartları ve insan etkileşiminin incelikli bir şekilde anlaşılmasını gerektiren yapay zeka sistemlerinin dağıtımında kritik öneme sahip olduğunu kanıtlamıştır.
- Sohbet Tabanlı Yapay Zeka ve Chatbotlar: RLHF'nin en belirgin uygulaması, chatbot'ları yardımsever, zararsız ve dürüst olacak şekilde uyumlu hale getirmektir. Önyargılı, yanlış veya tehlikeli çıktıları cezalandıran RLHF, LLM'lerde halüsinasyonu azaltmaya yardımcı olur ve algoritmik önyargı riskini düşürür. Bu, sanal asistanların meşru sorgular için yararlı olmaya devam ederken zararlı talimatları reddedebilmesini sağlar.
- Robotik ve Fiziksel Kontrol: RLHF, metnin ötesine geçerek karmaşık fiziksel görevler için mükemmel bir ödül fonksiyonu tanımlamanın zor olduğu robotikte yapay zekaya uzanır. Örneğin, kalabalık bir depoda gezinmeyi öğrenen bir robot, hangi yörüngelerin güvenli, hangilerinin aksamalara neden olduğu konusunda insan denetçilerden geri bildirim alabilir. Bu geri bildirim, robotun kontrol politikasını, yalnızca hedef tamamlamaya dayalı basit derin pekiştirmeli öğrenmeden çok daha etkili bir şekilde iyileştirir.
Link to this sectionRLHF ve Standart Pekiştirmeli Öğrenme Karşılaştırması#
Spesifik faydasını anlamak için RLHF'yi geleneksel pekiştirmeli öğrenmeden (RL) ayırmak yardımcı olur.
- Standart RL: Geleneksel ayarlarda ödül fonksiyonu genellikle ortam tarafından kodlanmıştır. Örneğin bir video oyununda ortam net bir sinyal sağlar (kazanma için +1, kaybetme için -1). Ajan, bu tanımlanmış Markov Karar Süreci (MDP) dahilinde eylemlerini optimize eder.
- RLHF: Yaratıcı bir hikaye yazmak veya nazikçe araç sürmek gibi birçok gerçek dünya senaryosunda "başarı" özneldir. RLHF, kodlanmış ödülü insan tercihlerinden türetilen öğrenilmiş bir ödül modeliyle değiştirerek bunu çözer. Bu, açıkça programlanması imkansız olan "kalite" veya "uygunluk" gibi soyut kavramların optimize edilmesine olanak tanır.
Link to this sectionAlgıyı Geri Bildirim Döngüleriyle Bütünleştirme#
Görsel uygulamalarda RLHF ile uyumlu ajanlar, harekete geçmeden önce çevrelerinin durumunu algılamak için genellikle bilgisayarlı görüden (CV) yararlanır. YOLO26 gibi sağlam bir dedektör, algılama katmanı işlevi görerek politika ağının bir eylem seçmek için kullandığı yapılandırılmış gözlemler (örneğin "3 metrede engel algılandı") sağlar.
Aşağıdaki Python örneği, bir YOLO modelinin çevresel durumu sağladığı basitleştirilmiş bir kavramı göstermektedir. Tam bir RLHF döngüsünde "ödül" sinyali, bu algılama verilerine dayalı olarak ajanın kararlarına ilişkin insan geri bildirimiyle eğitilmiş bir modelden gelecektir.
from ultralytics import YOLO
# Load YOLO26n to act as the perception layer for an intelligent agent
model = YOLO("yolo26n.pt")
# The agent observes the environment (an image) to determine its state
results = model("https://ultralytics.com/images/bus.jpg")
# In an RL context, the 'state' is derived from detections
# A reward model (trained via RLHF) would evaluate the action taken based on this state
detected_objects = len(results[0].boxes)
print(f"Agent Observation: Detected {detected_objects} objects.")
# Example output: Agent Observation: Detected 4 objects.Güçlü algılama modellerini insan geri bildirimiyle iyileştirilen politikalarla birleştirerek geliştiriciler, yalnızca akıllı değil aynı zamanda yapay zeka güvenliği ilkeleriyle titizlikle uyumlu sistemler oluşturabilirler. Anayasal Yapay Zeka gibi ölçeklenebilir gözetim üzerine devam eden araştırmalar, büyük ölçekli insan açıklama darboğazını azaltmayı hedeflerken yüksek model performansını korumayı amaçlayarak bu alanı geliştirmeye devam etmektedir.






