Yolo Vision Shenzhen
Shenzhen
Şimdi katılın
Sözlük

İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

İnsan Geri Bildiriminden Pekiştirmeli Öğrenme'nin (RLHF), modelleri daha güvenli, daha akıllı yapay zeka için insan değerleriyle uyumlu hale getirerek yapay zeka performansını nasıl iyileştirdiğini keşfedin.

İnsan Geri Bildiriminden Güçlendirme Öğrenimi (RLHF), eğitim sürecine doğrudan insan girdisini dahil ederek yapay zeka modellerini iyileştiren gelişmiş bir makine öğrenimi tekniğidir. Yalnızca statik etiketli veri kümelerine dayanan standart denetimli öğrenimden farklı olarak, RLHF, insan değerlendiricilerin modelin çıktılarını sıraladığı veya derecelendirdiği dinamik bir geri bildirim döngüsü sunar. Bu süreç, AI'nın basit bir matematiksel kayıp fonksiyonu ile tanımlanması zor olan "yardımseverlik", "güvenlik" veya "stil" gibi karmaşık, öznel veya nüanslı hedefleri yakalamasına olanak tanır. RLHF , modern büyük dil modellerinin (LLM'ler) ve üretken AI'nın geliştirilmesinde bir mihenk taşı haline gelmiştir ve güçlü temel modellerin insan değerleri ve kullanıcı niyetiyle etkili bir şekilde uyum sağlamasını garanti eder.

RLHF'nin Temel Bileşenleri

RLHF süreci genel olarak, ham tahmin yetenekleri ile insan uyumlu davranış arasındaki boşluğu doldurmak için tasarlanmış üç aşamalı bir süreç izler. .

  1. Denetimli İnce Ayar (SFT): İş akışı genellikle önceden eğitilmiş bir temel modelle başlar. Geliştiriciler, daha küçük, yüksek kaliteli bir demonstrasyon veri seti (örneğin, uzmanlar tarafından yazılmış soru-cevap çiftleri) kullanarak ilk ince ayarları gerçekleştirir. Bu adım, modele görev için beklenen genel formatı ve tonu öğreterek bir temel politika oluşturur. .
  2. Ödül Modeli Eğitimi: Bu aşama, RLHF'nin ayırt edici özelliğidir. İnsan anotatörler, aynı girdi için model tarafından üretilen birden fazla çıktıyı inceler ve en iyiden en kötüye doğru sıralar. Bu veri etiketleme çalışması, bir tercih veri kümesi oluşturur. Ödül modeli adı verilen ayrı bir sinir ağı, bu karşılaştırma verileri üzerinde eğitilerek, insan yargısını yansıtan bir skaler puan tahmin eder.
  3. Pekiştirme Öğrenimi Optimizasyonu: Son olarak, orijinal model bir pekiştirme öğrenimi ortamında bir AI ajanı olarak işlev görür. Ödül modelini kılavuz olarak kullanan Proksimal Politika Optimizasyonu (PPO) gibi optimizasyon algoritmaları, modelin parametrelerini beklenen ödülü en üst düzeye çıkarmak için ayarlar. Bu adım, modelin politikasını öğrenilen insan tercihleriyle uyumlu hale getirerek, yararlı ve güvenli davranışları teşvik ederken, zehirli veya anlamsız çıktıları caydırır.

Gerçek Dünya Uygulamaları

RLHF, yüksek güvenlik standartları ve insan etkileşimini incelikli bir şekilde anlamayı gerektiren yapay zeka sistemlerinin uygulanmasında kritik öneme sahip olduğunu kanıtlamıştır. .

  • Konuşma Yapay Zekası ve Sohbet Robotları: RLHF'nin en belirgin uygulaması, sohbet robotlarını yardımcı, zararsız ve dürüst olacak şekilde uyumlu hale getirmektir. Önyargılı, gerçeklere aykırı veya tehlikeli çıktıları cezalandırarak, RLHF LLM'lerde halüsinasyonu azaltmaya yardımcı olur ve algoritmik önyargı riskini azaltır. Bu, sanal asistanların zararlı talimatları reddedebilmesini ve aynı zamanda meşru sorgular için yararlı kalmasını sağlar.
  • Robotik ve Fiziksel Kontrol: RLHF, metnin ötesine geçerek robotik alanındaki yapay zekaya uzanır; burada karmaşık fiziksel görevler için mükemmel bir ödül fonksiyonu tanımlamak zordur. Örneğin, kalabalık bir depoda gezinmeyi öğrenen bir robot , hangi yörüngelerin güvenli, hangilerinin aksaklığa neden olduğu konusunda insan denetçilerden geri bildirim alabilir. Bu geri bildirim, robotun kontrol politikasını, yalnızca hedeflerin tamamlanmasına dayanan basit derin pekiştirme öğrenmesinden daha etkili bir şekilde iyileştirir.

RLHF vs Standart Takviyeli Öğrenme

RLHF'nin geleneksel güçlendirme öğrenmesinden (RL) ayrıldığını anlamak, onun özel yararını anlamak için yararlıdır.

  • Standart RL: Geleneksel ortamlarda, ödül fonksiyonu genellikle ortam tarafından sabit olarak kodlanır. Örneğin, bir video oyununda, ortam net bir sinyal verir (kazanç için +1, kayıp için -1). Ajan, bu tanımlanmış Markov Karar Süreci (MDP) içinde eylemlerini optimize eder.
  • RLHF: Yaratıcı bir hikaye yazmak veya kibarca araba kullanmak gibi birçok gerçek dünya senaryosunda, "başarı" özneldir. RLHF, sabit kodlanmış ödülü, insan tercihlerinden türetilen öğrenilmiş bir ödül modeliyle değiştirerek bu sorunu çözer. Bu, açıkça programlanması imkansız olan "kalite" veya "uygunluk" gibi soyut kavramların optimizasyonuna olanak tanır.

Algıyı Geri Bildirim Döngüleriyle Entegre Etmek

Görsel uygulamalarda, RLHF uyumlu ajanlar genellikle harekete geçmeden önce çevrelerinin durumunu algılamak için bilgisayar görüşüne (CV) güvenirler. YOLO26 gibi sağlam bir dedektör, algılama katmanı olarak işlev görür ve politika ağının bir eylem seçmek için kullandığı yapılandırılmış gözlemler (ör. "3 metrede engel algılandı") sağlar. .

Aşağıdaki Python , YOLO çevresel durumu sağladığı basitleştirilmiş bir kavramı göstermektedir. Tam bir RLHF döngüsünde, "ödül" sinyali, ajanın kararlarına ilişkin insan geri bildirimleri üzerine eğitilmiş bir modelden gelir.

from ultralytics import YOLO

# Load YOLO26n to act as the perception layer for an intelligent agent
model = YOLO("yolo26n.pt")

# The agent observes the environment (an image) to determine its state
results = model("https://ultralytics.com/images/bus.jpg")

# In an RL context, the 'state' is derived from detections
# A reward model (trained via RLHF) would evaluate the action taken based on this state
detected_objects = len(results[0].boxes)

print(f"Agent Observation: Detected {detected_objects} objects.")
# Example output: Agent Observation: Detected 4 objects.

Güçlü algılama modellerini insan geri bildirimi ile iyileştirilmiş politikalarla birleştirerek, geliştiriciler sadece akıllı değil, aynı zamanda AI güvenlik ilkeleriyle de titizlikle uyumlu sistemler oluşturabilirler. Anayasal AI gibi ölçeklenebilir denetim üzerine devam eden araştırmalar, yüksek model performansını korurken büyük ölçekli insan anotasyonunun darboğazını azaltmayı hedefleyerek bu alanı geliştirmeye devam etmektedir.

Ultralytics topluluğuna katılın

Yapay zekanın geleceğine katılın. Küresel yenilikçilerle bağlantı kurun, işbirliği yapın ve birlikte büyüyün

Şimdi katılın