İnsan Geri Bildiriminden Pekiştirmeli Öğrenme'nin (RLHF), modelleri daha güvenli, daha akıllı yapay zeka için insan değerleriyle uyumlu hale getirerek yapay zeka performansını nasıl iyileştirdiğini keşfedin.
İnsan Geri Bildiriminden Güçlendirme Öğrenimi (RLHF), eğitim sürecine doğrudan insan girdisini dahil ederek yapay zeka modellerini iyileştiren gelişmiş bir makine öğrenimi tekniğidir. Yalnızca statik etiketli veri kümelerine dayanan standart denetimli öğrenimden farklı olarak, RLHF, insan değerlendiricilerin modelin çıktılarını sıraladığı veya derecelendirdiği dinamik bir geri bildirim döngüsü sunar. Bu süreç, AI'nın basit bir matematiksel kayıp fonksiyonu ile tanımlanması zor olan "yardımseverlik", "güvenlik" veya "stil" gibi karmaşık, öznel veya nüanslı hedefleri yakalamasına olanak tanır. RLHF , modern büyük dil modellerinin (LLM'ler) ve üretken AI'nın geliştirilmesinde bir mihenk taşı haline gelmiştir ve güçlü temel modellerin insan değerleri ve kullanıcı niyetiyle etkili bir şekilde uyum sağlamasını garanti eder.
RLHF süreci genel olarak, ham tahmin yetenekleri ile insan uyumlu davranış arasındaki boşluğu doldurmak için tasarlanmış üç aşamalı bir süreç izler. .
RLHF, yüksek güvenlik standartları ve insan etkileşimini incelikli bir şekilde anlamayı gerektiren yapay zeka sistemlerinin uygulanmasında kritik öneme sahip olduğunu kanıtlamıştır. .
RLHF'nin geleneksel güçlendirme öğrenmesinden (RL) ayrıldığını anlamak, onun özel yararını anlamak için yararlıdır.
Görsel uygulamalarda, RLHF uyumlu ajanlar genellikle harekete geçmeden önce çevrelerinin durumunu algılamak için bilgisayar görüşüne (CV) güvenirler. YOLO26 gibi sağlam bir dedektör, algılama katmanı olarak işlev görür ve politika ağının bir eylem seçmek için kullandığı yapılandırılmış gözlemler (ör. "3 metrede engel algılandı") sağlar. .
Aşağıdaki Python , YOLO çevresel durumu sağladığı basitleştirilmiş bir kavramı göstermektedir. Tam bir RLHF döngüsünde, "ödül" sinyali, ajanın kararlarına ilişkin insan geri bildirimleri üzerine eğitilmiş bir modelden gelir.
from ultralytics import YOLO
# Load YOLO26n to act as the perception layer for an intelligent agent
model = YOLO("yolo26n.pt")
# The agent observes the environment (an image) to determine its state
results = model("https://ultralytics.com/images/bus.jpg")
# In an RL context, the 'state' is derived from detections
# A reward model (trained via RLHF) would evaluate the action taken based on this state
detected_objects = len(results[0].boxes)
print(f"Agent Observation: Detected {detected_objects} objects.")
# Example output: Agent Observation: Detected 4 objects.
Güçlü algılama modellerini insan geri bildirimi ile iyileştirilmiş politikalarla birleştirerek, geliştiriciler sadece akıllı değil, aynı zamanda AI güvenlik ilkeleriyle de titizlikle uyumlu sistemler oluşturabilirler. Anayasal AI gibi ölçeklenebilir denetim üzerine devam eden araştırmalar, yüksek model performansını korurken büyük ölçekli insan anotasyonunun darboğazını azaltmayı hedefleyerek bu alanı geliştirmeye devam etmektedir.