İnsan Geri Bildiriminden Pekiştirmeli Öğrenme'nin (RLHF), modelleri daha güvenli, daha akıllı yapay zeka için insan değerleriyle uyumlu hale getirerek yapay zeka performansını nasıl iyileştirdiğini keşfedin.
İnsan Geri Bildiriminden Takviye Öğrenimi (RLHF), aşağıdaki alanlarda kullanılan sofistike bir çerçevedir hizalayan makine öğrenimi (ML) yapay zeka (AI) sistemleri insan değerleri, tercihleri ve niyetleri ile uyumludur. Gelenekselin aksine modelleri eğiten denetimli öğrenme Statik veri kümelerini kopyalayan RLHF, insan değerlendiricilerin model çıktılarını sıraladığı dinamik bir geri bildirim döngüsü sunar. Bu Sıralama verileri bir "ödül modelini" eğitmek için kullanılır ve bu model daha sonra yapay zekayı daha fazla yardımcı üretmesi için yönlendirir, güvenli ve doğru yanıtlar. Bu tekniğin modern teknolojinin gelişimi için gerekli olduğu kanıtlanmıştır. büyük dil modelleri (LLM'ler) ve üretken yapay zeka, güçlü temelin modeller sadece bir sonraki kelimeyi veya pikseli istatistiksel olarak tahmin etmek yerine kullanıcı beklentilerine göre hareket eder.
Bir modelin RLHF aracılığıyla hizalanması süreci, genellikle ham model ile işlenmemiş model arasındaki boşluğu dolduran üç aşamalı bir boru hattını takip eder öngörü yeteneği ve incelikli insan etkileşimi.
Her iki yaklaşım da bir ödülün maksimize edilmesine dayanmakla birlikte, bu ödülün kaynağı onları önemli ölçüde farklılaştırmaktadır.
RLHF, özellikle yüksek güvenlik standartları gerektiren alanlarda yapay zeka sistemlerinin dünyayla etkileşim biçimini dönüştürdü ve incelikli bir anlayış.
Görsel uygulamalarda, RLHF aracıları genellikle durumunu algılamak için bilgisayar görüşü (CV) çevreleri. Aşağıdakiler gibi sağlam bir dedektör YOLO11, can sistemin "gözleri" olarak işlev görür ve yapılandırılmış gözlemler sağlar (örn. sol") ilke ağının bir eylem seçmek için kullandığı.
Aşağıdaki örnekte, bir YOLO modelinin bir çevre için çevresel durumu sağladığı basitleştirilmiş bir kavram gösterilmektedir ajan. Tam bir RLHF döngüsünde, "ödül" insan tercihleri üzerine eğitilmiş bir model tarafından belirlenecektir Temsilcinin güvenine veya doğruluğuna ilişkin olarak.
from ultralytics import YOLO
# Load YOLO11 to act as the perception layer for an RL agent
model = YOLO("yolo11n.pt")
# The agent observes the environment (an image) to determine its state
results = model("https://ultralytics.com/images/bus.jpg")
# In an RL loop, the agent's 'reward' might depend on detecting critical objects
# Here, we simulate a simple reward based on the confidence of detections
# In RLHF, this reward function would be a complex learned model
observed_reward = sum(box.conf.item() for box in results[0].boxes)
print(f"Agent Observation: Detected {len(results[0].boxes)} objects.")
print(f"Simulated Reward Signal: {observed_reward:.2f}")
Geliştiriciler, güçlü algı modellerini insan geri bildirimleriyle uyumlu politikalarla birleştirerek şu sistemleri oluşturabilirler sadece akıllı değil, aynı zamanda titizlikle kontrol edilir YZ güvenliği. Aşağıdakiler gibi ölçeklenebilir gözetim araştırmaları Anayasal Yapay Zeka, büyük ölçekli insan açıklamalarına olan yoğun bağımlılığı azaltmayı amaçlayarak bu alanı geliştirmeye devam etmektedir.
