Yolo Vision Shenzhen
Shenzhen
Şimdi katılın
Sözlük

İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

İnsan Geri Bildiriminden Pekiştirmeli Öğrenme'nin (RLHF), modelleri daha güvenli, daha akıllı yapay zeka için insan değerleriyle uyumlu hale getirerek yapay zeka performansını nasıl iyileştirdiğini keşfedin.

İnsan Geri Bildiriminden Takviye Öğrenimi (RLHF), aşağıdaki alanlarda kullanılan sofistike bir çerçevedir hizalayan makine öğrenimi (ML) yapay zeka (AI) sistemleri insan değerleri, tercihleri ve niyetleri ile uyumludur. Gelenekselin aksine modelleri eğiten denetimli öğrenme Statik veri kümelerini kopyalayan RLHF, insan değerlendiricilerin model çıktılarını sıraladığı dinamik bir geri bildirim döngüsü sunar. Bu Sıralama verileri bir "ödül modelini" eğitmek için kullanılır ve bu model daha sonra yapay zekayı daha fazla yardımcı üretmesi için yönlendirir, güvenli ve doğru yanıtlar. Bu tekniğin modern teknolojinin gelişimi için gerekli olduğu kanıtlanmıştır. büyük dil modelleri (LLM'ler) ve üretken yapay zeka, güçlü temelin modeller sadece bir sonraki kelimeyi veya pikseli istatistiksel olarak tahmin etmek yerine kullanıcı beklentilerine göre hareket eder.

RLHF İş Akışı

Bir modelin RLHF aracılığıyla hizalanması süreci, genellikle ham model ile işlenmemiş model arasındaki boşluğu dolduran üç aşamalı bir boru hattını takip eder öngörü yeteneği ve incelikli insan etkileşimi.

  1. Denetimli İnce Ayar (SFT): Süreç tipik olarak önceden eğitilmiş bir temel modeli. Geliştiriciler şunları kullanır daha küçük, yüksek kaliteli bir veri kümesi üzerinde ince ayar Modele istenen görevin temel formatını öğretmek için küratörlü örnekler (diyaloglar veya gösterimler gibi).
  2. Ödül Modeli Eğitimi: Bu, RLHF'nin özüdür. İnsan yorumlayıcılar üretilen çoklu çıktıları gözden geçirir aynı girdi için model tarafından hesaplanır ve en iyiden en kötüye doğru sıralanır. Bu veri etiketleme işlemi bir veri kümesi oluşturur tercihler. Ayrı bir sinir ağı, bilinen ödül modeli olarak, insan yargısını taklit eden skaler bir ödül puanını tahmin etmek için bu karşılaştırma verileri üzerinde eğitilir.
  3. Takviyeli Öğrenme Optimizasyonu: Orijinal model etkili bir şekilde Bir yapay zeka ajanı içinde takviyeli öğrenme ortamı. Kullanma ödül modeli bir rehber olarak, aşağıdaki gibi algoritmalar Proksimal Politika Optimizasyonu (PPO) beklenen ödülü maksimize etmek için temsilcinin parametrelerini ayarlar. Bu adım, modelin politikasını temelden şu şekilde değiştirir öğrenilmiş insan tercihleriyle uyumlu eylemleri (zararlı sorguların kibarca reddedilmesi gibi) tercih eder.

RLHF vs Standart Takviyeli Öğrenme

Her iki yaklaşım da bir ödülün maksimize edilmesine dayanmakla birlikte, bu ödülün kaynağı onları önemli ölçüde farklılaştırmaktadır.

  • Standart Takviyeli Öğrenme (RL): Geleneksel RL'de ödül fonksiyonu genellikle sabit kodludur veya çevre tarafından matematiksel olarak tanımlanır. Örneğin, bir satranç oyununda, çevre açık ve net bir Sinyal: Kazanç için +1, kayıp için -1. Temsilci, bu tanımlı sinyal dahilinde deneme yanılma yoluyla öğrenir. Markov Karar Süreci (MDP).
  • RLHF: Özet yazmak veya kibarca araba kullanmak gibi birçok gerçek dünya görevinde matematiksel "başarı" formülünü açıkça tanımlamak imkansızdır. RLHF bunu, sabit kodlu "başarı" formülünün yerine insan geri bildiriminden türetilen öğrenilmiş bir ödül modeli ile ödüllendirilir. Bu, soyut kavramların optimizasyonuna izin verir "yardımseverlik" veya "güvenlik" gibi doğrudan programlanması zor olan kavramlar.

Gerçek Dünya Uygulamaları

RLHF, özellikle yüksek güvenlik standartları gerektiren alanlarda yapay zeka sistemlerinin dünyayla etkileşim biçimini dönüştürdü ve incelikli bir anlayış.

  • Diyaloğa Dayalı Yapay Zeka ve Sohbet Robotları: RLHF'nin en belirgin kullanımı, sohbet robotlarını şu şekilde hizalamaktır yararlı ve zararsızdır. RLHF, zehirli, önyargılı veya gerçekte yanlış olan çıktıları cezalandırarak LLM'lerde halüsinasyon ve algoritmik önyargı. Asistanların aşağıdakileri yapabilmesini sağlar Meşru sorgular için yararlı kalırken tehlikeli talimatları reddeder.
  • Robotik ve Otonom Ajanlar: Metnin ötesinde, RLHF şu alanlarda uygulanmaktadır Ajanlara karmaşık fiziksel görevleri öğretmek için robotik. İçin Örneğin, kırılgan nesneleri kavramayı öğrenen bir robot kolu, insan denetçilerden hangi kavrama yönteminin kullanılacağı konusunda geri bildirim alabilir. girişimleri güvenli ve farklı başarısızlıklardı. Bu geri bildirim, kontrol politikasını basit kontrol politikasından daha etkili bir şekilde iyileştirir. derin pekiştirmeli öğrenme tabanlı sadece görev tamamlama üzerine. Benzer yöntemler yardımcı olur sürüş öğrenmede otonom araçlar İnsan yolculara doğal gelen davranışlar.

Algının RLHF ile Bütünleştirilmesi

Görsel uygulamalarda, RLHF aracıları genellikle durumunu algılamak için bilgisayar görüşü (CV) çevreleri. Aşağıdakiler gibi sağlam bir dedektör YOLO11, can sistemin "gözleri" olarak işlev görür ve yapılandırılmış gözlemler sağlar (örn. sol") ilke ağının bir eylem seçmek için kullandığı.

Aşağıdaki örnekte, bir YOLO modelinin bir çevre için çevresel durumu sağladığı basitleştirilmiş bir kavram gösterilmektedir ajan. Tam bir RLHF döngüsünde, "ödül" insan tercihleri üzerine eğitilmiş bir model tarafından belirlenecektir Temsilcinin güvenine veya doğruluğuna ilişkin olarak.

from ultralytics import YOLO

# Load YOLO11 to act as the perception layer for an RL agent
model = YOLO("yolo11n.pt")

# The agent observes the environment (an image) to determine its state
results = model("https://ultralytics.com/images/bus.jpg")

# In an RL loop, the agent's 'reward' might depend on detecting critical objects
# Here, we simulate a simple reward based on the confidence of detections
# In RLHF, this reward function would be a complex learned model
observed_reward = sum(box.conf.item() for box in results[0].boxes)

print(f"Agent Observation: Detected {len(results[0].boxes)} objects.")
print(f"Simulated Reward Signal: {observed_reward:.2f}")

Geliştiriciler, güçlü algı modellerini insan geri bildirimleriyle uyumlu politikalarla birleştirerek şu sistemleri oluşturabilirler sadece akıllı değil, aynı zamanda titizlikle kontrol edilir YZ güvenliği. Aşağıdakiler gibi ölçeklenebilir gözetim araştırmaları Anayasal Yapay Zeka, büyük ölçekli insan açıklamalarına olan yoğun bağımlılığı azaltmayı amaçlayarak bu alanı geliştirmeye devam etmektedir.

Ultralytics topluluğuna katılın

Yapay zekanın geleceğine katılın. Küresel yenilikçilerle bağlantı kurun, işbirliği yapın ve birlikte büyüyün

Şimdi katılın