Sözlük

İnsan Geri Bildiriminden Takviyeli Öğrenme (RLHF)

İnsan Geri Bildiriminden Takviyeli Öğrenmenin (RLHF) daha güvenli ve daha akıllı yapay zeka için modelleri insan değerleriyle uyumlu hale getirerek yapay zeka performansını nasıl iyileştirdiğini keşfedin.

İnsan Geri Bildiriminden Güçlendirme Öğrenimi (RLHF), yapay zeka (AI) modellerini karmaşık, öznel insan değerleriyle uyumlu hale getirmek için tasarlanmış gelişmiş bir makine öğrenimi tekniğidir. RLHF, önceden tanımlanmış bir ödül fonksiyonuna güvenmek yerine, yapay zekanın öğrenme sürecine rehberlik eden bir "ödül modeli" eğitmek için insan tercihlerini kullanır. Bu yaklaşım özellikle "iyi" performans tanımının nüanslı, öznel veya güvenli, yararlı ve tutarlı diyaloglar oluşturmak gibi basit bir ölçütle belirlenmesinin zor olduğu görevler için etkilidir.

RLHF Nasıl Çalışır?

RLHF süreci tipik olarak üç temel adımdan oluşur:

  1. Bir Dil Modelinin Önceden Eğitilmesi: Geniş bir metin verisi külliyatı üzerinde önceden eğitilmiş temel bir büyük dil modeli (LLM) ile başlar. Temel modele benzeyen bu ilk model, geniş bir dil anlayışına sahiptir ancak henüz belirli bir stil veya görev için uzmanlaşmamıştır. Bu adımı isteğe bağlı olarak yüksek kaliteli bir veri kümesi üzerinde denetimli ince ayar izleyebilir.
  2. Ödül Modeli Eğitimi: Bu, RLHF'nin özüdür. İnsan etiketleyicilere, bir komut istemine yanıt olarak önceden eğitilmiş model tarafından üretilen çeşitli çıktılar sunulur. Bu çıktıları yardımseverlik, doğruluk ve güvenlik gibi kriterlere göre en iyiden en kötüye doğru sıralarlar. Bu tercih verileri daha sonra ayrı bir ödül modelini eğitmek için kullanılır. Ödül modeli, bir insanın hangi çıktıları tercih edeceğini tahmin etmeyi öğrenerek insan yargısını etkili bir şekilde yakalar.
  3. Takviyeli Öğrenme ile ince ayar: Önceden eğitilmiş model, takviyeli öğrenme (RL) kullanılarak daha da ince ayarlanır. Bu aşamada, model (aracı olarak hareket eden) çıktılar üretir ve ödül modeli her çıktı için bir "ödül" puanı sağlar. Genellikle Proximal Policy Optimization (PPO) gibi algoritmalarla yönetilen bu süreç, AI modelini, ödülü en üst düzeye çıkaran yanıtlar üretmek için parametrelerini ayarlamaya teşvik eder, böylece davranışını öğrenilen insan tercihleriyle uyumlu hale getirir. OpenAI ve DeepMind gibi kuruluşların öncü çalışmaları bunun etkinliğini göstermiştir.

Gerçek Dünya Uygulamaları

RLHF, modern yapay zeka sistemlerinin geliştirilmesinde etkili olmuştur.

  • Gelişmiş Sohbet Robotları: OpenAI'nin ChatGPT'si ve Anthropic'in Claude'u gibi önde gelen yapay zeka sohbet robotları, yanıtlarının yalnızca doğru değil, aynı zamanda zararsız, etik ve kullanıcı niyetiyle uyumlu olmasını sağlamak için RLHF kullanır. Bu, büyük ölçekli üretken YZ'de yaygın bir zorluk olan önyargılı veya toksik içerik oluşturma gibi sorunların azaltılmasına yardımcı olur.
  • Otonom Sürüş Tercihleri: RLHF, sürücüsüz otomobiller için yapay zeka geliştirirken, şerit değiştirme sırasında konfor veya belirsiz durumlarda karar verme gibi simüle edilmiş davranışlar hakkında sürücülerden gelen geri bildirimleri dahil edebilir. Bu, yapay zekanın insanlara sezgisel ve güvenilir gelen sürüş stillerini öğrenmesine yardımcı olur ve Ultralytics YOLO gibi modeller tarafından gerçekleştirilen nesne algılama gibi geleneksel bilgisayarla görme görevlerini tamamlar.

RLHF ve İlgili Kavramlar

RLHF'yi diğer yapay zeka öğrenme tekniklerinden ayırmak önemlidir.

  • Takviyeli Öğrenme: Standart RL, geliştiricilerin istenen davranışı tanımlamak için manuel olarak bir ödül fonksiyonu tasarlamasını gerektirir. Bu, net skorları olan oyunlar için basittir ancak karmaşık, gerçek dünya görevleri için zordur. RLHF bunu, ödül fonksiyonunu insan geri bildiriminden öğrenerek çözer ve başarı için bariz bir ölçütü olmayan problemler için uygun hale getirir.
  • Denetimli Öğrenme: Denetimli öğrenme, modelleri tek bir "doğru" yanıta sahip veri kümeleri üzerinde eğitir. Bu yaklaşım, birden fazla iyi cevabın mevcut olduğu yaratıcı veya öznel görevler için daha az etkilidir. RLHF'nin tercih sıralamalarını kullanması (örneğin, "A, B'den daha iyidir"), belirsizliğin üstesinden gelmesine ve nüanslı davranışları öğrenmesine olanak tanır.

Zorluklar ve Gelecek Yönelimleri

RLHF, gücüne rağmen zorluklarla karşı karşıyadır. Yüksek kaliteli insan geri bildirimi toplamak pahalıdır ve etiketleyiciler çeşitli değilse veri kümesi önyargısına neden olabilir. Ayrıca yapay zeka, ödül hackleme olarak bilinen bir olgu olan ödül modeliyle "oynamanın" yollarını keşfedebilir.

Gelecekteki araştırmalar, modeli yönlendirmek için yapay zeka tarafından oluşturulan ilkeleri kullanan Anayasal Yapay Zeka gibi daha verimli geri bildirim yöntemlerini ve alternatifleri araştırıyor. RLHF'yi uygulamak birden fazla makine öğrenimi alanında uzmanlık gerektirir, ancak Hugging Face'in TRL kütüphanesi gibi araçlar bunu daha erişilebilir hale getirmektedir. Ultralytics HUB gibi platformlar, gelişmiş hizalama görevleri ve sağlam Makine Öğrenimi Operasyonları (MLOps) için temel olan veri kümelerini ve eğitim modellerini yönetmek için altyapı sağlar.

Ultralytics topluluğuna katılın

Yapay zekanın geleceğine katılın. Küresel yenilikçilerle bağlantı kurun, işbirliği yapın ve büyüyün

Şimdi katılın
Panoya kopyalanan bağlantı