Sözlük

İnsan Geri Bildiriminden Takviyeli Öğrenme (RLHF)

İnsan Geri Bildiriminden Takviyeli Öğrenmenin (RLHF) daha güvenli ve daha akıllı yapay zeka için modelleri insan değerleriyle uyumlu hale getirerek yapay zeka performansını nasıl iyileştirdiğini keşfedin.

YOLO modellerini Ultralytics HUB ile basitçe
eğitin

Daha fazla bilgi edinin

İnsan Geri Bildiriminden Takviyeli Öğrenme (RLHF), yapay zeka modellerini, özellikle de büyük dil modellerini (LLM 'ler) ve diğer üretken sistemleri, insan niyetleri ve tercihleriyle daha yakından uyumlu hale getirmek için tasarlanmış gelişmiş bir makine öğrenimi (ML) tekniğidir. Standart Takviyeli Öğrenme (RL) paradigmasını, insan geri bildirimini doğrudan eğitim döngüsüne dahil ederek geliştirir ve Yapay Zekayı (YZ), bu niteliklerin geleneksel ödül işlevleri aracılığıyla belirlenmesi zor olsa bile yararlı, zararsız ve dürüst davranışları öğrenmeye yönlendirir. Bu yaklaşım, basit doğruluk ölçütlerinin ötesine geçerek insan değerleriyle uyumlu nüanslı performansa doğru ilerleyen daha güvenli ve daha kullanışlı YZ sistemleri geliştirmek için çok önemlidir.

RLHF Nasıl Çalışır?

RLHF tipik olarak, bir ödül modelini eğitmek için insan yargısını entegre eden ve daha sonra birincil YZ modelinin ince ayarına rehberlik eden çok adımlı bir süreci içerir:

  1. Bir Modelin Ön Eğitimi: Bir başlangıç modeli (örneğin, bir LLM) standart yöntemler, genellikle denetimli öğrenme kullanılarak büyük bir veri kümesi üzerinde eğitilir. Bu model ilgili içeriği üretebilir ancak belirli bir hizalamadan yoksun olabilir.
  2. İnsan Geri Bildirimi Toplama: Önceden eğitilmiş model, çeşitli istemler için birden fazla çıktı üretir. İnsan değerlendiriciler bu çıktıları kalite, yararlılık, zararsızlık veya istenen diğer kriterlere göre sıralar. Bu karşılaştırmalı geri bildirim genellikle insanlar için mutlak puanlardan daha güvenilir ve daha kolaydır. Bu veriler bir tercih veri kümesi oluşturur.
  3. Bir Ödül Modelinin Eğitilmesi: Ödül modeli olarak bilinen ayrı bir model, insan tercihi verileri üzerinde eğitilir. Amacı, bir insanın hangi çıktıyı tercih edeceğini tahmin etmek, esasen insan yargısını taklit etmeyi ve skaler bir ödül sinyali atamayı öğrenmektir.
  4. Takviyeli Öğrenme ile ince ayar: Orijinal AI modeli daha sonra RL (özellikle Proximal Policy Optimization (PPO) gibi algoritmalar) kullanılarak ince ayarlanır. Ödül modeli bu aşamada ödül sinyalini sağlar. YZ modeli farklı çıktıları keşfeder ve ödül modeli tarafından tercih edilenler güçlendirilerek modelin davranışını insan tercihlerine doğru yönlendirir. RL'nin temel kavramları Sutton & Barto'nun giriş yazısı gibi kaynaklarda ayrıntılı olarak açıklanmaktadır.

Bu yinelemeli döngü, YZ modelinin programatik olarak tanımlanması zor olan karmaşık, öznel hedefleri öğrenmesine yardımcı olarak YZ etiği gibi unsurları geliştirir ve algoritmik önyargıyı azaltır.

RLHF ve İlgili Kavramlar

  • Standart Takviyeli Öğrenme (RL): Geleneksel RL, çevresel durumlara ve eylemlere dayalı olarak açıkça programlanmış ödül işlevlerine dayanır. RLHF, bunu insan tercihlerine dayalı öğrenilmiş bir ödül modeliyle değiştirir veya tamamlar, böylece daha nüanslı veya öznel hedefleri yakalamasına olanak tanır. Daha gelişmiş RL teknikleri için derin takviye öğrenimini keşfedin.
  • Anayasal Yapay Zeka (CAI): Tarafından geliştirilmiştir AnthropicCAI ise alternatif bir hizalama tekniğidir. RLHF, ödül modelini hem yardımseverlik hem de zararsızlık açısından eğitmek için insan geri bildirimini kullanırken, CAI, modeli zararsızlık açısından denetlemek için önceden tanımlanmış bir "anayasa" (bir dizi kural veya ilke) tarafından yönlendirilen AI geri bildirimini kullanır ve genellikle yardımseverlik için insan geri bildirimini kullanmaya devam eder. Anthropic'in araştırmasında CAI hakkında daha fazla bilgi edinin.

RLHF'nin Temel Uygulamaları

RLHF, yapay zeka davranışının insan değerleri ve beklentileriyle yakından uyumlu olması gereken uygulamalarda giderek daha önemli hale gelmiştir:

  • Sohbet Robotlarını ve Sanal Asistanları İyileştirme: Diyaloğa dayalı yapay zekayı daha ilgi çekici, yararlı ve zararlı, önyargılı veya saçma yanıtlar üretmeye daha az eğilimli hale getirmek. Bu, GPT-4 gibi modellere ince ayar yapmayı içerir.
  • İçerik Üretimi: İstenen stillere veya kalite standartlarına daha iyi uyan çıktılar üretmek için metin özetleme veya metin oluşturma gibi görevlere yönelik modellerin iyileştirilmesi.
  • Öneri Sistemlerinin Kişiselleştirilmesi: Basit tıklama oranlarının ötesinde, kullanıcıların gerçekten ilginç veya yararlı bulduğu içerikleri önermek için öneri motorlarını ayarlama.
  • Daha Güvenli Otonom Araçların Geliştirilmesi: Güvenlik kurallarının yanı sıra sürüş tarzına ilişkin insan tercihlerinin (örneğin, akıcılık, atılganlık) dahil edilmesi.

Gerçek Dünyadan Örnekler

Chatbot Hizalama

OpenAI gibi şirketler ve Anthropic Büyük dil modellerini eğitmek için RLHF'yi yaygın olarak kullanır (örn, ChatGPT, Claude). İnsanların, YZ tarafından üretilen farklı yanıtları yararlılık ve zararsızlığa göre sıralamasını sağlayarak, YZ'leri daha güvenli, daha etik ve daha yararlı metinler üretmeye yönlendiren ödül modellerini eğitiyorlar. Bu, zararlı veya önyargılı çıktılarla ilişkili riskleri azaltmaya yardımcı olur ve sorumlu YZ geliştirme ilkelerine bağlı kalır.

Otonom Sürüş Tercihleri

RLHF, sürücüsüz otomobiller için yapay zeka geliştirirken, sürücülerden veya yolculardan simüle edilmiş sürüş davranışları (örneğin, şerit değişiklikleri sırasında konfor, hızlanma yumuşaklığı, belirsiz durumlarda karar verme) hakkında geri bildirim alabilir. Bu, yapay zekanın yalnızca mesafe veya hız sınırları gibi nesnel ölçütlere göre güvenli olan değil, aynı zamanda insanlar için rahat ve sezgisel hissettiren sürüş stillerini öğrenmesine yardımcı olarak kullanıcı güvenini ve kabulünü artırır. Bu, aşağıdaki gibi modeller tarafından gerçekleştirilen nesne algılama gibi geleneksel bilgisayarla görme görevlerini tamamlar Ultralytics YOLO.

RLHF'nin Faydaları

  • Geliştirilmiş Hizalama: İnsan tercihlerini doğrudan dahil ederek, kullanıcı niyetleri ve değerleriyle daha iyi eşleşen yapay zeka sistemlerine yol açar.
  • Öznelliğin Ele Alınması: Kalitenin öznel olduğu ve basit bir metrikle tanımlanmasının zor olduğu görevler için etkilidir (örneğin, yaratıcılık, nezaket, güvenlik).
  • Geliştirilmiş Güvenlik: İstenmeyen çıktılar hakkında insan yargılarından öğrenerek yapay zekanın zararlı, etik olmayan veya önyargılı içerik üretme olasılığını azaltmaya yardımcı olur.
  • Uyarlanabilirlik: Modellerin, hedeflenen geri bildirimlere dayalı olarak belirli alanlar veya kullanıcı grupları için ince ayar yapılmasına olanak tanır.

Zorluklar ve Gelecek Yönelimleri

Güçlü yönlerine rağmen RLHF zorluklarla karşı karşıyadır:

  • Ölçeklenebilirlik ve Maliyet: Yüksek kaliteli insan geri bildirimi toplamak pahalı ve zaman alıcı olabilir.
  • Geri Bildirim Kalitesi ve Önyargı: İnsan tercihleri tutarsız, önyargılı veya uzmanlıktan yoksun olabilir, bu da potansiyel olarak ödül modelinde veri kümesi yan lılığına yol açar. Çeşitli ve temsili geri bildirimlerin sağlanması çok önemlidir.
  • Ödül Korsanlığı: YZ, amaçlanan insan tercihini gerçekten yerine getirmeden ödül modeli tarafından öngörülen ödülü en üst düzeye çıkarmanın yollarını bulabilir (ödül korsanlığı veya şartname oyunu olarak bilinir).
  • Karmaşıklık: RLHF işlem hattının tamamını uygulamak, denetimli öğrenme, takviyeli öğrenme ve büyük ölçekli model eğitimini yönetme dahil olmak üzere makine öğreniminin birçok alanında uzmanlık gerektirir.

Gelecekteki araştırmalar, daha verimli geri bildirim yöntemlerine (örneğin, etiketleme için yapay zeka yardımı kullanmak), önyargıyı azaltmaya, ödül modellerinin sağlamlığını artırmaya ve RLHF'yi daha geniş bir yapay zeka görev yelpazesine uygulamaya odaklanmaktadır. Hugging Face'in TRL kütüphanesi gibi araçlar RLHF uygulamasını kolaylaştırır. Ultralytics HUB gibi platformlar, veri kümelerini ve eğitim modellerini yönetmek için altyapı sağlar; bu da gelecekte bilgisayarla görme gibi alanlarda özel hizalama görevleri için insan geri bildirim mekanizmalarını potansiyel olarak entegre edebilir. Bu tür platformları kullanmaya başlama hakkında daha fazla ayrıntı için Ultralytics HUB Hızlı Başlangıç kılavuzuna bakın. RLHF'yi anlamak, etkili Makine Öğrenimi Operasyonları (MLOps) ve yapay zekada şeffaflığı sağlamak için giderek daha önemli hale geliyor.

Tümünü okuyun