Direct Preference Optimization

Doğrudan Tercih Optimizasyonu'nun (DPO) yapay zeka hizalamasını nasıl basitleştirdiğini öğren. Geleneksel RLHF'den daha verimli bir şekilde model güvenliğini ve performansını nasıl iyileştireceğini keşfet.

Doğrudan Tercih Optimizasyonu (DPO), yapay zeka modellerini ince ayar yapmak, özellikle de insan arzuları ve güvenlik standartlarıyla uyumlu olmalarını sağlamak için kullanılan kararlı ve verimli bir algoritmik tekniktir. Karmaşık ödül modellemesi gerektiren geleneksel pekiştirmeli öğrenme yöntemlerinin aksine DPO, tercih öğrenme problemini bir sınıflandırma görevi olarak ele alarak uyum sürecini basitleştirir. Geliştiriciler, modelin insan tercihlerinden oluşan bir veri kümesine göre doğrudan optimize edilmesiyle—yani açıklayıcıların bir "kazanan" yanıtı bir "kaybeden" yanıtına tercih etmesiyle—temel modellerin ve üretken yapay zeka sistemlerinin yardımseverliğini, dürüstlüğünü ve güvenliğini önemli ölçüde artırabilirler. Bu yaklaşım, çok daha az hesaplama yüküyle en son teknoloji sonuçlarına ulaşma becerisi nedeniyle 2024 ve 2025 yıllarında büyük bir ilgi görmüştür.

Link to this sectionDPO Model Uyumunu Nasıl Basitleştirir#

Doğrudan Tercih Optimizasyonu'nun temel yeniliği, eski uyum süreçlerinde bulunan "aracıları" ortadan kaldırmasında yatar. Geçmişte, bir Büyük Dil Modelini (LLM) veya bir Görsel-Dil Modelini uyumlu hale getirmek, İnsan Geri Bildirimi ile Pekiştirmeli Öğrenme (RLHF) olarak bilinen çok adımlı bir süreç gerektiriyordu. RLHF, insan puanlamasını yaklaşık olarak tahmin etmek için ayrı bir ödül modelinin eğitilmesini ve ardından ana modeli güncellemek için PPO (Proksimal Politika Optimizasyonu) gibi istikrarsızlığa meyilli bir algoritmanın kullanılmasını gerektirir.

DPO, bu ayrı ödül modeline olan ihtiyacı matematiksel olarak ortadan kaldırır. Bunun yerine, "tercih edilen" çıktıların oluşturulma olasılığını artırırken, "reddedilen" çıktıların olasılığını azaltan türetilmiş bir kayıp fonksiyonu kullanır. Bu, güncellenen modelin orijinal eğitim verisi dağılımından çok fazla sapmamasını sağlamak için bir referans modeline dayanır. Bu matematiksel basitleştirme, sürecin standart denetimli öğrenmeye çok daha yakın davranmasını sağlar ve GPU donanımı üzerinde daha hızlı yakınsama ve daha düşük bellek kullanımı ile sonuçlanır.

Link to this sectionRLHF'den Farkı#

DPO ve RLHF, Yapay Zeka Güvenliği ve uyum hedefini paylaşsa da, uygulamaları önemli ölçüde farklılık gösterir:

Karmaşıklık: RLHF, eğitim sırasında aynı anda birden fazla modelin (aktör, eleştirmen, ödül modeli, referans modeli) sürdürülmesini içerir. DPO ise yalnızca eğitilmekte olan modeli ve dondurulmuş bir referans modelini gerektirir.
Kararlılık: Pekiştirmeli öğrenme, hiperparametre ayarına karşı oldukça hassastır. DPO genellikle standart bir sınıflandırma görevinin kararlılığıyla çalışır ve model çökmesi riskini azaltır.
Verimlilik: Ödül modeli çıkarım adımlarını kaldırarak, DPO hesaplama yükünü azaltır ve kurumların daha büyük modelleri daha küçük kümeler üzerinde hizalamasına olanak tanır.

Link to this sectionGerçek Dünya Uygulamaları#

Doğrudan Tercih Optimizasyonu, günümüzde etkileşimli yapay zeka sistemlerinin çeşitli endüstrilerde nasıl oluşturulduğunu yeniden şekillendiriyor.

Link to this sectionSohbet Ajanlarının geliştirilmesi#

Sohbet botları ve sanal asistanlar alanında DPO, toksisiteyi azaltmak ve olgusal doğruluğu artırmak için kullanılır. Geliştiriciler, bir insan açıklayıcının bir isteme verilen iki yanıtı gözden geçirdiği veri kümeleri oluşturur; bunlardan biri halüsinasyon içerikli veya kaba, diğeri ise doğru ve kibardır. İnsan, kibar yanıtı "seçilmiş" olarak işaretler. DPO daha sonra model ağırlıklarını seçilen stili destekleyecek şekilde günceller. Bu, katı Yapay Zeka Etiği kurallarına bağlı kalan müşteri hizmetleri ajanlarını devreye almak için kritik öneme sahiptir.

Link to this sectionGörsel-Dil Modellerini İyileştirme#

Bilgisayarlı görü geliştikçe, modellerden gördüklerini açıklamaları giderek daha fazla beklenmektedir. Görüntü alt yazısı veya görsel soru yanıtlama gibi uygulamalar için DPO, araştırmacıların modelin metinsel çıktısını ayrıntılı insan tercihleriyle uyumlu hale getirmesine olanak tanır. Örneğin, bir kullanıcı bir güvenlik sistemine "davetsiz misafiri tarif et" derse, DPO modeli şiirsel veya belirsiz tanımlar yerine olgusal tanımlara (örneğin, "kırmızı gömlekli, mavi şapkalı") öncelik verecek şekilde eğitebilir ve bu da bilgisayarlı görü sisteminin kullanışlılığını artırır.

Link to this sectionModern Yapay Zeka İş Akışında DPO#

Implementing DPO requires high-quality pairwise data. Modern workflows often utilize tools like the Ultralytics Platform to manage datasets, ensuring that the data annotation process yields clear "winner" and "loser" examples. While DPO was pioneered for text, its principles are increasingly applied to optimize object detection architectures and other modalities by framing quality metrics as preference pairs.

torch kullanan aşağıdaki Python kod parçası, DPO tarzı bir kayıp hesaplaması için gereken temel veri yapısını göstermektedir. Bu, modern model optimizasyonu için kritik bir kavram olan "seçilmiş" ve "reddedilmiş" yanıtların yığınlar (batches) halinde nasıl hazırlandığını gösterir.

import torch
import torch.nn.functional as F

# Simulate log probabilities for 'chosen' and 'rejected' responses
# In a real scenario, these come from your model (e.g., a VLM or LLM)
chosen_log_probs = torch.tensor([-0.5, -0.8, -0.2], requires_grad=True)
rejected_log_probs = torch.tensor([-2.5, -3.0, -1.5], requires_grad=True)

# DPO aims to maximize the margin between chosen and rejected
# This is a simplified conceptual look at the margin calculation
beta = 0.1  # A hyperparameter controlling deviation from the reference model
logits = beta * (chosen_log_probs - rejected_log_probs)

# The loss minimizes the negative log sigmoid of this margin
loss = -F.logsigmoid(logits).mean()

print(f"DPO Loss: {loss.item()}")
# Output demonstrates the penalty applied if the model doesn't prefer the chosen data

DPO gibi tekniklerden yararlanarak, geliştiriciler Ultralytics YOLO26 gibi modellerde performansın sınırlarını zorlayabilir ve otomatik kararların yalnızca doğru değil, aynı zamanda insan niyetiyle de uyumlu olmasını sağlayabilirler. Bu, güvenilirliğin en önemli olduğu otonom araçlar ve tıbbi görüntü analizi gibi yüksek riskli ortamlar için hayati önem taşır.

Link to this sectionHarici Kaynaklar#

Orijinal Makale: Rafailov ve ark. (2023) tarafından hazırlanan Doğrudan Tercih Optimizasyonu: Dil Modeliniz Gizlice Bir Ödül Modelidir başlıklı temel araştırmayı okuyun.
Stanford HAI: Stanford Üniversitesi'nden Uyum ve İnsan Tercihleri hakkındaki içgörüleri keşfedin.
PyTorch Dokümantasyonu: PyTorch API referansındaki belirli kayıp fonksiyonlarının uygulanmasına ilişkin teknik ayrıntıları inceleyin.